import pytesseractfrom PIL import Imagetext = pytesseract.image_to_string(Image.open(r"E:\report\chen\4.png"), lang='chi_sim')print(text)
运行结果
D:\Python3.8.6\python.exe D:/PythonWorkSpace/Auto_test_wuhan/common/utils/char_recognize.py空 调Process finished with exit code 0
图片文字识别的代码很简单,难就难在文件的配置、环境变量、语言包的下载。下面是我遇到的问题及解决方法
语言包Tesseract OCR 下载安装 (中英文语言包)下载路径如下
1.GitHub - tesseract-ocr/tessdata: Trained models with support for legacy and LSTM OCR engine
2.找到简中的语言包下载完后安装Tesseract-OCR
3.安装完成后需要配置环境变量
4.增加一个TESSDATA_PREFIX变量名,变量值还是我的安装路径C:\Program Files\Tesseract-OCR\tessdata这是将语言字库文件夹添加到变量中
5.打开终端,输入:tesseract -v,可以看到版本信息,表示安装成功
6.这个时候运行代码仍然会报错提示pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your PATH
7.在我们下载了PIL(命令pip install pillow)后,找到pytesseract.py文件,里面的tesseract_cmd='tesseract',这里并没有指定文件路径
8.修改成刚才安装的路径
9.现在运行程序就不报错啦。如果图片包含文字较多或较小,可能出现识别不准确问题,可以对图片进行剪裁,只保留要识别的区域可解决该问题。
如果觉得《python:pytesseract库实现图片文字识别》对你有帮助,请点赞、收藏,并留下你的观点哦!