失眠网 > python:pytesseract库实现图片文字识别

python:pytesseract库实现图片文字识别

时间：2021-11-28 07:42:29

import pytesseractfrom PIL import Imagetext = pytesseract.image_to_string(Image.open(r"E:\report\chen\4.png"), lang='chi_sim')print(text)

运行结果

D:\Python3.8.6\python.exe D:/PythonWorkSpace/Auto_test_wuhan/common/utils/char_recognize.py空调Process finished with exit code 0

图片文字识别的代码很简单，难就难在文件的配置、环境变量、语言包的下载。下面是我遇到的问题及解决方法

语言包Tesseract OCR 下载安装（中英文语言包）下载路径如下

1.GitHub - tesseract-ocr/tessdata: Trained models with support for legacy and LSTM OCR engine

2.找到简中的语言包下载完后安装Tesseract-OCR

3.安装完成后需要配置环境变量

4.增加一个TESSDATA_PREFIX变量名，变量值还是我的安装路径C:\Program Files\Tesseract-OCR\tessdata这是将语言字库文件夹添加到变量中

5.打开终端，输入：tesseract -v，可以看到版本信息，表示安装成功

6.这个时候运行代码仍然会报错提示pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your PATH

7.在我们下载了PIL（命令pip install pillow）后，找到pytesseract.py文件，里面的tesseract_cmd='tesseract'，这里并没有指定文件路径

8.修改成刚才安装的路径

9.现在运行程序就不报错啦。如果图片包含文字较多或较小，可能出现识别不准确问题，可以对图片进行剪裁，只保留要识别的区域可解决该问题。

如果觉得《python:pytesseract库实现图片文字识别》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。