失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > python:pytesseract库实现图片文字识别

python:pytesseract库实现图片文字识别

时间:2021-11-28 07:42:29

相关推荐

python:pytesseract库实现图片文字识别

import pytesseractfrom PIL import Imagetext = pytesseract.image_to_string(Image.open(r"E:\report\chen\4.png"), lang='chi_sim')print(text)

运行结果

D:\Python3.8.6\python.exe D:/PythonWorkSpace/Auto_test_wuhan/common/utils/char_recognize.py空 调Process finished with exit code 0

图片文字识别的代码很简单,难就难在文件的配置、环境变量、语言包的下载。下面是我遇到的问题及解决方法

语言包Tesseract OCR 下载安装 (中英文语言包)下载路径如下

1.GitHub - tesseract-ocr/tessdata: Trained models with support for legacy and LSTM OCR engine

2.找到简中的语言包下载完后安装Tesseract-OCR

3.安装完成后需要配置环境变量

4.增加一个TESSDATA_PREFIX变量名,变量值还是我的安装路径C:\Program Files\Tesseract-OCR\tessdata这是将语言字库文件夹添加到变量中

5.打开终端,输入:tesseract -v,可以看到版本信息,表示安装成功

6.这个时候运行代码仍然会报错提示pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your PATH

7.在我们下载了PIL(命令pip install pillow)后,找到pytesseract.py文件,里面的tesseract_cmd='tesseract',这里并没有指定文件路径

8.修改成刚才安装的路径

9.现在运行程序就不报错啦。如果图片包含文字较多或较小,可能出现识别不准确问题,可以对图片进行剪裁,只保留要识别的区域可解决该问题。

如果觉得《python:pytesseract库实现图片文字识别》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。