失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > python开发:开源pytesseract文字识别

python开发:开源pytesseract文字识别

时间:2020-01-10 06:13:28

相关推荐

python开发:开源pytesseract文字识别

pytesseract是一款开源的图片文字识别库,能识别中文、英文等不少类型的语言,使用之前需要安装tesseract-ocr引擎,此引擎在windows、linux、macos上都能进行安装,(OCR,Optical Character Recognition,光学字符识别),安装完成后,对应安装pytesseract库,就能做简单的文字识别了,自带的文字类库,识别有时不准确,但是可以自己训练识别库。

“Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。然而,HP不久便决定放弃OCR业务,Tesseract也从此尘封。

数年以后,HP意识到,与其将Tesseract束之高阁,不如贡献给开源软件业,让其重焕新生--,Tesseract由美国内华达州信息技术研究所获得,并求诸于Google对Tesseract进行改进、消除Bug、优化工作 。”–百科

下边列举一下,如何在Centos7系统的环境下,搭建一个python的tesseract-ocr环境,并使用python进行简单的图片识别。

安装Tesseract-ocr,在github上有安装的网址,/tesseract-ocr/tesseract/wiki,在Centos7上,使用最简单的yum进行安装,这种方式,需要保持互联网的连接,但是也不用编译源代码进行安装了。

//更新配置,添加tesseract的地址yum-config-manager --add-repo /repositories/home:/Alexander_Pozdnyakov/CentOS_7/sudo rpm --import /projects/home:Alexander_Pozdnyakov/public_key//更新yumyum update//安装tesseractyum install tesseract //安装简体中文语言包yum install tesseract-langpack-chi_sim

安装完引擎后,安装python的开发包,使用pip进行安装,安装命令是:

pip install pytesseract

简单的图片识别代码:

import pytesseractfrom PIL import Image#打开图片image = Image.open('图片路径')#将图片中的文字转换字符串code = pytesseract.image_to_string(image, lang='chi_sim')#输出字符串print(code)

更多文章,请关注公众号

如果觉得《python开发:开源pytesseract文字识别》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。