这是tesseract3.04简体中文语言包chi_sim下载,谷歌开源OCR,tesseract的最新版本3.04的,对应的简体中文语言包,可以不用翻墙下了。
tesseract3.04简体中文语言包chi_sim可以直接将图片中的文字进行识别,其最新版本3.0已经支持中文OCR,并提供了一个命令行工具,转换成文本信息。tesseract-ocr官方下载据说曾经的图像识别能力排名第三。tesseract-ocr中文版可以识别多种格式的图像文件并将其转换成文本,目前已支持60多种语言(包括中文)。 Tesseract最初由HP公司开发,后来由Google维护,目前发布在Googel Project上。
tesseract3.04简体中文语言包chi_sim是原先惠普开发的图像识别类库,后面成为Open source,据说曾经的图像识别能力排名第三,为大家提供的版本是3.02.02 for windows。
tesseract code.jpg result -l chi_sim -psm 7 nobatch
-l chi_sim 表示用简体中文字库(需要下载中文字库文件,解压后,存放到tessdata目录下去,字库文件扩展名为 .raineddata 简体中文字库文件名为: chi_sim.traineddata)
-psm 7 表示告诉tesseract code.jpg图片是一行文本 这个参数可以减少识别错误率. 默认为 3
configfile 参数值为tessdata\configs 和 tessdata\tessconfigs 目录下的文件名