Ubuntu下安装使用 tesseract-ocr

tesseract-ocr是开源的光学字符识别引擎，有Google的支持，支持很多种语言的识别，下面说一下我在Ubuntu下安装步骤

其实上说的很细，下面列出其中的命令，

注意最后一个zlib1g-dev中的1g是数字1，而不是小写字母l,

sudoapt-getinstalllibleptonica-dev

下载源文件包解压（目前是3.0），进入目录

下载语言数据包解压：你可以在这找到更多的语言包

gzip-deng.traineddata.gz

移动到数据包安装目录下，默认为 /usr/local/share/tessdata

安装图片格式转换工具，因为tesseract只识别tif格式的图片。

apt-getinstallimagemagick

你可以使用下面的命令转换图片

converta.jpga.tif

好了，测试一下吧

默认为英语，如果你要识别其它语言请使用-l 参数指定，如

你将会看到识别出的文字，，太棒了。好了，下面就可以用程序去调用识别文字了，

对于java你也可以使用tess4j封装的API，对于PHP你可以使用exec调用再对文件进行处理，

如果你遇到 lib **.so 找不到请运行

sudoldconfig

而开始追寻他内心世界的真正财富