linux下的文字识别软件tesseract ( OCR software in Linux: tesseract )
访问量: 6276
WINDOWS下有汉王OCR识别,免费的LINUX世界有啥与之对应呢? 我找到了tesseract.
具体的官方文档在这里(click to view the offical doc ):
Ubuntu下的安装步骤: (setup steps under ubuntu )
1.安装对应的lib (install the libs)
sudo apt-get install autoconf automake libtool sudo apt-get install libpng12-dev sudo apt-get install libjpeg62-dev sudo apt-get install libtiff4-dev sudo apt-get install zlib1g-dev
sudo apt-get install libleptonica # install leptonica
2. install tesseract 3.00
$ wget http://tesseract-ocr.googlecode.com/files/tesseract-3.00.tar.gz $tar zxvf tesseract-3.00.tar.gz $ cd tesseract-3.00 && ./configure && make && sudo make install
3. 安装中文字库 (install Chinese lib )
$ wget http://tesseract-ocr.googlecode.com/files/chi_sim.traineddata.gz $ gunzip chi_sim.traineddata.gz $ sudo cp chi_sim.traineddata /usr/local/share/tessdata/
4. 把图片转换成tif 格式,然后使用: (usage)
$ tesseract apple.tif result -l chi_sim
注意的几点: (NOTICE)
1. 速度比较慢。 不过可以忍受,免费的么。 (slow, but it doesn't matter, what I care is tesseract is free )
2. 图片的文字要做到水平。如果你的图片文字是斜的,会影响效果,建议先用“旋转”功能把图片处理一下。 ( if your text is not vertical, you have to make some changes to the image using "notation" tools or something )