Back

linux下的文字识别软件tesseract ( OCR software in Linux: tesseract )

发布时间: 2012-10-11 04:04:00

WINDOWS下有汉王OCR识别,免费的LINUX世界有啥与之对应呢?  我找到了tesseract. 

具体的官方文档在这里(click to view the offical doc ):

Ubuntu下的安装步骤: (setup steps under ubuntu )

1.安装对应的lib (install the libs)

sudo apt-get install autoconf automake libtool
sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev
sudo apt-get install zlib1g-dev
sudo apt-get install libleptonica # install leptonica

2. install tesseract 3.00

 $ wget http://tesseract-ocr.googlecode.com/files/tesseract-3.00.tar.gz 
$tar zxvf tesseract-3.00.tar.gz 
$ cd tesseract-3.00  && ./configure && make && sudo make install

3. 安装中文字库 (install Chinese lib )

$ wget http://tesseract-ocr.googlecode.com/files/chi_sim.traineddata.gz
$ gunzip chi_sim.traineddata.gz
$ sudo cp chi_sim.traineddata /usr/local/share/tessdata/

4. 把图片转换成tif 格式,然后使用: (usage)

$ tesseract apple.tif result -l chi_sim 

注意的几点: (NOTICE)
1. 速度比较慢。 不过可以忍受,免费的么。  (slow, but it doesn't matter, what I care is  tesseract is free )
2. 图片的文字要做到水平。如果你的图片文字是斜的,会影响效果,建议先用“旋转”功能把图片处理一下。 ( if your text is not vertical, you have to make some changes to the image using "notation" tools or something )

Back