linux下的文字识别软件tesseract ( OCR software in Linux: tesseract )

2012-10-11 12:04

访问量: 6670

WINDOWS下有汉王OCR识别，免费的LINUX世界有啥与之对应呢？我找到了tesseract.

具体的官方文档在这里(click to view the offical doc )：

Ubuntu下的安装步骤： (setup steps under ubuntu )

1.安装对应的lib (install the libs)

sudo apt-get install autoconf automake libtool
sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev
sudo apt-get install zlib1g-dev
sudo apt-get install libleptonica  # install leptonica

2. install tesseract 3.00

 $ wget http://tesseract-ocr.googlecode.com/files/tesseract-3.00.tar.gz 
$tar zxvf tesseract-3.00.tar.gz 
$ cd tesseract-3.00  && ./configure && make && sudo make install

3. 安装中文字库 (install Chinese lib )

$ wget http://tesseract-ocr.googlecode.com/files/chi_sim.traineddata.gz
$ gunzip chi_sim.traineddata.gz
$ sudo cp chi_sim.traineddata /usr/local/share/tessdata/

4. 把图片转换成tif 格式，然后使用： (usage)

$ tesseract apple.tif result -l chi_sim

注意的几点： (NOTICE)
1. 速度比较慢。不过可以忍受，免费的么。 (slow, but it doesn't matter, what I care is tesseract is free )
2. 图片的文字要做到水平。如果你的图片文字是斜的，会影响效果，建议先用“旋转”功能把图片处理一下。 ( if your text is not vertical, you have to make some changes to the image using "notation" tools or something )

订阅/RSS Feed