开源的命令行OCR软件──tesseract

tesseract-ocr是一个跨平台开源的OCR软件（Optical Character Recognition，光学字符识别），它历史悠久，早期是HP实验室的项目，现托管于google code。
大部分常用的linux发行版，应该都在源里包含了此软件，所以ubuntu下只需要 sudo apt-get install tesseract-ocr tesseract-ocr-eng 就可以安装了，注意必须安装 tesseract-ocr-eng 这个是识别英文字符所必须的数据文件。而在ubuntu下，也只需要 emerge app-text/tesseract 就可以了，但是也必须给这个包添加 linguas_en 这个use，才会安装所需要的数据文件。- R I/ Q6 V N- Y* Z# r
关于数据文件，还得交代一下，其实tesseract在2.0版以后，已经有了学习能力了，如果你想提高某个字体的识别率，或者识别不在默认语言包里的UTF-8字符（比如中文）的话，可以安装这个方法来训练出自己的数据文件。& W7 ?, @% i- L/ t' D: X
这个OCR软件能干嘛呢？典型地应用就是识别验证码，哈哈。所以以这个为例，来介绍一下使用方法，先来看看这几个验证码（可“图片另存为”，然后自行测试）：6 D; W: L7 G. s: H' Y4 y/ \

这几个都是用默认的数据文件能正确识别的例子，由于tesseract只识别tiff格式的图片文件，所以识别之前，需要将图片先转成tif格式，具体如下：
$ convert cnblogs.com.jpe ppm:- | ppm2tiff yzm.tif $ tesseract yzm.tif out Tesseract Open Source OCREngine $ cat out.txt 1750
* i' [/ G+ a' U
同时，也有些比较难的验证码，是程序不能正确识别的，如下几个就是例子：

虽然识别的正确性不是非常高，但是已经很不错了，哈哈。

发表于 2010-02-22 13:44 ngaut 阅读(3823) 评论(1) 编辑收藏引用

# re: [转]开源的命令行OCR软件──tesseract 回复更多评论

我是此文的作者，你转发能标下出处么？还盗链图片

bones7456 评论于 2010-10-27 10:04

刷新评论列表

只有注册用户登录后才能发表评论。
【推荐】100%开源！大型工业跨平台软件C++源码提供，建模，组态！



网站导航: 博客园 IT新闻 BlogJava 博问 Chat2DB 管理

常用链接

留言簿(30)

随笔分类(128)

随笔档案(169)

文章分类

文章档案(3)

others

something special

经典的c/c++

搜索

积分与排名

最新评论

阅读排行榜

评论排行榜

[转]开源的命令行OCR软件──tesseract

开源的命令行OCR软件──tesseract