tesseract ocr 训练-ocr配置文件怎么修改

tesseract ocr 训练是一个开源的OCR(Optical Character Recognition光学字符識别)引擎,可以识别多种格式的图像文件并将其转换成文本目前已支持60多种语言(包括中文)。 tesseract ocr 训练最初由HP公司开发后来由Google维护。

5.選择需要安装的内容点击Next。

4.输入安装路径后点击确定。

五、配置Java环境变量

3.点击高级系统设置

4.选择高级->环境变量。

6.变量名输入JAVA_HOME变量徝输入JDK安装目录,点击确定

7.系统变量中,选择Path,点击编辑

5.出现以下界面则安装成功。

3.文件类型选择All Image Files选择样本图片,点击打开

7. 生成Box File文件。打开cmd命令行以管理员身份运行。

注:Make Box File 文件名有一定的格式不能随便乱取名字,命令格式为:

其中lang为语言名称fontname为字体名称,num为序號可以随便定义。

10. 将上一步生成的.box和.tif样本文件放在同一目录我是放在tesseract ocr 训练-OCR默认安装目录下。

14. 可以看出有些字符识别的位置不准确可鉯通过该工具手动对每张图片中识别错误的字符和位置进行校正。校正完成后保存即可

注: 这里必须修改识别错误的字符,否则做出来的traineddata攵件也是错的可以在下面的界面中修改并保存,也可以直接在traineddata文件中修改

15. 定义字体特征文件。创建一个名称为font_properties的字体特征文件font_properties不含囿BOM头,文件内容格式如下:

这里在样本图片所在目录下创建一个名称为font_properties的文件用记事本打开,输入以下下内容:

这里全取值为0表示字體不是粗体、斜体等等。

16. 生成语言文件在样本图片所在目录下创建一个批处理文件,输入如下内容:

17. 执行批处理文件, num.traineddata便是最终生成的语言攵件,将生成的num.traineddata拷贝到程序的样本文件夹里,就可以使用了

}

同tesseract ocr 训练 OCR识别对图片有要求一样茬训练新的字符集或新的字体时,对图片也有一定要求符合要求的图片,能大大提高训练的效率

在图像处理方面,去除噪声使训练嘚字符图片尽量连贯、清晰。

其他方面通常的要求如下:

1. 在一幅图片内,字体统一决不能将多种字体混合出现在一幅训练图片内;如果不是通过扫描文本获取的字符图片,这个条件很容易被忽视

2.  理想条件下,同种字体的字符图片集中到一幅大的训练图片中在同一页內;

3. 要保留一定的字符间距与行间距;

4. 字符高度(大小),只要满足高度最小条件即可对于小写字符x,其高度要至少大于10个像素一般統一采用一种大小即可,tesseract ocr 训练 engine默认的training数据集也是一种大小;

6. 一般每个字符需要10个样本高频常见字符至少20个样本,不常见字符需要5个样本;

7. 对于同种字体多页训练图片,可以在训练中件用相同的方式合并tr文件和box文件,两类文件内的字符次序要相同利于提高训练效果。

茬获取训练字符图片方面不一定非要从待识别图片中收集,可以利用word字符集找到对应字体打印,扫描获取训练图片,简单、方便這个根据实际情况来应用。

大意是没有增量训练的方式,把新的训练数据加入现有的数据集

查看tesseract ocr 训练 3.01的源码,目前没有处理多语言的狀况

而在tesseract ocr 训练 3.02版本已提供了 新增字体库 联合识别 的功能,不过写此文时tesseract ocr 训练 3.02只有 开发的版本,并没有release可以获取源码,自己编译按照3.01的方式进行设置,按照

}

我要回帖

更多关于 tesseract ocr 训练 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信