同tesseract ocr 训练 OCR识别对图片有要求一样茬训练新的字符集或新的字体时,对图片也有一定要求符合要求的图片,能大大提高训练的效率
在图像处理方面,去除噪声使训练嘚字符图片尽量连贯、清晰。
其他方面通常的要求如下:
1. 在一幅图片内,字体统一决不能将多种字体混合出现在一幅训练图片内;如果不是通过扫描文本获取的字符图片,这个条件很容易被忽视
2. 理想条件下,同种字体的字符图片集中到一幅大的训练图片中在同一页內;
3. 要保留一定的字符间距与行间距;
4. 字符高度(大小),只要满足高度最小条件即可对于小写字符x,其高度要至少大于10个像素一般統一采用一种大小即可,tesseract ocr 训练 engine默认的training数据集也是一种大小;
6. 一般每个字符需要10个样本高频常见字符至少20个样本,不常见字符需要5个样本;
7. 对于同种字体多页训练图片,可以在训练中件用相同的方式合并tr文件和box文件,两类文件内的字符次序要相同利于提高训练效果。
茬获取训练字符图片方面不一定非要从待识别图片中收集,可以利用word字符集找到对应字体打印,扫描获取训练图片,简单、方便這个根据实际情况来应用。
大意是没有增量训练的方式,把新的训练数据加入现有的数据集
查看tesseract ocr 训练 3.01的源码,目前没有处理多语言的狀况
而在tesseract ocr 训练 3.02版本已提供了 新增字体库 联合识别 的功能,不过写此文时tesseract ocr 训练 3.02只有 开发的版本,并没有release可以获取源码,自己编译按照3.01的方式进行设置,按照