Python的正方体不能认识到这一点的字体
-
21-09-2019 - |
题
我有这样的图像:
我想读给使用python,这是我没有想到的字符串将是困难的。我来到的tesseract,然后Python脚本的包装使用的tesseract。
所以我开始阅读的图像,它完成伟大的,直到我试图阅读这一个。我该怎么要训练它来读取特定的字体?对特定的字体是什么任何想法?还是有我可以使用python使用更好的OCR引擎得到这份工作完成。
编辑:也许我可以做某种载体周围的号码,然后在更大尺寸重绘他们?较大的图像是更好的tesseract OCR似乎阅读(没有惊奇笑)。
解决方案
刚训练的10个数字和一个发动机“” 。这应该这样做。并确保您OCRing之前改变你的形象为灰度。
其他提示
培训硬,是不是真的需要在这里。 O和0 L和1之间的区别将是艰苦,无论脚本。限制OCR仅个数字之间选择极大地简化了此问题,如果上下文允许时。
我在正方体的兴趣是在处理许多数字,从旧政府报告。在这种情况下,并在有问题的情况下,字符集将会像“0123456789”在2007-03-21继老(SourceForge上)新闻组的Tesseract评论,通过eric_taj,您可以修改模板 - > IndexFor和模板 - > ClassIdFor在分类/ intproto.cpp能够屏蔽不被允许的字符。我修改这种方法有点在允许字符中的环境变量在运行时设置来读取,这样我可以调整在运行中允许集。
有的Tesseract OCR讨论组中已经有很多交通对这个话题最近。您将需要使用只是数字的“语言”。很多人之前的方式已经训练有素的发动机。它看起来像你想骗过验证码数据保护方案......啧,啧。
认识到小屏幕字体可以用于通用OCR其用于读取由纸扫描大平滑字体优化很难。
您可以更好地尝试特殊的截图OCR像 Textract SDK 。它会收集所有本地字体和通过简单地匹配字符到字符提供100%精确识别。
这看起来像Eurostile字体。是的,你将有与在源图像被使用的每个不同的字体来训练。