Python的正方体不能认识到这一点的字体

https://stackoverflow.com/questions/1762565

21-09-2019
|

题

我有这样的图像：

“替代文字”

我想读给使用python，这是我没有想到的字符串将是困难的。我来到的tesseract，然后Python脚本的包装使用的tesseract。

所以我开始阅读的图像，它完成伟大的，直到我试图阅读这一个。我该怎么要训练它来读取特定的字体？对特定的字体是什么任何想法？还是有我可以使用python使用更好的OCR引擎得到这份工作完成。

编辑：也许我可以做某种载体周围的号码，然后在更大尺寸重绘他们？较大的图像是更好的tesseract OCR似乎阅读（没有惊奇笑）。

解决方案

刚训练的10个数字和一个发动机“” 。这应该这样做。并确保您OCRing之前改变你的形象为灰度。

其他提示

培训硬，是不是真的需要在这里。 O和0 L和1之间的区别将是艰苦，无论脚本。限制OCR仅个数字之间选择极大地简化了此问题，如果上下文允许时。

我在正方体的兴趣是在处理许多数字，从旧政府报告。在这种情况下，并在有问题的情况下，字符集将会像“0123456789”在2007-03-21继老（SourceForge上）新闻组的Tesseract评论，通过eric_taj，您可以修改模板 - > IndexFor和模板 - > ClassIdFor在分类/ intproto.cpp能够屏蔽不被允许的字符。我修改这种方法有点在允许字符中的环境变量在运行时设置来读取，这样我可以调整在运行中允许集。

有的Tesseract OCR讨论组中已经有很多交通对这个话题最近。您将需要使用只是数字的“语言”。很多人之前的方式已经训练有素的发动机。它看起来像你想骗过验证码数据保护方案......啧，啧。

认识到小屏幕字体可以用于通用OCR其用于读取由纸扫描大平滑字体优化很难。

您可以更好地尝试特殊的截图OCR像 Textract SDK 。它会收集所有本地字体和通过简单地匹配字符到字符提供100％精确识别。

这看起来像Eurostile字体。是的，你将有与在源图像被使用的每个不同的字体来训练。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow