OCR - 大多数“不同”或“可识别” ASCII字符?
-
06-07-2019 - |
题
我正在寻找一种方法来确定最“不同”的方法。或“可识别的” N个ASCII字符...例如,如果N = 10,那么从0x21到0x7E的ASCII集中最不同的N个字符是什么?显然,字符“X”表示字符“X”。与“O”非常不同。 (字母),但是“O” (字母)非常类似于“0”。 (零)。假设一个受限制的OCR字符子集,这样零和字母O将仅被检测为一个或另一个,并且一个人不必担心它是零还是字母O,那么最不同的N是多少典型的OCR引擎(例如Tesseract)容易从质量差的输入图像中识别出的字符?假设。例如“+”和“t”可能被广泛误认为是彼此。可以制作,并且因此每个输入字符,无论它是否为“+”。或“t”或“t”。只会对应一个或另一个。
谢谢, 本
解决方案
不幸的是,我认为没有一个独特的答案。
它取决于字体:比较0,f,s表示的不同方式以及风格的繁荣。
这取决于角色在被扫描之前所受到的伤害类型,有些可能更有弹性抵御污染,有些则可以防止割伤,有些则可以防止过度写作。
如果您正在寻找最能幸存下来进行打印,扫描和OCR的表示,那么一维或二维条码可能是更好的选择吗?
其他提示
只有一种方法可以回答这个问题:测试一下。为每个字母创建一组样本,并在每个样本上运行OCR。 OCR最常出现的字母是最“可识别的”; OCR最常出错的字母往往是最“不同”的字母。
不隶属于 StackOverflow