我正在寻找一种方法来确定最“不同”的方法。或“可识别的” N个ASCII字符...例如,如果N = 10,那么从0x21到0x7E的ASCII集中最不同的N个字符是什么?显然,字符“X”表示字符“X”。与“O”非常不同。 (字母),但是“O” (字母)非常类似于“0”。 (零)。假设一个受限制的OCR字符子集,这样零和字母O将仅被检测为一个或另一个,并且一个人不必担心它是零还是字母O,那么最不同的N是多少典型的OCR引擎(例如Tesseract)容易从质量差的输入图像中识别出的字符?假设。例如“+”和“t”可能被广泛误认为是彼此。可以制作,并且因此每个输入字符,无论它是否为“+”。或“t”或“t”。只会对应一个或另一个。

谢谢, 本

有帮助吗?

解决方案

不幸的是,我认为没有一个独特的答案。

它取决于字体:比较0,f,s表示的不同方式以及风格的繁荣。

这取决于角色在被扫描之前所受到的伤害类型,有些可能更有弹性抵御污染,有些则可以防止割伤,有些则可以防止过度写作。

如果您正在寻找最能幸存下来进行打印,扫描和OCR的表示,那么一维或二维条码可能是更好的选择吗?

其他提示

只有一种方法可以回答这个问题:测试一下。为每个字母创建一组样本,并在每个样本上运行OCR。 OCR最常出现的字母是最“可识别的”; OCR最常出错的字母往往是最“不同”的字母。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top