OCR - 大多数＆＃8220;不同＆＃8221;或＆＃8220;可识别＆＃8221; ASCII字符？

https://stackoverflow.com/questions/1412693

06-07-2019
|

题

我正在寻找一种方法来确定最“不同”的方法。或“可识别的” N个ASCII字符...例如，如果N = 10，那么从0x21到0x7E的ASCII集中最不同的N个字符是什么？显然，字符“X”表示字符“X”。与“O”非常不同。（字母），但是“O” （字母）非常类似于“0”。（零）。假设一个受限制的OCR字符子集，这样零和字母O将仅被检测为一个或另一个，并且一个人不必担心它是零还是字母O，那么最不同的N是多少典型的OCR引擎（例如Tesseract）容易从质量差的输入图像中识别出的字符？假设。例如“+”和“t”可能被广泛误认为是彼此。可以制作，并且因此每个输入字符，无论它是否为“+”。或“t”或“t”。只会对应一个或另一个。

谢谢，本

解决方案

不幸的是，我认为没有一个独特的答案。

它取决于字体：比较0，f，s表示的不同方式以及风格的繁荣。

这取决于角色在被扫描之前所受到的伤害类型，有些可能更有弹性抵御污染，有些则可以防止割伤，有些则可以防止过度写作。

如果您正在寻找最能幸存下来进行打印，扫描和OCR的表示，那么一维或二维条码可能是更好的选择吗？

其他提示

只有一种方法可以回答这个问题：测试一下。为每个字母创建一组样本，并在每个样本上运行OCR。 OCR最常出现的字母是最“可识别的”; OCR最常出错的字母往往是最“不同”的字母。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow