OCR – самые «разные» или «узнаваемые» символы ASCII?

https://stackoverflow.com/questions/1412693

06-07-2019
|

Вопрос

Я ищу способ определить наиболее «разные» или «узнаваемые» символы N ASCII...Например, если N = 10, какие N символов в наборе ASCII от 0x21 до 0x7E будут наиболее разными?Очевидно, что символ «Х» сильно отличается от «О» (буквы), но «О» (буква) очень похож на «0» (ноль).Предполагая ограниченное подмножество символов OCR, например, ноль и буква O будут распознаваться только как одно или другое, и не нужно будет беспокоиться о том, ноль это или буква O, что будет наиболее различным N символы, которые типичные механизмы оптического распознавания символов (например, Tesseract) легко распознают по входному изображению низкого качества?Предположения.такие как «+» и «t» могут быть ошибочно приняты друг за друга.можно сделать, и, таким образом, каждый входной символ, будь то «+» или «t», будет соответствовать только одному или другому.

Спасибо, Бен

Решение

К сожалению, я не думаю, что на этот вопрос будет единый уникальный ответ.

Это будет зависеть от шрифта:Сравните различные способы представления 0, f, s, а также стилистические особенности.

Это будет зависеть от типа повреждения, которое персонажи получат перед сканированием: некоторые могут быть более устойчивы к размазыванию, другие к порезам, третьи к перезаписи.

Если вы ищете изображение, которое лучше всего выдержит печать, сканирование и распознавание символов, то, возможно, лучшим выбором будет 1D или 2D штрих-код?

Другие советы

Только один способ ответить на этот вопрос:Попробуй это.Создайте набор образцов для каждой буквы и запустите распознавание текста для каждого образца.Буквы, которые OCR получает правильно чаще всего, являются наиболее «узнаваемыми»;буквы, которые OCR чаще всего ошибается, являются самыми «разными».

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow