OCR - la mayoría & # 8220; diferentes & # 8221; o & # 8220; reconocible & # 8221; Personajes ASCII?

https://stackoverflow.com/questions/1412693

06-07-2019
|

Pregunta

Estoy buscando una forma de determinar la más " diferente " o "reconocible" N caracteres ASCII ... Por ejemplo, si N = 10, ¿cuáles serían los N caracteres más diferentes en el conjunto ASCII de 0x21 a 0x7E? Obviamente, el personaje '' X '' es muy diferente de "O" (la letra), pero '' O '' (la letra) es muy similar a "0" (cero). Suponiendo un subconjunto de caracteres OCR restringido, de modo que cero y la letra O se detecten como uno u otro solamente, y uno no tenga que preocuparse por si es un cero o una letra O, cuál sería el N más diferente caracteres que los motores OCR típicos (por ejemplo, Tesseract) reconocen fácilmente a partir de una imagen de entrada de baja calidad Suposiciones tales como " + " y "t" podría confundirse ampliamente el uno con el otro. se puede hacer y, por lo tanto, cada carácter de entrada, ya sea '' + '' o '' t '' solo correspondería a uno u otro.

Gracias Ben

Solución

Desafortunadamente no creo que haya una única respuesta única para esto.

Dependerá de la fuente: compare las diferentes formas en que 0, f, s se representan y también florece estilísticamente.

Dependerá del tipo de daño que reciban los personajes antes de ser escaneados, algunos pueden ser más resistentes contra manchas, otros contra cortes, otros contra sobreescritura.

Si está buscando una representación que sea mejor para sobrevivir al ser impreso, escaneado y OCR, ¿tal vez un código de barras 1D o 2D sería una mejor opción?

Otros consejos

Solo hay una forma de responder esta pregunta: pruébelo. Cree un conjunto de muestras para cada letra y ejecute OCR en cada muestra. Las letras que OCR acerta con mayor frecuencia son las más reconocibles. las letras que OCR se equivoca con mayor frecuencia son las más "diferentes".

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow