OCR - a maioria dos “diferentes” ou “reconhecidos” caracteres ASCII?

https://stackoverflow.com/questions/1412693

06-07-2019
|

Pergunta

Eu estou procurando uma maneira de determinar o mais "diferente" ou "reconhecidos" N caracteres ASCII ... Por exemplo, se N = 10, o que seria o mais N caracteres diferentes no conjunto ASCII de 0x21 para 0x7E ? Obviamente, o caractere "X" é muito diferente de "O" (a letra), mas "O" (a letra) é muito semelhante ao "0" (zero). Assumindo um subconjunto de caracteres OCR restrito, de modo que zero e a letra O seria detectado como um ou outro apenas, e um não tem que se preocupar sobre se era um O zero ou uma carta, que seria o mais N diferente caracteres que os motores típico de OCR (por exemplo Tesseract) reconhecem facilmente a partir da imagem de entrada de qualidade pobre? Premissas. tais como "+" e "T" pode ser amplamente confundido com um outro. pode ser feita, e, assim, cada caractere de entrada, quer se trate de "+" ou "t" só iria correspondem a um ou outro.

Obrigado, Ben

Solução

Infelizmente eu não acho que haverá uma única resposta única para esta.

Isso vai depender do tipo de letra:. Comparar as diferentes maneiras que 0, f, s são representados e também floreios estilísticos

Isso vai depender do tipo de dano os personagens recebem antes de ser digitalizado, alguns podem ser mais resistente contra manchas, outros contra cortes, outros contra sobre-escrito.

Se você está procurando uma representação que é melhor para sobreviver sendo impresso, digitalizado e OCR, então talvez um código de barras 1D e 2D seria uma melhor escolha?

Outras dicas

Apenas uma maneira de responder a esta pergunta: testá-lo. Criar um conjunto de amostras para cada letra, e executar OCR em cada amostra. As letras que OCR vai direto a maioria das vezes são os mais "reconhecível"; as letras que OCR recebe errado na maioria das vezes são os mais "diferente".

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow