Qual é a fonte ideal para OCR?

https://stackoverflow.com/questions/316068

11-07-2019
|

Pergunta

Alguém tem alguma experiência com fontes diferentes para OCR? Eu estou gerando uma ID depois tentar digitalizá-lo com tesseract. No momento, eu sou apenas T & E'n fontes diferentes, mas isso parece bastante ineficiente. Eu tentei o OCR * família de tipos de letra, e vários outros, como Arial e Georgia. O tesseract tende a se confundir com a OCR * fontes.

Existe alguma fonte projetado especificamente para tesseract, ou qualquer fonte de sistema que funciona bem com ele?

Solução

Ok, uma pesquisa no Google vem acima com este, uma fonte específica OCR: OCR Font

Parece que é uma norma aprovada em 1973.

Outras dicas

Depois de tentar um monte de diferentes fontes e motores OCR I tendem a obter os melhores resultados usando Consolas . É um monoespaçada tipo de letra como OCR-A, mas mais fácil de ler para os seres humanos. Consolas está incluído em vários produtos da Microsoft.

Há também um open source Inconsolata , que é influenciada por Consolas. Inconsolata é um bom substituto para Consolas, especialmente considerando os detalhes de licenciamento.

Em meus testes, os números e espaços no Calibri fonte nem sempre foram reconhecidos corretamente . OCR-A deu muitos erros de leitura. Eu não dei MIRC uma tentativa, uma vez que não é facilmente legível para a maioria dos seres humanos.

Nota : tesseract requer um monte de testes e aperfeiçoamento antes de ser confiável. No nosso caso, nós mudamos para um motor de OCR comercial licenciada (ABBYY), especialmente desde que a confiabilidade foi muito importante e que precisávamos para suportar vários idiomas (europeus).

Update: 2017 31 de janeiro - Mudou ' com base em Consolas ' para ' influenciada por Consolas ' devido a possíveis problemas de direitos autorais

Eu acho que Calibri funciona melhor para mim. Nós usamos software OCR diariamente em um sistema automatizado e depois de testar dezenas de fontes (incluindo alguns específicos OCR) que Calibri é consistentemente o melhor.

Boa sorte.

Eu provavelmente usar a mesma fonte que os bancos usam para os números de roteamento na parte inferior dos cheques:

http://morovia.com/font/micr.asp

Ele foi projetado especificamente para ser inequivocamente legível por máquina.

Eu tive sempre o sucesso simplesmente usando Times New Roman ..

Eu tenho feito testes extensivos neste recentemente em um ECM chamado Laserfiche, que usa Nuance OmniPage, e eu descobri que Monoespaçada executar mal em comparação com fontes espaçadas dinamicamente. Essas fontes OCR velhas não tenham o desempenho fontes bem como mais 'normais' olhando. Especialmente para sequências de números em tamanhos pequenos de fonte como ponto 12.

É estranho que alguém está tendo sucesso com Calibri. É um desempenho muito fraco em meus testes, rotineiramente recebendo cartas de aparência semelhante e números confusos para o outro. As melhores fontes (entre aqueles que vêm em um computador Windows com o Office instalado) foram Consolas, Verdana, e Book Antiqua. Todos dinâmica serif fontes onde letras e números olhou distinta. Consolas foi o campeão.

Atualmente usando Monospace. Tentei muito muitas fontes, mas este é o mais preciso para mim.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow