OCR e revisão de palavras

https://stackoverflow.com/questions/2396085

25-09-2019
|

Pergunta

Estou usando o Tesseract para o meu projeto de reconhecimento de cartas e, atualmente, os reconhecimentos são muito bons. A parte do processamento da imagem foi feita usando as bibliotecas OpenCV. As letras são escritas à mão. Mas existem alguns problemas quando eu a usei para reconhecer a letra "O" e o número "0". Essas cartas são usadas nas áreas de dados como campos que inserem nomes. Portanto, os nomes não podem ter nenhum número com ele. E quando estamos usando o sistema dos campos de dados como data de nascimento, ele contém apenas números. Portanto, estou disposto a restringir o sistema de reconhecimento, dizendo que os campos de dados correspondentes têm apenas números ou letras.

E também estou disposto a revisar as cartas reconhecidas com as possíveis palavras para que possamos melhorar a precisão dos dados. Estou disposto a usar as bibliotecas OpenCV para esta tarefa. Mas não sei quais são as bibliotecas que ajudam para esta tarefa e quais são as funcionalidades dessas. Então, por favor, alguém pode me ajudar. Obrigada.

Atenciosamente, Thilanka.

Solução

Eu nunca usei o Tesseract. No entanto, no FAQ, diz

Como faço para reconhecer apenas dígitos?

TessBaseAPI::SetVariable("tessedit_char_whitelist", "0123456789");

Presumivelmente, você pode usar o padrão da entrada de perguntas frequentes para configurá -la para que ela reconheça apenas letras ou apenas dígitos adequadamente.

Se você já tentou isso, pode dar mais detalhes de por que não funciona?

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow