Pergunta

Eu gostaria de construir uma aplicação Android que, por meio de uma biblioteca de OCR, deve digitalizar um texto da imagem extraindo dele.

biblioteca que Java devo usar?

Foi útil?

Solução

não sei como é bom (ele definitivamente precisa ser treinado em primeiro lugar), mas não há biblioteca Java OCR de Ron Cemer .

Outras dicas

Se você está procurando uma opção muito extensível ou ter um domínio de problema específico que você poderia considerar rolar seus próprios usando o objeto Java orientada Motor Neural .

I usado com sucesso em um projeto pessoal para identificar a letra de uma imagem, como este , você pode encontrar toda a fonte para o componente de OCR da minha candidatura no github, aqui .

tesseract tentativa, check-out este artigo http://www.itwizard.ro/interfacing-cc-libraries-via-jni-example-tesseract-163.html e este exemplo http://code.google.com/p/mezzofanti/

Edit: alguns fatos mais - tesseract é um dos melhores open source OCR usado pelo Google - não há dados de treinamento disponíveis para vários idiomas - Mezzofanti é um aplicativo Android que usa tesseract - cuidado: OCR faz usar um monte de energia da CPU. tentando OCR de uma página A4 com o seu T-Mob G1 vai ter um monte de tempo e o resultado pode não impressioná-lo; -)

Você pode usar o recurso de OCR do Google Docs. Verifique a Documentos API Lista de dados http: //code.google.com/apis/documents/docs/3.0/developers_guide_protocol.html#OCR

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top