Localizando texto na imagem

https://stackoverflow.com/questions/1848

08-06-2019
|

Pergunta

Atualmente estou trabalhando em um projeto e meu objetivo é localizar texto em uma imagem.Fazer OCR do texto ainda não é minha intenção.Quero basicamente obter os limites do texto dentro de uma imagem.Estou usando o componente de imagem AForge.Net para manipulação.Alguma ajuda em um sentido ou outro?

Atualização 05/02/09:Desde então, segui outro caminho em meu projeto.No entanto, tentei obter texto usando MODI (Microsoft Office Document Imaging).Ele permite que você faça OCR de uma imagem e extraia texto dela com alguma facilidade.

Solução

Esta é uma área ativa de pesquisa.Há literalmente uma grande quantidade de trabalhos acadêmicos sobre o assunto.Será difícil lhe dar assistência, especialmente sem mais detalhes.Você está procurando tipos específicos de texto?Fontes?Apenas inglês?Você conhece a literatura acadêmica?

A "detecção de texto" é um problema padrão em qualquer sistema de OCR (reconhecimento óptico de caracteres) e, conseqüentemente, existem muitos bits de código nas interwebs que lidam com isso.

Eu poderia começar listando pilhas de links do Google, mas sugiro que você faça uma busca por "detecção de texto" e comece a ler :).Também há um amplo código de exemplo disponível.

Outras dicas

reconhecer texto dentro de uma imagem é de fato um tema quente para pesquisadores dessa área, mas só começou a ficar fora de controle quando captchas tornou-se a "norma" em termos de defesa contra bots de spam.Por que usar captcha como proteção?bem, porque é/era muito difícil localizar (e ler) texto dentro de uma imagem!

A razão pela qual mencionei o captcha é porque o maior avanço* é feito nessa pequena área, e acho que sua solução poderia ser melhor encontrada lá.especialmente porque os captcha realmente tratam de localizar texto (ou algo que se assemelhe a texto) dentro de uma imagem desordenada e depois tentar ler as letras corretamente.

então se você puder se encontrar uma boa ferramenta de quebra de captcha de código aberto você provavelmente tem tudo que precisa para continuar sua busca...
Você provavelmente poderia até jogar fora o código mais difícil que lida com o reconhecimento de caracteres, porque esses OCRs são usados para ler texto distorcido, algo que você não precisa fazer.

*:avanço em termos de visibilidade, utilização e prático informações para um "não pesquisador"

Se você concordar em usar uma API on-line para isso, a API em http://www.wisetrend.com/wisetrend_ocr_cloud.shtml pode fazer detecção de texto além de apenas OCR.

Transformação de largura de traço pode fazer isso por você.Isso é pelo menos o que a MS desenvolveu para o sistema operacional de seus celulares.Uma discussão sobre a implementação é aqui em https://stackoverflow.com/

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow