Pregunta

¿Alguien tiene alguna experiencia con diferentes fuentes para OCR? Estoy generando una identificación y luego intento escanearla con tesseract. Por el momento, solo soy T & amp; E'n diferentes fuentes, pero esto parece bastante ineficiente. He probado la familia de fuentes OCR * y varias otras, como Arial y Georgia. El tesseract tiende a confundirse con las fuentes OCR *.

¿Hay alguna fuente diseñada específicamente para tesseract, o alguna fuente del sistema que funcione bien con ella?

¿Fue útil?

Solución

Bien, una búsqueda en Google aparece con esto, una fuente de OCR específica: Fuente OCR

Parece que es un estándar adoptado en 1973.

Otros consejos

Después de probar muchas fuentes diferentes y motores OCR , tiendo a obtener los mejores resultados con Consolas . Es un tipo de letra monoespaciado como OCR-A, pero más fácil de leer para humanos. Consolas está incluido en varios productos de Microsoft.

También hay una fuente de código abierto Inconsolata , que está influenciado por Consolas. Inconsolata es un buen reemplazo para Consolas, especialmente teniendo en cuenta los detalles de la licencia.

En mis pruebas, los números y espacios en la fuente Calibri no siempre se reconocieron correctamente . OCR-A dio muchos errores de lectura. No probé MIRC, ya que no es fácil de leer para la mayoría de los humanos.

Nota : tesseract requiere muchas pruebas y ajustes antes de ser confiable. En nuestro caso, cambiamos a un motor OCR con licencia comercial (ABBYY), especialmente porque la confiabilidad era muy importante y necesitábamos admitir múltiples idiomas (europeos).

Actualización: 31 de enero de 2017: se cambió ' basado en Consolas ' a ' influenciado por Consolas ' debido a posibles problemas de derechos de autor.

Me parece que Calibri funciona mejor para mí. Utilizamos el software OCR a diario en un sistema automatizado y después de probar docenas de fuentes (incluidas algunas específicas de OCR) que Calibri es consistentemente el mejor.

Buena suerte.

Probablemente usaría la misma fuente que usan los bancos para los números de ruta en la parte inferior de los cheques:

http://morovia.com/font/micr.asp

Fue diseñado específicamente para ser inequívocamente legible por máquina.

Siempre tuve éxito simplemente usando Times New Roman ..

He estado haciendo pruebas exhaustivas en esto recientemente en un ECM llamado Laserfiche, que usa Nuance OmniPage, y descubrí que las fuentes monoespaciales funcionan mal en comparación con las fuentes dinámicamente espaciadas. Esas fuentes antiguas de OCR no funcionan tan bien como las fuentes de aspecto más "normal". Especialmente para cadenas de números en tamaños de fuente más pequeños como el punto 12.

Es extraño que alguien más esté teniendo éxito con Calibri. Se desempeñó muy mal en mis pruebas, rutinariamente obteniendo letras y números de aspecto similar confundidos entre sí. Las mejores fuentes (entre las que vienen en una computadora con Windows con Office instalado) fueron Consolas, Verdana y Book Antiqua. Todas las fuentes serif dinámicas donde las letras y los números se veían distintos. Consolas fue el campeón.

Actualmente usando Monospace. Intenté muchas fuentes, pero esta es la más precisa para mí.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top