Qual è il carattere ideale per l'OCR?

https://stackoverflow.com/questions/316068

11-07-2019
|

Domanda

Qualcuno ha esperienza con caratteri diversi per OCR? Sto generando un ID, quindi sto cercando di scansionarlo con tesseract. Al momento sono solo T & E; diversi tipi di carattere, ma questo sembra abbastanza inefficiente. Ho provato la famiglia di caratteri OCR * e vari altri come Arial e Georgia. Il tesseract tende a confondersi con i caratteri OCR *.

Esiste un font appositamente progettato per tesseract o qualsiasi font di sistema che funzioni bene con esso?

Soluzione

Va ??bene, una ricerca su Google si presenta con questo, un font OCR specifico: Carattere OCR

Sembra che sia uno standard adottato nel 1973.

Altri suggerimenti

Dopo aver provato molti caratteri diversi e motori OCR tendo a ottenere i migliori risultati usando Consolas . È un carattere monospaziato come OCR-A, ma più facile da leggere per l'uomo. Consolas è incluso in diversi prodotti Microsoft.

Esiste anche un carattere open source Inconsolata , che è influenzato da Consolas. Inconsolata è un buon sostituto di Consolas, soprattutto considerando i dettagli della licenza.

Nei miei test, i numeri e gli spazi nel carattere Calibri non sono stati sempre riconosciuti correttamente . OCR-A ha dato molti errori di lettura. Non ho provato MIRC, poiché non è facilmente leggibile per la maggior parte degli umani.

Nota : tesseract richiede molti test e perfezioni prima di essere affidabile. Nel nostro caso siamo passati a un motore OCR con licenza commerciale (ABBYY), soprattutto perché l'affidabilità era molto importante e dovevamo supportare più lingue (europee).

Aggiornamento: 31 gennaio 2017 - Modificato " basato su Consolas " in " influenzato da Consolas " a causa di potenziali problemi di copyright.

Trovo che Calibri funzioni al meglio per me. Usiamo quotidianamente il software OCR in un sistema automatizzato e dopo aver testato dozzine di caratteri (inclusi alcuni specifici per OCR) che Calibri è costantemente il migliore.

Buona fortuna.

Probabilmente userò lo stesso carattere usato dalle banche per i numeri di routing nella parte inferiore degli assegni:

http://morovia.com/font/micr.asp

È stato specificamente progettato per essere leggibile in modo univoco dalla macchina.

Ho sempre avuto successo semplicemente usando volte new roman ..

Di recente ho svolto test approfonditi in un ECM chiamato Laserfiche, che utilizza Nuance OmniPage, e ho scoperto che i caratteri monospace funzionano male rispetto ai caratteri spaziati dinamicamente. Quei vecchi caratteri OCR non funzionano come caratteri più "normali". Soprattutto per stringhe di numeri con caratteri più piccoli come il punto 12.

È strano che qualcun altro abbia successo con Calibri. Si è comportato molto male nei miei test, ottenendo abitualmente lettere e numeri simili simili confusi l'uno con l'altro. I migliori caratteri (tra quelli che arrivano su un computer Windows con Office installato) erano Consolas, Verdana e Book Antiqua. Tutti i caratteri serif dinamici in cui lettere e numeri sembravano distinti. Consolas era il campione.

Attualmente in uso Monospace. Ho provato moltissimi caratteri, ma questo è il più preciso per me.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow