Migliorare la precisione OCR da documenti digitalizzati
-
09-10-2019 - |
Domanda
Sto scansione di un sacco di documenti A3 utilizzando uno standard Fratello A3 multifunzione e quindi utilizzare FineReader Pro per OCR'ing le immagini.
Comunque, sto ricevendo un sacco di errori nei caratteri riconosciuti, e un sacco di strani caratteri non alfanumerici.
Qualcuno può darmi qualche consiglio per migliorare a livello di codice la precisione dell'OCR, sia pre-elaborazione delle immagini acquisite, o post-elaborazione del testo riconosciuto?
Modifica: Trova un campione pdf . Esso comprende alcune immagini di esempio da cui ottenere i risultati più poveri.
Soluzione
Avete un immagine di esempio è possibile inserire da qualche parte allora possiamo rapidamente dirvi che cosa sta causando la maggior parte dei vostri problemi. FineReader è uno dei migliori motori OCR là fuori quindi ci sono sicuramente motivi per cui si stanno ottenendo scarsi risultati.
Si potrebbe essere correlato alle impostazioni di scarso contrasto e di soglia, immagine inclinandolo rulli sporchi nello scanner, sfondi complessi e colorati, sfondi con retinatura, font di dimensioni troppo piccole, la scansione dpi troppo bassa ecc ...
Dopo aver visto l'immagine allegata ci sono alcuni piccoli problemi.
- Ci sono un sacco di macchie sporche su sfondo della pagina. FineReader sembra fare un lavoro ragionevole con questo sulle immagini.
- C'è qualche lieve inclinazione, ma che non sta causando e problemi.
- FineReader è sempre confuso con Bold caratteri Arial tipo alto utilizzato per le intestazioni delle colonne.
4 Un grosso problema sembra essere la regione inferiore delle pagine in cui il contrasto è scarsa e l'immagine è sfocata. Questo sembra essere un problema con lo scanner, ma potrebbe essere dovuto a problemi di stampa.
La stampa è piuttosto scarsa e sto indovinando che è una scansione da un giornale. La maggior parte dei vostri errori sono dovuti a problemi di scansione quindi sarebbe duro per migliorare i risultati a livello di codice.
In primo luogo, vorrei provare la scansione l'immagine in scala di grigi con una risoluzione leggermente più alto e vedere se questo aiuta. FineReader funziona bene con le immagini in scala di grigi. Se si deve avere un B image / W poi vedere se il driver dello scanner include un'impostazione per dinamica della soglia e accenderlo.
Le immagini non sarebbe stato un compito facile per qualsiasi motore OCR. Otterrete risultati migliori se è possibile migliorare la scansione. Page 3 ha un sacco di rumore nell'angolo in basso a destra.
Quale versione di FineReasder stai usando? FR10 sarebbe probabilmente dare risultati migliori rispetto alle versioni precedenti.