Améliorer la précision OCR des documents scannés

https://stackoverflow.com/questions/4658407

09-10-2019
|

Question

Je l'analyse d'un grand nombre de documents A3 en utilisant un A3 standard établi par Brother multifonction et utilisez FineReader Pro pour OCR'ing les images.

Cependant, je reçois beaucoup d'erreurs dans les caractères reconnus, et beaucoup de caractères étranges non-alphanumériques.

Quelqu'un peut-il me donner des conseils pour améliorer la précision de l'OCR programme, soit pré-traitement sur les images numérisées ou de post-traitement sur le texte reconnu?

Edit: Trouver un échantillon pdf . Il comprend quelques exemples d'images dont je reçois les plus pauvres résultats.

La solution

Avez-vous un exemple d'image, vous pouvez poster quelque part alors nous pouvons rapidement vous dire ce qui est à l'origine la plupart de vos problèmes. FineReader est l'un des meilleurs moteurs OCR là-bas donc il y a certainement des raisons pour lesquelles vous obtenez des résultats médiocres.

Il pourrait être lié à un faible contraste et les paramètres seuil, l'image biaiser, rouleaux sales dans le scanner, arrière-plans complexes et colorés, arrière-plans tramées, une taille de police trop petite, la numérisation dpi trop bas etc ...

Après avoir vu l'image ci-jointe il y a quelques petits problèmes.

Il y a beaucoup de petites taches sales sur la page d'arrière-plan. FineReader semble faire un travail raisonnable avec cela sur vos images.
Il y a une légère inclinaison, mais qui ne cause pas et problèmes.
FineReader est confondu avec la police se type Arial BOLD haut utilisé pour les en-têtes de colonnes.
4 Un gros problème semble être la région inférieure des pages où le contraste est faible et l'image est floue. Cela semble être un problème avec le scanner, mais pourrait être dû à des problèmes d'impression.

L'impression est assez pauvre et je suppose que c'est une analyse d'un journal. La plupart de vos erreurs sont dues à la numérisation des questions de sorte qu'il serait difficile d'améliorer les résultats par programme.

Tout d'abord, je voudrais essayer de scanner l'image en niveaux de gris avec une résolution légèrement plus élevée et voir si cela aide. FineReader fonctionne bien avec des images en niveaux de gris. Si vous devez avoir une image B / W alors que le pilote du scanner comprend un paramètre pour seuillage dynamique et allumez-le.

Vos images ne serait pas une tâche facile pour un moteur OCR. Vous obtiendrez de meilleurs résultats si vous pouvez améliorer le balayage. Page 3 a beaucoup de bruit dans le coin en bas à droite.

Quelle version de FineReasder utilisez-vous? FR10 probablement donner de meilleurs résultats que les versions précédentes.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow