Quelle est la police idéale pour OCR?

https://stackoverflow.com/questions/316068

11-07-2019
|

Question

Quelqu'un a-t-il déjà utilisé différentes polices d'OCR? Je génère un identifiant puis j'essaye de le scanner avec tesseract. Pour le moment, je ne connais que des polices différentes, mais cela semble assez inefficace. J'ai essayé la famille de polices OCR * et plusieurs autres, telles que Arial et Georgia. Le tesseract a tendance à être confondu avec les polices OCR *.

Existe-t-il une police spécialement conçue pour tesseract ou une police système qui fonctionne bien avec elle?

La solution

D'accord, une recherche sur Google fournit une police OCR spécifique: Police OCR

On dirait que c'est une norme adoptée en 1973.

Autres conseils

Après avoir essayé de nombreuses polices et moteurs d'OCR , j'ai tendance à obtenir les meilleurs résultats avec Consolas . Il s'agit d'une police monospace semblable à OCR-A, mais plus facile à lire pour les humains. Consolas est inclus dans plusieurs produits Microsoft.

Il existe également une police en code source libre Inconsolata , qui est influencé par Consolas. Inconsolata est un bon substitut pour Consolas, en particulier compte tenu des détails de la licence.

Lors de mes tests, les nombres et les espaces de la police Calibri n'étaient pas toujours reconnus correctement. . OCR-A a donné beaucoup d'erreurs de lecture. Je n'ai pas essayé MIRC, car il n'est pas facilement lisible par la plupart des humains.

Remarque : tesseract nécessite de nombreux tests et ajustements avant d'être fiable. Dans notre cas, nous avons opté pour un moteur OCR sous licence commerciale (ABBYY), d’autant plus que la fiabilité était très importante et que nous devions prendre en charge plusieurs langues (européennes).

Mise à jour: Le 31 janvier 2017 - Le terme "> basé sur Consolas " a été remplacé par " influencé par Consolas " en raison de problèmes de droits d'auteur potentiels.

Je trouve que Calibri fonctionne le mieux pour moi. Nous utilisons quotidiennement le logiciel OCR dans un système automatisé et après avoir testé des dizaines de polices (y compris des polices spécifiques à l'OCR), Calibri est toujours la meilleure.

Bonne chance.

J'utiliserais probablement la même police que celle utilisée par les banques pour les numéros d'acheminement au bas des vérifications:

http://morovia.com/font/micr.asp

Il a été spécialement conçu pour être lisible par une machine sans ambiguïté.

J'ai toujours eu du succès en utilisant simplement times new roman ..

J'ai récemment effectué des tests approfondis à ce sujet dans un module de gestion de contenu appelé Laserfiche, qui utilise Nuance OmniPage, et j'ai constaté que les polices monospaces ne sont pas performantes par rapport aux polices à espacement dynamique. Ces anciennes polices OCR ne fonctionnent pas aussi bien que des polices plus «normales». Surtout pour les chaînes de chiffres avec des tailles de police plus petites comme le point 12.

Il est étrange que quelqu'un d'autre réussisse avec Calibri. Cela a très mal fonctionné lors de mes tests, obtenant régulièrement des lettres et des chiffres similaires qui se confondaient. Consolas, Verdana et Book Antiqua sont les meilleures polices (parmi celles fournies avec un ordinateur Windows sur lequel Office est installé). Toutes les polices à empattement dynamiques où les lettres et les chiffres sont distincts. Consolas était le champion.

Utilise actuellement Monospace. Essayé de très nombreuses polices, mais c’est la plus précise pour moi.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow