OCR - le plus "différent" & # 8221; ou & # 8220; reconnaissable & # 8221; Caractères ASCII?

https://stackoverflow.com/questions/1412693

06-07-2019
|

Question

Je cherche un moyen de déterminer le "plus différent" " ou " reconnaissable " N caractères ASCII ... Par exemple, si N = 10, quels seraient les N caractères les plus différents dans les ensembles ASCII de 0x21 à 0x7E? De toute évidence, le caractère " X " est très différent de " O " (la lettre), mais "O" (la lettre) est très similaire à " 0 " (zéro). En supposant un sous-ensemble de caractères OCR restreint, tel que zéro et la lettre O serait détecté comme étant l'un ou l'autre seulement, et qu'il n'était pas nécessaire de se demander s'il s'agissait d'un zéro ou d'une lettre O, quels seraient les N les plus différents caractères que les moteurs OCR typiques (par exemple, Tesseract) reconnaissent facilement à partir d’une image d’entrée de mauvaise qualité? Hypothèses. tels que " + " et " t " pourrait largement être confondu les uns avec les autres. peuvent être créés, et donc chaque caractère saisi, qu’il s’agisse du signe "+" ou " t " ne correspondrait qu'à l'un ou à l'autre.

Merci, Ben

La solution

Malheureusement, je ne pense pas qu'il y aura une seule réponse unique pour cela.

Cela dépend de la police: comparez les différentes manières de représenter 0, f, s et les styles stylistiques.

Cela dépendra du type de dommage subi par les personnages avant d'être numérisé. Certains seront plus résistants au smudging, d'autres aux coupures, d'autres à la surécriture.

Si vous recherchez une représentation qui soit la meilleure pour survivre imprimée, numérisée et OCRée, alors un code à barres 1D ou 2D serait un meilleur choix?

Autres conseils

Une seule façon de répondre à cette question: testez-la. Créez un ensemble d'échantillons pour chaque lettre et exécutez OCR sur chaque échantillon. Les lettres que OCR obtient le plus souvent sont les lettres les plus "reconnaissables"; les lettres que OCR se trompe le plus souvent sont les plus "différentes".

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow