OCR-ほとんど“異なる”または“認識可能” ASCII文字?
-
06-07-2019 - |
質問
最も「異なる」ものを判断する方法を探しています。または「認識可能」 N ASCII文字...たとえば、N = 10の場合、0x21から0x7EまでのASCIIセットで最も異なるN文字は何でしょうか?明らかに、文字「X」は「O」とは大きく異なります。 (手紙)、ただし「O」 (文字)は「0」に非常に似ています。 (ゼロ)。ゼロと文字Oがどちらか一方のみとして検出され、ゼロまたは文字Oであるかどうかを心配する必要がない、制限されたOCR文字サブセットを想定すると、最も異なるN典型的なOCRエンジン(Tesseractなど)が低品質の入力画像から簡単に認識できる文字?仮定。 " +"などおよび「t」広く誤解される可能性があります。つまり、「+」かどうかにかかわらず、各入力文字を作成できます。または&t; quot ;;どちらかにのみ対応します。
ありがとう、 ベン
解決
残念ながら、これに対する唯一のユニークな答えがあるとは思いません。
フォントに依存します:0、f、sが表現されるさまざまな方法を比較します。また、文体が繁栄します。
スキャンされる前にキャラクターが受けるダメージの種類に依存します。あるものは汚れに対してより回復力があり、あるものはカットに対して、他のものは上書きに対してです。
印刷、スキャン、OCRedで生き残るのに最適な表現を探している場合は、1Dまたは2Dバーコードの方が良い選択でしょうか?
他のヒント
この質問に答える唯一の方法は、テストすることです。文字ごとにサンプルのセットを作成し、各サンプルでOCRを実行します。 OCRが最も頻繁に正しく取得する文字は、最も「認識可能な」文字です。 OCRが最も頻繁に誤解する文字は、最も「異なる」文字です。