OCR-ほとんど“異なる”または“認識可能” ASCII文字?

StackOverflow https://stackoverflow.com/questions/1412693

質問

最も「異なる」ものを判断する方法を探しています。または「認識可能」 N ASCII文字...たとえば、N = 10の場合、0x21から0x7EまでのASCIIセットで最も異なるN文字は何でしょうか?明らかに、文字「X」は「O」とは大きく異なります。 (手紙)、ただし「O」 (文字)は「0」に非常に似ています。 (ゼロ)。ゼロと文字Oがどちらか一方のみとして検出され、ゼロまたは文字Oであるかどうかを心配する必要がない、制限されたOCR文字サブセットを想定すると、最も異なるN典型的なOCRエンジン(Tesseractなど)が低品質の入力画像から簡単に認識できる文字?仮定。 " +"などおよび「t」広く誤解される可能性があります。つまり、「+」かどうかにかかわらず、各入力文字を作成できます。または&t; quot ;;どちらかにのみ対応します。

ありがとう、 ベン

役に立ちましたか?

解決

残念ながら、これに対する唯一のユニークな答えがあるとは思いません。

フォントに依存します:0、f、sが表現されるさまざまな方法を比較します。また、文体が繁栄します。

スキャンされる前にキャラクターが受けるダメージの種類に依存します。あるものは汚れに対してより回復力があり、あるものはカットに対して、他のものは上書きに対してです。

印刷、スキャン、OCRedで生き残るのに最適な表現を探している場合は、1Dまたは2Dバーコードの方が良い選択でしょうか?

他のヒント

この質問に答える唯一の方法は、テストすることです。文字ごとにサンプルのセットを作成し、各サンプルでOCRを実行します。 OCRが最も頻繁に正しく取得する文字は、最も「認識可能な」文字です。 OCRが最も頻繁に誤解する文字は、最も「異なる」文字です。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top