OCR-ほとんど＆＃8220;異なる＆＃8221;または＆＃8220;認識可能＆＃8221; ASCII文字？

https://stackoverflow.com/questions/1412693

06-07-2019
|

質問

最も「異なる」ものを判断する方法を探しています。または「認識可能」 N ASCII文字...たとえば、N = 10の場合、0x21から0x7EまでのASCIIセットで最も異なるN文字は何でしょうか？明らかに、文字「X」は「O」とは大きく異なります。（手紙）、ただし「O」（文字）は「0」に非常に似ています。（ゼロ）。ゼロと文字Oがどちらか一方のみとして検出され、ゼロまたは文字Oであるかどうかを心配する必要がない、制限されたOCR文字サブセットを想定すると、最も異なるN典型的なOCRエンジン（Tesseractなど）が低品質の入力画像から簡単に認識できる文字？仮定。＆quot; +＆quot;などおよび「t」広く誤解される可能性があります。つまり、「+」かどうかにかかわらず、各入力文字を作成できます。または＆t; quot ;;どちらかにのみ対応します。

ありがとう、ベン

解決

残念ながら、これに対する唯一のユニークな答えがあるとは思いません。

フォントに依存します：0、f、sが表現されるさまざまな方法を比較します。また、文体が繁栄します。

スキャンされる前にキャラクターが受けるダメージの種類に依存します。あるものは汚れに対してより回復力があり、あるものはカットに対して、他のものは上書きに対してです。

印刷、スキャン、OCRedで生き残るのに最適な表現を探している場合は、1Dまたは2Dバーコードの方が良い選択でしょうか？

他のヒント

この質問に答える唯一の方法は、テストすることです。文字ごとにサンプルのセットを作成し、各サンプルでOCRを実行します。 OCRが最も頻繁に正しく取得する文字は、最も「認識可能な」文字です。 OCRが最も頻繁に誤解する文字は、最も「異なる」文字です。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow