OCRの理想的なフォントは何ですか？

https://stackoverflow.com/questions/316068

11-07-2019
|

質問

OCRのさまざまなフォントの経験はありますか？ IDを生成してから、それをtesseractでスキャンしようとしています。現時点では私はただのT＆amp; Eフォントではありませんが、これはかなり非効率的です。 OCR *ファミリーのフォント、およびArialやGeorgiaなどのさまざまなフォントを試しました。 tesseractはOCR *フォントと混同される傾向があります。

tesseract用に特別に設計されたフォントや、それとうまく機能するシステムフォントはありますか？

解決

さて、Googleで検索すると、特定のOCRフォントが表示されます。 OCRフォント

1973年に採用された標準のようです。

他のヒント

多くの異なるフォントと OCRエンジンを試した後 コンソラス。 OCR-Aのような固定幅の書体ですが、人間にとっては読みやすいです。 Consolasは、いくつかのマイクロソフト製品に含まれています。

オープンソースフォント Inconsolata もあります。コンソラにより影響を受ける。 Inconsolataは、特にライセンスの詳細を考慮すると、Consolasの優れた代替品です。

私のテストでは、 Calibri フォントの数字とスペースが常に正しく認識されなかった。 OCR-Aは多くの読み取りエラーを与えました。 MIRCはほとんどの人にとって読みにくいため、試してみませんでした。

注：tesseractは、信頼性を高める前に多くのテストと微調整を必要とします。この場合、特に信頼性が非常に重要であり、複数の（ヨーロッパ）言語をサポートする必要があるため、商用ライセンスのOCRエンジン（ABBYY）に切り替えました。

更新： 2017年1月31日-潜在的な著作権の問題により、「 Consolasに基づく」を「 Consolasの影響を受ける」に変更しました。

私にとっては、カリブリが最適だと思います。私たちは、自動システムで毎日OCRソフトウェアを使用し、Calibriが常に最高である（OCR固有のフォントを含む）多数のフォントをテストした後、

がんばって。

銀行小切手の一番下にあるルーティング番号に使用するフォントと同じフォントを使用します：

http://morovia.com/font/micr.asp

明確に機械可読になるように特別に設計されました。

New roman ..を使用するだけで常に成功しました。

最近、Nuance OmniPageを使用するLaserficheと呼ばれるECMで広範なテストを行ってきましたが、動的な間隔のフォントに比べて等幅フォントのパフォーマンスが低いことがわかりました。これらの古いOCRフォントは、「通常の」見た目のフォントほどには機能しません。特に、ポイント12のような小さいフォントサイズの数字の文字列の場合

Calibriで他の誰かが成功しているのは奇妙です。私のテストではパフォーマンスが非常に悪く、日常的に似たような文字や数字が混同されていました。最高のフォント（OfficeがインストールされているWindowsコンピューターに搭載されているフォント）は、Consolas、Verdana、Book Antiquaでした。文字と数字がはっきりと見える、すべての動的セリフフォント。コンソラスがチャンピオンでした。

現在、Monospaceを使用しています。非常に多くのフォントを試しましたが、これは私にとって最も正確なものです。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow