画像内のテキストの位置を特定する

https://stackoverflow.com/questions/1848

08-06-2019
|

質問

私は現在プロジェクトに取り組んでおり、私の目標は画像内のテキストを見つけることです。テキストを OCR することは、今のところ私の意図ではありません。基本的に画像内のテキストの境界を取得したいと考えています。操作には AForge.Net イメージングコンポーネントを使用しています。何らかの形で何らかの支援はありますか？

2009 年 2 月 5 日の更新:それ以来、私はプロジェクトで別のルートをたどることになりました。ただし、MODI (Microsoft Office Document Imaging) を使用してテキストを取得しようとしました。画像を OCR してそこからテキストを簡単に取り出すことができます。

解決

これは活発な研究分野です。このテーマに関する学術論文は文字通りたくさんあります。特に詳細がなければサポートを提供するのは困難です。特定の種類のテキストをお探しですか?フォント？英語だけ？学術文献に精通していますか？

「テキスト検出」は、どの OCR (光学式文字認識) システムでも標準的な問題であるため、インターウェブ上にはこれに対処するコードが大量にあります。

Google からリンクの山をリストすることもできますが、「テキスト検出」を検索して読み始めることをお勧めします :)。豊富なサンプルコードも利用可能です。

他のヒント

確かに、画像内のテキストの認識は、その分野の研究者にとってホットなテーマですが、制御不能になり始めたのは、キャプチャのスパムボットに対する防御という点では「標準」になりました。なぜ保護としてキャプチャを使用するのでしょうか?なぜなら、画像内のテキストを見つける（そして読む）のは非常に難しいからです。

私がキャプチャについて言及する理由は、その小さな領域内で最も進歩* がもたらされ、そこにあなたのソリューションが最もよく見つかると思うからです。特に、キャプチャは乱雑な画像内でテキスト (またはテキストに似たもの) を見つけて、その後その文字を正しく読み取ろうとするものであるためです。

だから自分自身を見つけることができたら優れたオープンソースのキャプチャ破壊ツールおそらくクエストを続けるために必要なものはすべて揃っているでしょう...
これらの OCR は歪んだテキストを読み取るために使用されるため、文字認識自体を処理する最も困難なコードはおそらく捨てても構いませんが、これは行う必要はありません。

*:目に見える、使いやすい、そして 実用的 「非研究者」向けの情報

これにオンライン API を使用しても問題ない場合は、次の API を使用してください。 http://www.wisetrend.com/wisetrend_ocr_cloud.shtml OCR だけでなくテキスト検出も行うことができます。

ストローク幅変換あなたの代わりにそれができます。少なくとも、MS が携帯電話 OS 用に開発したものはこれです。実装に関するディスカッションは、ここ https://stackoverflow.com/

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow