スキャンした文書画像上の空白フィールドを見つける方法

https://stackoverflow.com/questions/548309

23-08-2019
|

質問

私のアプリケーションは、白黒の画像ファイルとして存在するフォームで単一のフィールドに入力したいと考えています。フォームは常に同じペーパーバージョンとして開始されますが、アプリケーションがユーザーからそれを取得するまでに、それはスキャンまたはファックスにされた可能性があります。そのため、必要なフィールドはすべてのファイルの同じ場所にありません。

私のユーザーは常に私から空白の形を取得するとは限らないので、後で認識できるマークやプレースホルダーを印刷する能力はありません。

元の空白のフォームにはテキストがありますが、FAXがファックスされた可能性があるため、200 dpiの解像度しかありません。テキストは常に人間が読むのに十分な大きさですが、私はOCRについて懐疑的です。

予算はある程度あるので、無料のソリューションは必要ありません...2000ドルと言ってみましょう。

と言うことで検討中です

OCRソリューションを入手して、必要なフィールドにテキストラベルを見つけます。私は、私の所有者を転がすためのリソースや専門知識を持っているとは思わない。テキストが何を言っているかをすでに知っているので、私は完全な認識を必要としません。しかし、私はx-coordinatesを知る必要があります。これを行うソフトウェアはありますか？それともプログラミングは私が思っているよりも簡単ですか？
フォームのエッジを認識するためのソフトウェアを構築または購入します。そこから、必要なフィールドの相対的な位置を取得できました。私のスキャナーソフトウェアが小さなドキュメントのイメージの周りに置く破線のラインを考えています。それは既知のアルゴルシュムですか、それとも利用可能な解決策はありますか？
必要なフィールドを認識する他の方法。Googleフォームの充填ソフトウェアを試みると、Webフォーム、PDFフォームなどの何百もの試合が与えられます。それは私が必要とすることをしません。

私は言語にこだわりはありません。私のアプリケーションは Linux 上で実行されますが、最適なソリューションが Microsoft であれば、おそらくそれを機能させることができるでしょう。

ご意見をいただければ幸いです。

解決

私が正しく理解していれば、

、フォームは常に同じですが、原因コピー/ファックスに、シフトスケール、またはわずかに回転させてもよいです。その場合は、あなたの問題は、の画像登録のの一つである：あなたの「モデル」フォームでユーザーのラインアップからフォームを作る最適な剛体変換を見つけ、あなたはのフィールドの場所を知っています関心。あなたが変換を知ったら、ユーザーのフォームでフィールドの位置を計算することができます。

、典型的には、脳のMR-画像を整列させるような用途のために開発され、多くの画像レジストレーションアルゴリズムがあります。彼らは計算コストが高いと統計的な事前確率を必要とします。幸いなことに、あなたのケースは簡単です：あなたがする必要があるのは、ユーザーのフォームの内容の周りに長方形に合わせてあります。降下は動作するはず座標。あなたは（フォーム外ジャンク）いくつかのノイズに対する耐性が必要になります。

他のヒント

以下に、利用可能な OCR ソリューション (オープンソースとそうでないもの) の概要を示します。 http://googlesystem.blogspot.com/2007/04/open-source-ocr-software-owned-by.html

リジット登録が十分ではないかもしれません。ユーザーは、これらの違いは、純粋なよりに対処するため、より複雑であるなど、フォントを変更チェックボックスの位置や入力ボックスを変更、異なる改行位置で段落を破るように、テンプレートフォームのレイアウトと書式設定を変更することができますシフト、回転またはスケール変換。あなたのイメージは、バイナリイメージ（白黒）である場合のほかに、私は（グレースケール画像に取り組んで）それらの医療画像登録アルゴリズムは多くを助けるとは思いません。あなたの費用関数と最小化戦略は、それに応じて変更することがあります。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow