OCR:どのように予測精度向上-既存ライブラリの除去は非テキスト"家具"-形状などを避ける混乱OCR?

https://stackoverflow.com/questions/2448106

20-09-2019
|

質問

もしあなた矩形などと同封してのテキストのスクリーンショット画像のように行うことができます光学式文字認識を正確にテキストからスクリーンショット.

背景：

私はこの抽出データから遺産をご利用のお申込み、他のアプリケーションここに取得する唯一の方法でこのデータとして関連するファイルを閉じた、独自開発、バイナリ形式です。

まAutoItScriptの応用開発チームにフィードバック、UI、そのままスクリーンショットは、このフィードをtesseract.

しかし、私た 一部の 成功を自動化するUIとして利用できるtesseractに平asciiテキストのビットマップ.

あAutoItScriprフォーラムの記事が話題にな使用tesseract/OCRが具体的には私の質問です。http://www.autoitscript.com/forum/index.php?s=6c32c3ece12756e635a619cdf175eff9&showforum=2

今必要なの

が薄く、1ピクセル幅の矩形が密接に同封してテキストの時給tesseractで見ていただverticle線の矩形を塗りつぶします。

他の方を削除し、矩形、アンメットメディカルニーズを実践?

思いがある場合は汎用コマンドラインに基づくパワフルなツールセットを上書きの矩形は、例えば社までお問い合わせください。pngファイルです。私はそのパス。pngを通じて、そのパスでtesseract.

詳細はtesseractリリース/セットアップを使いて

こちら: http://code.google.com/p/tesseract-ocr/downloads/list -のための基本的な英語の汎用文字セットを取得しTesseractグを認識御方式にテキストをascii文字の使用tesseract-2.00.eng.tar.gz (現在のバージョンでの書き込みは:"英語の言語データTesseract(2.00）月2007 989KB84845")

に関する質問しいので見るというスタックオーバーフロー

これらの私の質問は完全に答えた企業が市販されている事がわかります.ないという企業。

解決

りょうくなってしまうことが無料にな解決法を、"この符号化自分なりにくいものではあるんじゃないでしょうか安心することができるものとし、矩形のこの有効な文字にフォントの文字であると認めた場合、その削除されます。またすべての境界の矩形は同一ピクセル幅である。

で検索のための連続する水平線が参加していることで、平行線の同じ長さのように二つの垂直ます。繰り返しの検索までのすべての矩形のイメージして描画をすべて透明性とグラフィー。DrawRectangle やペンに迷い込んでしまいます。透明.な矩形を描画する透明なまま終了の検索かすリスクを払拭したパーツの重複すがその場で発音を確認することがします。これは単なるスターターの提案により、"しんの実施またはデバッグこのアルゴリズムです。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow