OCR (光学式文字認識) の前に画像を補正するためにどのソフトウェアをお勧めしますか?[閉まっている]

https://stackoverflow.com/questions/142743

02-07-2019
|

質問

現在、OCR に送信する前に画質を向上させる方法を研究中です。現在使用している OCR エンジンは、Nuance の Scansoft API (v15) です。私たちが研究していたのは、リードツールしかし、それ以来、他の場所を探すことにしました。Lead Toolsに関連するライセンスコストはあまりにも高額です。まず、次のような単純な画像強化機能を探しています。スキュー補正、斑点除去、線除去、パンチ穴除去、シャープ化など。.NET と Java ソフトウェアを組み合わせて実行していますが、Java ソリューションの方が望ましいでしょう。

解決

Kofax は前処理には適していますが、画像が本当に悪いものでない限り、あなたが話している種類のクリーンアップには過剰になる可能性があります。画像処理が専門でない限り、実際に追加する価値に集中できるように、画像のクリーンアップと OCR を行うプロバイダーと協力することをお勧めします。

当社は ABBYY から OCR 開発キットのライセンスを取得しています (アビーSDK)、画像処理と OCR の両方に優れていることがわかりました。API は非常に広範囲にわたり、サンプルアプリ、ヘルプ、サポートは非常に充実しています。ぜひ一度見てみることをお勧めします。

他のヒント

免責事項：私はAtalasoftで働いています

.NETにはこれらの機能とランタイムのロイヤリティフリーライセンスがあります。

http://www.atalasoft.com/products/dotimage/

Abbyy、Tesseractなどの.NETラッパー、および検索可能なPDF生成（PDFのテキストの上にある画像）などのOCRコンポーネントもあります

これがあなたが必要とする標準にかなり合っているかどうかはわかりませんが、おそらく Paint.Net API。プロジェクトで使用するために画像処理アルゴリズムを抽出するのがどれほど簡単かは分かりませんが、彼らはあなたが探しているもののいくつかをしていると思います。さらに、MITライセンスを備えたオープンソースプロジェクトであるため、ビジネスでの使用に適しているはずです。

KOFAX.comでのKOFAX VRSに関する研究

JMagickかもしれませんが、これはImageMagickのオープンソースJavaインターフェースです。 ImageMagick APIへの薄いJava Native Interface（JNI）層の形式で実装されます。 LGPLの下でライセンスされているので、問題のあるライセンスではないはずです。

http://sourceforge.net/projects/jmagick/

Intel をお勧めしますゼロコストのランタイムライセンス。

元の画像の数と品質に依存します。マネージコードとイメージングツールキットは機能しますが、処理する画像が数百万個ある場合、常に最適なソリューションとは限りません。小さなバッチと厳しい予算については、 Aforge、Paint.NET 、およびその他のオープンソースのコンピュータービジョンライブラリなどのプロジェクトがそのトリックを行うという以前のポスターに同意します。もちろん、結果が改善されていない場合は、自分で対処します...少なくともこれにより、必要なものすべてを1つのアプリケーションの下に低コストで配置できます。

月に数十万枚の画像を処理している場合、プロセスをより小さなワークフローステップに分割し、画像あたりのコストができるだけゼロになるまで各ステップを調整することをお勧めします。 OCRの結果は最初は急速に上昇し、その後予想よりも早く横ばいになることがわかります。（私はOCRの大ファンではありませんが、その場所はあります）

Recogniform の市販のWindows製品を使用して、さまざまな種類の画像に合わせて調整されたスクリプトを使用して、バッチモードでOCRの前に画像を処理およびクリーンアップします。画像がQCに失敗するか、OCRエンジンによって拒否された場合、その画像は「修復」されます。 Atalasoftの ツールキットで構築されたカスタム.NETアプリケーションを使用して手動で。すべてをバッチ処理し、失敗したものだけを処理します。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow