Java または .NET ライブラリを使用して ColdFusion から PDF に対して光学式文字認識を実行しますか?
-
20-08-2019 - |
質問
PDF を取得し、そこからテキストを抽出したいと考えています。次に、ColdFusion の Verity 検索を使用してコンテンツを検索できるようにしたいと考えています。
これをすでにうまく行っているライブラリはありますか?Java または .NET (Java 推奨) ライブラリは CF から呼び出すことができるため、スコープに含めています。
洞察や経験をいただければ幸いです...ありがとう!
編集:CF で知る限り、PDF ファイルのインデックス作成は、PDF にテキストが埋め込まれている場合に機能します。私が扱わなければならない PDF では、テキストが画像としてスキャンされています。
解決
独自のソフトウェアを実行できる場合 (つまり、専用/VPS)の場合は、次を使用して調査できます Tesseract OCR と cfexecute
PDFをテキストに変換するには?
他のヒント
Verityのは、デフォルトでは、インデックスのPDFファイルのことができるようにする必要があります:
レイ・カムデンは 8 部構成のシリーズを持っています ColdFusion 8 での PDF の操作.
パート 7 このシリーズでは、DDX を使用して PDF からテキストを取得する方法について説明します。
これが OCR のニーズに対応するかどうかはわかりませんが、検討する価値はあるかもしれません。
セミ関連のノートで、私は、エンコーディングについて非常にきちんとした記事を発見し、ColdFusionで2Dマトリックスバーコードを読んでます。
http://www.stillnetstudios.com/2007/ 12月15日/ 2次元バーコード-のColdFusion / の
これは、符号化された情報を抽出するために必要では私の問題の一部を解決する可能性がありますが、私は、テキストの本文の後に、まだだ。
tessnetに関しては、あまりに.NETバージョンを発見しました。 http://www.pixel-technology.com/freeware/tessnet2/ の場合は私はネイティブPDFの代わりに、TIFFファイルの中に送り込むことができ..:)