C# またはクラシック ASP (VBScript) を使用して PDF からテキストを抽出する良い方法は何ですか?[閉まっている]

StackOverflow https://stackoverflow.com/questions/46869

質問

PDF からテキストを抽出するための適切なライブラリはありますか?必要であれば喜んで支払います。

C# または従来の ASP (VBScript) で動作するものが理想的ですが、PDF からページを分離できる必要もあります。

この質問 いくつか興味深いものがありました、特に pdfからテキストへ しかし、できれば外部コマンドライン アプリへの呼び出しは避けたいと考えています。

役に立ちましたか?

解決

Windows に組み込まれている IFilter インターフェイスを使用して、サポートされている任意のファイル タイプからテキストとプロパティ (作成者、タイトルなど) を抽出できます。これは COM インターフェイスであるため、.NET 相互運用機能を使用する必要があります。

また、Adobe から無料の PDF IFilter ドライバーをダウンロードする必要があります。

他のヒント

ここに良いリストがあります:PDF/C# 用のオープンソース ライブラリ

これらのほとんどは PDF の作成を目的としていますが、読み取り機能も備えている必要があります。

こんなのもあるよ: iText

私はこれまで iText でしか遊んだことがありませんでした。大したことはありません。

私たちが使用したのは 安置する 良い結果が得られました。

Docotic.Pdf ライブラリ PDF ドキュメントから書式設定されたテキストまたはプレーン テキストを抽出するために使用できます。

ライブラリは、どのバージョンの PDF ドキュメントも読み取ることができます (最新の公開標準まで)。ページの抽出もライブラリでサポートされています。

サンプルコードへのリンク:

免責事項:私は図書館のベンダーで働いています。

承認された回答への追加:テキストインデックス作成用に Adob​​e IFilter に代わる代替の商用ソリューションもあります (同様の API を提供しますが、追加のプレミアム機能も提供します)。

  1. Foxit PDF IFilter:Adobe のプラグインと比較して、はるかに高速なテキスト インデックス作成を提供します。
  2. PDFLib PDF iFilter:破損した PDF ドキュメントのサポートに加え、独自のクエリを実行するための追加 API が含まれています。

マネージド .NET アプリと従来の ASP や VB6 などのレガシー プログラミング言語の両方から使用できる単一のツールをお探しの場合は、ここに商用のツールがあります。 ByteScout PDF エクストラクター SDK .NET と ActiveX/COM API の両方を提供するため、これに適合します。

免責事項:私はByteScoutで働いています

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top