コピーが選択されていないPDFの索引付け

https://stackoverflow.com//questions/12698121

12-12-2019
|

質問

私は遠くて広く検索されました。おそらく私は何を検索するべきかわからない...

「保護された」PDFをインデックスと検索することができる必要があります。これらのPDFSには、「コピーなし」属性が選択され、ロックされています。つまり、ユーザー名とパスワードなしでPDFの内容をコピーする方法はありません。 IFilterはこれらの設定を尊重し、PDFをインデックス作成することはできません。

ASPX.NETを使用して、サーバー上のPDFSをインデックスと検索するための手段を探しています。私は次のいずれかに立ち往生しているようです：

私は、コンテンツへの「コピー」アクセスを取得するためにこれらのPDFを開くために必要な資格情報が必要です。
私のツールにPDFが送信されると、2つの項目を送信する必要があります。単語のコピー - そして - PDFコピー
は、完全なコンテンツがPDFのメタデータ、または少なくともいくつかのキーワードにコピーされています。私はここにどのようなリスクがあるかもしれないかを調べたことがありません。これは作家のための追加のステップを意味するでしょう

Solutions Oneと2は、サーバー上またはDBのどちらかで、DB内のどちらかを維持し、プログラムで実際のダウンロードを参照してください。誰もがこれへの解決策を思い付くのですか？それはコンテンツの重複がないということを意味するので、インデックス作成機能を好むでしょう。 PDFSメタデータがその多くのコンテンツを処理できるかどうか、およびセキュリティがまだ無傷の場合に対処できる場合は、解決策3が魅力的です。私はまた、C＃またはVBを介してアクセスを得るために認証情報を使用することができるPDFへのプログラムによるアクセスについても疑問に思いました...しかしそれは私が立ち往生しているかもしれないように見えます。

これは私の最後の解決策を見つけるための私の最後の潜水艦です。あらゆる助けが高くなるでしょう。

解決 2

私はまったく異なる解決策で行くことになった。私はMSの索引付けを利用するというアイデアを愛していましたが、それはSQLを使いやすく、PDF貼り付けキーワード、またはPDFの内容をテキストボックスにアップロードするユーザーを持っています。その後、SQLはその「列」とバムを索引付けすることができます...検索エンジンは残りをします。

これを考慮してみんなありがとうございました。

他のヒント

ファイルを開き、それらからテキストを抽出するだけでなく、ファイルのユーザー名とパスワードがある場合は？

その後、抽出したデータからインデックスを作成することができます。

docotic.pdf 、私が関与しているライブラリは、あなたのためにパスワードで保護されたファイルを開くことができます。そしてそれはテキストを抽出することができます。テキストは、平野やフォーマットのテキストとして抽出でき、単語や文字で分割できます。

次のサンプルを見てください。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow