我已经搜索了很多。也许我不知道要搜索什么...

我需要能够索引和搜索“安全”PDF。这些PDFS选择“无副本”属性并被锁定。这意味着没有用户名和密码,无法复制PDF的内容。 ifilter尊重这些设置,不会允许pdf索引。

我正在寻找使用aspx.net在我的服务器上索引和搜索pdfs的手段。似乎我被困在以下之一之一:

  1. 我必须打开这些PDF所需的凭据以获得“复制”访问内容
  2. 当为我的工具提交PDF时,需要提交两项项目: 单词副本 - 和 - PDF复制
  3. 将完整内容复制到PDF的元数据,或至少一些关键词。 我没有看过这里可以参与什么样的风险。 这意味着作家的额外步骤
  4. 解决方案一个和2意味着在服务器上或在DB中保持重复的副本,并以编程方式参考实际下载。有没有人提出解决方案?我更喜欢索引能力,因为它意味着没有复制内容。解决方案3如果PDFS元数据可以处理那么多的内容,并且安全性仍然完好无损,则吸引。我也想知道关于PDF的编程访问,通过C#或VB,我可以使用凭据来获得访问......但它看起来像我可能会卡住。

    这是我找到另一种解决方案的最后一次努力。任何帮助都会受到赞赏。

有帮助吗?

解决方案 2

我最终与一个完全不同的解决方案一起去了。我喜欢利用MS索引的想法,但使用SQL变得越来越容易,并让用户将PDF粘贴关键字或PDF的内容上传到文本框中。然后SQL可以索引“列”和BAMM ...搜索引擎的其余部分。

感谢大家花时间考虑这个。

其他提示

如果您有文件的用户名和密码,可能只能打开文件并从中提取文本?

然后,您将能够从提取的数据构建索引。

docotic.pdf ,我参与的库可以为您打开密码保护的文件。它也可以提取文本。文本可以用作普通或格式化文本,可以通过单词或字符分割。

请查看以下样本:

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top