索引安全PDF,没有复制
题
我已经搜索了很多。也许我不知道要搜索什么...
我需要能够索引和搜索“安全”PDF。这些PDFS选择“无副本”属性并被锁定。这意味着没有用户名和密码,无法复制PDF的内容。 ifilter尊重这些设置,不会允许pdf索引。
我正在寻找使用aspx.net在我的服务器上索引和搜索pdfs的手段。似乎我被困在以下之一之一:
- 我必须打开这些PDF所需的凭据以获得“复制”访问内容
- 当为我的工具提交PDF时,需要提交两项项目: 单词副本 - 和 - PDF复制
- 将完整内容复制到PDF的元数据,或至少一些关键词。 我没有看过这里可以参与什么样的风险。 这意味着作家的额外步骤
解决方案一个和2意味着在服务器上或在DB中保持重复的副本,并以编程方式参考实际下载。有没有人提出解决方案?我更喜欢索引能力,因为它意味着没有复制内容。解决方案3如果PDFS元数据可以处理那么多的内容,并且安全性仍然完好无损,则吸引。我也想知道关于PDF的编程访问,通过C#或VB,我可以使用凭据来获得访问......但它看起来像我可能会卡住。
这是我找到另一种解决方案的最后一次努力。任何帮助都会受到赞赏。
解决方案 2
我最终与一个完全不同的解决方案一起去了。我喜欢利用MS索引的想法,但使用SQL变得越来越容易,并让用户将PDF粘贴关键字或PDF的内容上传到文本框中。然后SQL可以索引“列”和BAMM ...搜索引擎的其余部分。
感谢大家花时间考虑这个。
其他提示
如果您有文件的用户名和密码,可能只能打开文件并从中提取文本?
然后,您将能够从提取的数据构建索引。
docotic.pdf ,我参与的库可以为您打开密码保护的文件。它也可以提取文本。文本可以用作普通或格式化文本,可以通过单词或字符分割。
请查看以下样本:
不隶属于 StackOverflow