使用 C# 或经典 ASP (VBScript) 从 PDF 中提取文本的好方法是什么?[关闭]
-
09-06-2019 - |
解决方案
您可以使用 Windows 内置的 IFilter 接口从任何受支持的文件类型中提取文本和属性(作者、标题等)。它是一个 COM 接口,因此您可以使用 .NET 互操作工具。
您还必须从 Adobe 下载免费的 PDF IFilter 驱动程序。
其他提示
我们用过 阿斯普斯 取得了良好的效果。
Docotic.Pdf 库 可用于从 PDF 文档中提取格式化文本或纯文本。
该图书馆可以阅读任何版本的PDF文档(达到最新发布的标准)。该库还支持页面提取。
示例代码链接:
免责声明:我为图书馆的供应商工作。
除了已批准的答案之外:还有替代的商业解决方案可以替代 Adobe IFilter 进行文本索引(提供类似的 API,但也提供额外的高级功能):
- 福昕 PDF IFilter: :与 Adobe 的插件相比,提供更快的文本索引。
- PDFLib PDF iFilter: :包括对损坏的 PDF 文档的支持以及用于运行您自己的查询的附加 API。
如果您正在寻找可以从托管 .NET 应用程序和传统编程语言(例如经典 ASP 或 VB6)中使用的单一工具,那么这就是商业化的地方 ByteScout PDF 提取器 SDK 很适合,因为它提供了 .NET 和 ActiveX/COM API。
免责声明:我在 ByteScout 工作
不隶属于 StackOverflow