使用 C# 或经典 ASP (VBScript) 从 PDF 中提取文本的好方法是什么？[关闭]

题

有没有一个好的库可以从 PDF 中提取文本？如果需要的话我愿意付出代价。

与 C# 或经典 ASP (VBScript) 一起使用的东西将是理想的，我还需要能够将页面与 PDF 分开。

这个问题有一些有趣的东西，特别是 pdf转文本但如果可以的话，我想避免调用外部命令行应用程序。

解决方案

您可以使用 Windows 内置的 IFilter 接口从任何受支持的文件类型中提取文本和属性（作者、标题等）。它是一个 COM 接口，因此您可以使用 .NET 互操作工具。

您还必须从 Adobe 下载免费的 PDF IFilter 驱动程序。

其他提示

这是一个很好的列表：PDF/C# 的开源库

其中大多数用于创建 PDF，但它们也应该具有读取功能。

还有这个：文本

我以前只玩过iText。没什么大不了的。

我们用过阿斯普斯取得了良好的效果。

Docotic.Pdf 库可用于从 PDF 文档中提取格式化文本或纯文本。

该图书馆可以阅读任何版本的PDF文档（达到最新发布的标准）。该库还支持页面提取。

示例代码链接：

免责声明：我为图书馆的供应商工作。

除了已批准的答案之外：还有替代的商业解决方案可以替代 Adobe IFilter 进行文本索引（提供类似的 API，但也提供额外的高级功能）：

如果您正在寻找可以从托管 .NET 应用程序和传统编程语言（例如经典 ASP 或 VB6）中使用的单一工具，那么这就是商业化的地方 ByteScout PDF 提取器 SDK 很适合，因为它提供了 .NET 和 ActiveX/COM API。

免责声明：我在 ByteScout 工作

许可以下： CC-BY-SA 和归因