使用 Java 或 .NET 库对 ColdFusion 中的 PDF 执行光学字符识别？

题

我希望获取 PDF 并从中提取任何文本。然后我想使用 ColdFusion 的可用 Verity 搜索来搜索内容。

是否有任何库已经在这方面做得很好？我将 Java 或 .NET（首选 Java）库包含在范围内，因为它们可以从 CF 调用。

任何见解或经验将不胜感激......谢谢！

编辑：据我所知，当文本嵌入 PDF 中时，索引 PDF 文件就可以使用 CF 了。我必须处理的 PDF 文件将文本扫描为图像。

解决方案

如果你运行你自己的软件的能力（即专用/ VPS），那么你可以使用调查的超正方体OCR与cfexecute 以PDF文件转换为文本？

其他提示

的Verity应该能够索引PDF文件默认：

雷·卡姆登 (Ray Camden) 有一个由八部分组成的系列在 ColdFusion 8 中处理 PDF.

第7部分该系列的其中一部分介绍了如何使用 DDX 从 PDF 中获取文本。

虽然不确定这是否能满足您的 OCR 需求，但可能仍然值得一看。

在一个半相关的说明，我发现了一个很整齐后约编码和读取二维条形码矩阵中的ColdFusion。

这也许能解决我的一些问题，需要提取编码信息，但我还是文本后体内。

关于tessnet，发现一个.net版本太多。 http://www.pixel-technology.com/freeware/tessnet2/ 如果我可以在PDF格式的，而不是TIFF格式原生食..：）

许可以下： CC-BY-SA 和归因