我希望获取 PDF 并从中提取任何文本。然后我想使用 ColdFusion 的可用 Verity 搜索来搜索内容。

是否有任何库已经在这方面做得很好?我将 Java 或 .NET(首选 Java)库包含在范围内,因为它们可以从 CF 调用。

任何见解或经验将不胜感激......谢谢!

编辑:据我所知,当文本嵌入 PDF 中时,索引 PDF 文件就可以使用 CF 了。我必须处理的 PDF 文件将文本扫描为图像。

有帮助吗?

解决方案

如果你运行你自己的软件的能力(即专用/ VPS),那么你可以使用调查的超正方体OCR与cfexecute 以PDF文件转换为文本?

其他提示

雷·卡姆登 (Ray Camden) 有一个由八部分组成的系列 在 ColdFusion 8 中处理 PDF.

第7部分 该系列的其中一部分介绍了如何使用 DDX 从 PDF 中获取文本。

虽然不确定这是否能满足您的 OCR 需求,但可能仍然值得一看。

在一个半相关的说明,我发现了一个很整齐后约编码和读取二维条形码矩阵中的ColdFusion。

http://www.stillnetstudios.com/2007/一十五分之一十二/ 2D-条形码-的ColdFusion /

这也许能解决我的一些问题,需要提取编码信息,但我还是文本后体内。

关于tessnet,发现一个.net版本太多。 http://www.pixel-technology.com/freeware/tessnet2/ 如果我可以在PDF格式的,而不是TIFF格式原生食..:)

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top