使用 Java 或 .NET 库对 ColdFusion 中的 PDF 执行光学字符识别?
-
20-08-2019 - |
题
我希望获取 PDF 并从中提取任何文本。然后我想使用 ColdFusion 的可用 Verity 搜索来搜索内容。
是否有任何库已经在这方面做得很好?我将 Java 或 .NET(首选 Java)库包含在范围内,因为它们可以从 CF 调用。
任何见解或经验将不胜感激......谢谢!
编辑:据我所知,当文本嵌入 PDF 中时,索引 PDF 文件就可以使用 CF 了。我必须处理的 PDF 文件将文本扫描为图像。
解决方案
如果你运行你自己的软件的能力(即专用/ VPS),那么你可以使用调查的超正方体OCR与cfexecute
以PDF文件转换为文本?
其他提示
雷·卡姆登 (Ray Camden) 有一个由八部分组成的系列 在 ColdFusion 8 中处理 PDF.
第7部分 该系列的其中一部分介绍了如何使用 DDX 从 PDF 中获取文本。
虽然不确定这是否能满足您的 OCR 需求,但可能仍然值得一看。
在一个半相关的说明,我发现了一个很整齐后约编码和读取二维条形码矩阵中的ColdFusion。
http://www.stillnetstudios.com/2007/一十五分之一十二/ 2D-条形码-的ColdFusion /
这也许能解决我的一些问题,需要提取编码信息,但我还是文本后体内。
关于tessnet,发现一个.net版本太多。 http://www.pixel-technology.com/freeware/tessnet2/ 如果我可以在PDF格式的,而不是TIFF格式原生食..:)
不隶属于 StackOverflow