我提取pdf到的图像/swf和文字的帮助下SWFTools和XPDF..我正在运行这些PDF脚本。

但现在我想要更进一步,并尝试得到TOC从PDF是否有可能提取这一信息?

有帮助吗?

解决方案

我发现这一点的搜索。它看起来相当有希望的。

PDFMiner: http://www.unixuser.org/~euske/python/pdfminer/index.html

注:该工具是蟒蛇的基础,但是你应该能够使用的工具,通过壳的访问。或者,你可能能够收集到一些有用的信息来源代码本身作为该项目是开放源。

从该网站:

dumppdf.py

dumppdf.py 转储内容的PDF文件中的伪XML格式。这一计划主要是进行调试的目的,但它也可以提取一些有意义的内容(如图像)。

实例:

$ dumppdf.py -a foo.pdf
(dump all the headers and contents, except stream objects)

$ dumppdf.py -T foo.pdf
(dump the table of contents)

$ dumppdf.py -r -i6 foo.pdf > pic.jpeg
(extract a JPEG image)

其他提示

我试过dump.pdf -T,但它并没有对某些PDF文件。

有从MuPDF命名mutool,其中我刚发现另一种工具。我不知道这是不是dump.pdf更好,但在一个PDF文件dump.pdf曾抛出一个错误。

下面是如何提取与mutool TOC

mutool show {your-pdf-file} outline

MuPDF

另外,你可以使用 MuPDF 这是书面C.在一个相当轻巧,但完整的PDF实施apps/子目录你会发现一些工具,可以查看,导出并从PDF文件中提取信息。我宁愿MuPDF超过xpdf的,因为它是积极维护,并有更好的PDF支持。

否则,总是有 poppler的这实际上是在基于的xpdf。开发者移植它的代码,以C ++。因此,它比其前任更糟糕的执行。相比于MuPDF,poppler的似乎有稍微更多的功能,但换来的代码要复杂得多。

有关您的目的MuPDF应该是足够的,但。你可以简单的应用程序以apps/提供的示例代码,提取你需要不依赖于外部应用程序的所有信息砍在一起。

我觉得在看 PHP的PDFLib来将是一个非常好的地方开始。如果向下滚动,你会看到大量的用户张贴的解决方案,为PDF转换为HTML或PDF格式文本。转换后,一个相对简单的匹配函数可以提取标记的TOC项,并将其投入到一个数组,例如,然后可以操纵,都可以。

这StackOverflow的帖子也有一些更多的解决方案。

希望这有助于。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top