题
我提取pdf到的图像/swf和文字的帮助下SWFTools和XPDF..我正在运行这些PDF脚本。
但现在我想要更进一步,并尝试得到TOC从PDF是否有可能提取这一信息?
解决方案
我发现这一点的搜索。它看起来相当有希望的。
PDFMiner: http://www.unixuser.org/~euske/python/pdfminer/index.html
注:该工具是蟒蛇的基础,但是你应该能够使用的工具,通过壳的访问。或者,你可能能够收集到一些有用的信息来源代码本身作为该项目是开放源。
从该网站:
dumppdf.py
dumppdf.py 转储内容的PDF文件中的伪XML格式。这一计划主要是进行调试的目的,但它也可以提取一些有意义的内容(如图像)。
实例:
$ dumppdf.py -a foo.pdf (dump all the headers and contents, except stream objects) $ dumppdf.py -T foo.pdf (dump the table of contents) $ dumppdf.py -r -i6 foo.pdf > pic.jpeg (extract a JPEG image)
其他提示
我试过dump.pdf -T
,但它并没有对某些PDF文件。
有从MuPDF命名mutool
,其中我刚发现另一种工具。我不知道这是不是dump.pdf更好,但在一个PDF文件dump.pdf曾抛出一个错误。
下面是如何提取与mutool TOC
mutool show {your-pdf-file} outline
我觉得在看 PHP的PDFLib来将是一个非常好的地方开始。如果向下滚动,你会看到大量的用户张贴的解决方案,为PDF转换为HTML或PDF格式文本。转换后,一个相对简单的匹配函数可以提取标记的TOC项,并将其投入到一个数组,例如,然后可以操纵,都可以。
这StackOverflow的帖子也有一些更多的解决方案。
希望这有助于。
不隶属于 StackOverflow