문제

SWFTOOLS 및 XPDF의 도움으로 PDF를 이미지 / SWF 및 텍스트로 추출하고 있습니다. PDF 스크립트에서이를 실행하고 있습니다.

그러나 지금 나는 한 걸음 더 나아가서 PDF에서 TOC를 얻으려고 노력하고 있습니다.이 정보를 추출 할 수 있습니까?

도움이 되었습니까?

해결책

약간의 검색으로 이것을 찾았습니다. 다소 유망 해 보입니다.

PDFMINER : http://www.unixuser.org/~euske/python/pdfminer/index.html

참고 :이 도구는 파이썬 기반이지만 쉘 액세스를 통해 도구를 사용할 수 있어야합니다. 또는 프로젝트가 오픈 소스이므로 소스 코드 자체에서 유용한 정보를 수집 할 수 있습니다.

사이트에서 :

dumppdf.py

dumppdf.py는 pdf 파일의 내부 내용을 pseudo-xml 형식으로 덤프합니다. 이 프로그램은 주로 디버깅 목적을위한 것이지만 이미지와 같은 의미있는 내용 (예 : 이미지)을 추출 할 수도 있습니다.

예 :

$ dumppdf.py -a foo.pdf
(dump all the headers and contents, except stream objects)

$ dumppdf.py -T foo.pdf
(dump the table of contents)

$ dumppdf.py -r -i6 foo.pdf > pic.jpeg
(extract a JPEG image)

다른 팁

나는 시도했다 dump.pdf -T, 그러나 일부 PDF 파일에서는 작동하지 않았습니다.

MUPDF의 또 다른 도구가 있습니다 mutool, 방금 찾은 것. 이것이 덤프.pdf보다 낫지는 않지만 pdf 파일 덤프에서 작업했는지 모르겠습니다 .pdf는 오류를 던졌습니다.

Mutool과 함께 TOC를 추출하는 방법은 다음과 같습니다

mutool show {your-pdf-file} outline

mupdf

Alternatively, you can use MuPDF which is a pretty lightweight but complete PDF implementation written C. In the apps/ subdirectory you will find some tools which can view, dump and extract information from PDF files. I'd prefer MuPDF over xpdf because it is actively maintained and has better PDF support.

Otherwise, there's always Poppler which is actually based upon xpdf. The developers ported its code to C++. Hence, it's performs worse than its predecessor. Compared to MuPDF, Poppler seems to have slightly more features, but in return the code is much more complex.

For your purposes MuPDF should be sufficient though. You could hack together a simple application from the example code provided in apps/ that extracts all the information you need without relying on external applications.

보고 있다고 생각합니다 PHP의 pdflib 시작하기에 아주 좋은 곳이 될 것입니다. 아래로 스크롤하면 PDF를 HTML 또는 PDF로 텍스트로 변환하기위한 많은 사용자 포스트 솔루션이 표시됩니다. 변환 후, 비교적 간단한 매치 함수는 태그가 붙은 TOC 항목을 추출하여 예를 들어 배열에 던져서 원하는대로 조작 할 수 있습니다.

이 stackoverflow 게시물 또한 더 많은 솔루션이 있습니다.

도움이 되었기를 바랍니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top