PDF 파일의 구조?

https://stackoverflow.com/questions/88582

01-07-2019
|

문제

소규모 프로젝트의 경우 pdf 파일을 구문 분석하고 특정 부분(단순한 문자 체인)을 가져와야 합니다.저는 Python을 사용하여 이 작업을 수행하고 싶고 어떤 방식으로든 제가 원하는 작업을 수행할 수 있는 여러 라이브러리를 찾았습니다.

하지만 이제 몇 가지 조사를 한 후에 pdf 파일의 실제 구조가 무엇인지 궁금합니다. 온라인 어디에서나 사양이나 설명이 있는지 아는 사람이 있습니까?Adobe에서 링크를 찾았지만 데드 링크인 것 같습니다 :(

해결책

다음은 Adobe의 참조 자료에 대한 링크입니다.

http://www.adobe.com/devnet/pdf/pdf_reference.html

PDF는 구조가 아닌 프레젠테이션에 관한 것임을 알아야 합니다.파싱은 쉽지 않을 것이다.

다른 팁

처음 PDF 작업을 시작했을 때 나는 다음을 발견했습니다. PDF 참조 탐색하기가 매우 어렵습니다.파일 구조의 개요는 구문에서 찾을 수 있으며 Adobe에서 문서 구조라고 부르는 것은 파일 구조가 아니라 개체 구조라는 것을 아는 것이 도움이 될 수 있습니다.이는 구문에서도 찾을 수 있습니다.연산자에 대한 설명은 부록 A에 숨겨져 있습니다. 콘텐츠 스트림에서 무슨 일이 일어나고 있는지 이해하는 데 매우 유용합니다.색상 공간으로 작업하는 데 어려움을 겪은 적이 있다면 그래픽에 숨겨져 있는 것을 발견하게 될 것입니다!이 지침이 여러분이 나보다 더 빨리 정보를 찾는 데 도움이 되기를 바랍니다.

윈도우를 사용하고 계시다면, pdftron Cos편집 객체 구조를 탐색하여 이해할 수 있습니다.파일을 검사할 수는 있지만 저장할 수는 없는 무료 데모가 있습니다.

나는 찾았다 GNU PDF 소개 구조를 이해하는데 도움이 됩니다.쉽게 읽을 수 있는 내용이 포함되어 있습니다. 예시 PDF 파일 그들은 아주 자세하게 설명합니다.

기타 유용한 링크:

PDF 간결하게 책 더 길고 유용한 그림이 있습니다.
PDF 내부 소개 심층적이지는 않지만 빠른 개요를 제공하고 많은 사진이 포함된 프레젠테이션입니다.

여기 원문이 있습니다 PDF 1.7 참조, 그리고 여기에 기사가 있습니다 PDF의 구조 설명 파일.Vim을 사용한다면, pdftk 플러그인 훨씬 덜 원시적인 형태로 문서를 탐색할 수 있는 좋은 방법입니다. pdftk 유틸리티 자체(및 해당 GPL 소스)는 문서를 분리하는 좋은 방법입니다.

나는 거의 같은 일을하려고 노력하고 있습니다.PDF 참조는 읽기 매우 어려운 문서입니다. 이 튜토리얼 내 생각엔 더 나은 시작인 것 같아.

이는 약간의 이해를 돕는 데 도움이 될 수 있습니다.(PDF32000.book의 11페이지에서)

PDF 구문은 그림 1과 같이 4개 부분으로 간주하면 가장 잘 이해됩니다.

• 사물.PDF 문서는 작은 기본 유형의 데이터 개체 집합으로 구성된 데이터 구조입니다."어휘 규칙"은 7.2 항의 "어휘 규칙"은 물체 및 기타 구문 요소를 작성하는 데 사용되는 캐릭터 세트를 설명합니다.하위 조항 7.3, "객체"는 객체의 구문과 필수 속성을 설명합니다.서브 클라스 7.3.8, "스트림 객체"는 가장 복잡한 데이터 유형 인 스트림 객체에 대한 완전한 세부 정보를 제공합니다.

• 파일 구조.PDF 파일 구조는 객체가 PDF 파일에 저장되는 방법, 액세스 방법 및 업데이트 방법을 결정합니다.이 구조는 객체의 의미와 무관합니다.하위 조항 7.5, "파일 구조"는 파일 구조를 설명합니다.7.6 하위 조명 인 "암호화"는 문서의 내용을 무단 액세스로부터 보호하기위한 파일 레벨 메커니즘을 설명합니다.

• 문서 구조.PDF 문서 구조는 기본 개체 유형이 PDF 문서의 구성 요소를 나타내는 데 사용되는 방법을 지정합니다.페이지, 글꼴, 주석 등.7.7 하위 사고, "문서 구조"는 전체 문서 구조를 설명합니다.나중에 조항은 구성 요소의 상세한 의미를 다룹니다.

• 콘텐츠 스트림.PDF 컨텐츠 스트림에는 페이지 또는 기타 그래픽 엔티티의 모양을 설명하는 일련의 지침이 포함되어 있습니다.이 지침은 객체로도 표시되지만 문서 구조를 나타내고 별도로 설명되는 객체와 개념적으로 구별됩니다.서브 클로스 7.8, "콘텐츠 스트림 및 리소스"는 PDF 컨텐츠 스트림과 관련 리소스에 대해 설명합니다.

PDF 파일을 탐색하려면 지나가는 노력보다 조금 더 많은 노력이 필요할 것 같습니다.

Python을 사용하여 PDF를 구문 분석하려면 다음을 살펴보십시오. PDF마이너.이것은 현재까지 PDF 파일을 구문 분석하는 최고의 라이브러리입니다.

Didier에는 PDF를 구문 분석하는 도구가 있습니다.

http://didierstevens.com/files/software/pdf-parser_V0_4_3.zip

아니면 여기:

http://blog.didierstevens.com/programs/pdf-tools/ 여러 관련 PDF 분석 도구를 분류했습니다.

또 다른 도구는 다음과 같습니다.

http://mshahzadlatif.wordpress.com/2011/09/28/view-pdf-structure-using-adobe-acrobat-or-a-free-tool-called-pdfxplorer/

PDF는 레이아웃 중심 구조를 갖고 있기 때문에 PDF에서 텍스트를 추출하는 것은 어려운 문제입니다.당신은 볼 수 있습니다 문서 및 소스 코드 CPAN에 대한 내 시도는 거의 성공하지 못했습니다(내 구현은 Perl에서 이루어졌습니다).PDF 데이터 구조는 매우 멋지고 잘 디자인되어 있지만 읽기보다 쓰기가 더 쉽습니다.

단서를 얻는 한 가지 방법은 빈 페이지로 구성된 PDF 파일을 만드는 것입니다.내 컴퓨터에 CutePDF Writer가 있고 한 페이지의 빈 워드패드 문서를 만들었습니다..pdf 파일로 인쇄한 다음 메모장을 사용하여 .pdf 파일을 열었습니다.

그런 다음 이 파일의 복사본을 사용하여 관심 있는 텍스트 줄이나 블록을 제거한 다음 Acrobat Reader에서 다시 로드하세요.작동하는 한 페이지짜리 PDF 문서를 만드는 데 필요한 정보가 얼마나 적은지 알면 놀랄 것입니다.

코드에서 PDF 양식을 만들기 위해 스프레드시트를 만들려고 합니다.

PDF 파일의 세부 사항과 구조에 대해 읽으려면 PDF 참조 설명서가 필요합니다.버전 1.7부터 시작하는 것이 좋습니다.

Windows에서는 무료 도구를 사용했습니다. PDF 분석기 PDF 파일의 내부 구조를 보려면참고 매뉴얼을 읽으실 때 이해에 도움이 될 것입니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow