파이썬에서 PDF에서 스트림 추출

https://stackoverflow.com/questions/429437

06-07-2019
|

문제

PDF 파일 에서이 스트림 (Blablabla라는 이름)의 일부를 어떻게 추출 할 수 있습니까?

<</Contents 583 0 R/CropBox[0 0 595.22 842]/MediaBox[0 0 595.22 842]/Parent 29 0  /Resources<</ColorSpace<</CS0 563 0 R>>/ExtGState<</GS0 568 0 R>>/Font<</TT0 559 0 R/TT1 560 0 R/TT2 561 0 R/TT3 562 0 R>>/ProcSet[/PDF/Text/ImageC]/Properties<</MC0<</BLABLABLA 584 0 R>>/MC1<</SubKey 582 0 R>>>>/XObject<</Im0 578 0 R>>>>/Rotate 0/StructParents 0/Type/Page>>

또는 다른 세계에서 PDF 스트림에서 하위 키를 어떻게 추출 할 수 있습니까?

Python의 라이브러리 (PYPDF 또는 ReportLab과 같은)를 사용하고 싶지만 일부 C/C ++ LIB조차도 나에게 잘 가야합니다.

누구든지 나를 도울 수 있습니까?

해결책

IIUC, PDF의 스트림은 단지 일련의 이진 데이터 일뿐입니다. 나는 당신이 물체의 일부를 추출하고 싶다고 생각합니다. 이미지 나 텍스트와 같은 표준 객체를 원하십니까? 실제 예제가 있다면 예제 코드를 제공하는 것이 훨씬 쉽습니다.

이것은 당신이 시작하는 데 도움이 될 수 있습니다 :

import pyPdf
pdf = pyPdf.PdfFileReader(open("pdffile.pdf"))
list(pdf.pages) # Process all the objects.
print pdf.resolvedObjects

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow