Extrahieren von Strom aus PDF in Python

https://stackoverflow.com/questions/429437

06-07-2019
|

Frage

Wie kann ich extrahieren den Teil dieses Stroms (der BLABLABLA genannt) aus der PDF-Datei, die es enthält ??

<</Contents 583 0 R/CropBox[0 0 595.22 842]/MediaBox[0 0 595.22 842]/Parent 29 0  /Resources<</ColorSpace<</CS0 563 0 R>>/ExtGState<</GS0 568 0 R>>/Font<</TT0 559 0 R/TT1 560 0 R/TT2 561 0 R/TT3 562 0 R>>/ProcSet[/PDF/Text/ImageC]/Properties<</MC0<</BLABLABLA 584 0 R>>/MC1<</SubKey 582 0 R>>>>/XObject<</Im0 578 0 R>>>>/Rotate 0/StructParents 0/Type/Page>>

Oder in anderen Welten, wie kann ich extrahiere einen Unterschlüssel von einem pdf-Stream?

Ich möchte einige Python-Bibliothek verwenden (wie pyPdf oder ReportLab), aber auch einige C / C ++ lib sollte für mich gut gehen.

Kann mir jemand helfen?

Lösung

IIUC, ein Strom in einer PDF ist nur eine Folge von binären Daten. Ich glaube, Sie wollen Teil eines Objekts zu extrahieren. Sind Sie wollen ein Standard-Objekt, wie ein Bild oder Text? Es wäre viel einfacher, Ihnen Beispiel-Code zu geben, wenn es ein echtes Beispiel ist.

Das könnte Sie begann Hilfe zu bekommen:

import pyPdf
pdf = pyPdf.PdfFileReader(open("pdffile.pdf"))
list(pdf.pages) # Process all the objects.
print pdf.resolvedObjects

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow