extraindo corrente de PDF em python

https://stackoverflow.com/questions/429437

06-07-2019
|

Pergunta

Como posso extrair a parte deste fluxo (o chamado blablabla) do arquivo pdf que contém ele ??

<</Contents 583 0 R/CropBox[0 0 595.22 842]/MediaBox[0 0 595.22 842]/Parent 29 0  /Resources<</ColorSpace<</CS0 563 0 R>>/ExtGState<</GS0 568 0 R>>/Font<</TT0 559 0 R/TT1 560 0 R/TT2 561 0 R/TT3 562 0 R>>/ProcSet[/PDF/Text/ImageC]/Properties<</MC0<</BLABLABLA 584 0 R>>/MC1<</SubKey 582 0 R>>>>/XObject<</Im0 578 0 R>>>>/Rotate 0/StructParents 0/Type/Page>>

Ou, em outros mundos, como posso extrair uma subchave de um fluxo pdf?

Eu gostaria de usar a biblioteca de alguns python (como pyPdf ou ReportLab), mas até mesmo alguns C / C ++ lib deve ir bem para mim.

Alguém pode me ajudar?

Solução

IIUC, um fluxo em um PDF é apenas uma seqüência de dados binários. Eu acho que você está querendo extrair parte de um objeto. Você está querendo um objeto padrão, como uma imagem ou texto? Seria muito mais fácil para lhe dar exemplo de código se houvesse um exemplo real.

Esta ajuda poder começar:

import pyPdf
pdf = pyPdf.PdfFileReader(open("pdffile.pdf"))
list(pdf.pages) # Process all the objects.
print pdf.resolvedObjects

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow