سؤال

وكيف يمكنني استخراج جزء من هذا التيار (واحد اسمه BLABLABLA) من ملف PDF الذي يحتوي عليه ؟؟

<</Contents 583 0 R/CropBox[0 0 595.22 842]/MediaBox[0 0 595.22 842]/Parent 29 0  /Resources<</ColorSpace<</CS0 563 0 R>>/ExtGState<</GS0 568 0 R>>/Font<</TT0 559 0 R/TT1 560 0 R/TT2 561 0 R/TT3 562 0 R>>/ProcSet[/PDF/Text/ImageC]/Properties<</MC0<</BLABLABLA 584 0 R>>/MC1<</SubKey 582 0 R>>>>/XObject<</Im0 578 0 R>>>>/Rotate 0/StructParents 0/Type/Page>>

وأو في عوالم أخرى، كيف يمكنني استخراج فرعي من تيار الشعبي؟

وأود أن استخدام مكتبة بعض بايثون (مثل pyPdf أو ReportLab)، ولكن حتى بعض C / C ++ ليب يجب أن تسير على ما يرام بالنسبة لي.

ويمكن لأي شخص أن يساعدني؟

هل كانت مفيدة؟

المحلول

وIIUC، وهو تيار في PDF هو مجرد سلسلة من البيانات الثنائية. أعتقد أن كنت ترغب في استخراج جزء من كائن. هل يريد كائن القياسية، مثل صورة أو نص؟ وسيكون من الأسهل كثيرا أن أقدم لكم رمز المثال إذا كان هناك مثال حقيقي.

وهذا قد تساعد على انك بدأته:

import pyPdf
pdf = pyPdf.PdfFileReader(open("pdffile.pdf"))
list(pdf.pages) # Process all the objects.
print pdf.resolvedObjects
مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top