سؤال

من أجل مشروع صغير يجب أن تحليل ملفات pdf و تأخذ جزء معين منها (سلسلة بسيطة من الشخصيات).أود أن استخدام بيثون أن تفعل هذا و لقد وجدت العديد من المكتبات التي هي قادرة على فعل ما أريد في بعض الطرق.

ولكن الآن بعد عدد قليل من الأبحاث ، أنا أتساءل ما هو الهيكل الحقيقي من ملف pdf, لا أحد يعرف إذا كان هناك مواصفات أو بعض التفسيرات في أي مكان على الانترنت ؟ لقد وجدت رابط على أدوبي ولكن يبدو أنه ميت الرابط :(

هل كانت مفيدة؟

المحلول

هنا هو ارتباط إلى أدوبي المواد المرجعية

http://www.adobe.com/devnet/pdf/pdf_reference.html

يجب أن نعرف على الرغم من أن قوات الدفاع الشعبي هو فقط حول العرض ، لا بنية.تحليل لن يأتي بسهولة.

نصائح أخرى

عندما بدأت العمل مع قوات الدفاع الشعبي ، وجدت PDF مرجع من الصعب جدا للتنقل.قد يساعدك أن تعرف أن نظرة عامة على بنية الملف وجدت في الجملة ، وما أدوبي استدعاء هيكل الوثيقة هو كائن هيكل و لا بنية الملف.وهذا هو أيضا وجدت في الجملة.وصف مشغلي مخبأة بعيدا في الملحق أ - مفيدة جدا في فهم ما يحدث في المحتوى تيارات.إذا كنت من أي وقت مضى الألم من العمل مع اللون المساحات سوف تجد أن المخفية في الرسومات!نأمل أن هذه النصائح سوف تساعدك على العثور على الأشياء بسرعة أكثر مما فعلت.

إذا كنت تستخدم ويندوز ، pdftron CosEdit يتيح لك تصفح وجوه هيكل أن نفهم ذلك.هناك تجريبي مجاني المتاحة التي تسمح لك لفحص الملف ولكن لا من حفظه.

وجدت غنو مقدمة PDF أن تكون مفيدة في فهم بنية.ويشمل يمكن قراءته بسهولة مثال على ملف PDF أنها تصف بالتفصيل الكامل.

غيرها من الروابط المفيدة:

وهنا الخام إشارة PDF 1.7, وهنا مقال يصف هيكل PDF الملف.إذا كنت تستخدم همة ، pdftk المساعد هو وسيلة جيدة لاستكشاف هذه الوثيقة في أي وقت مضى حتى قليلا أقل شكل مواد خام ، pdftk الأداة نفسها (و المصدر GPL) هو وسيلة رائعة لإثارة الوثائق على حدة.

أنا أحاول أن أفعل نفس الشيء تقريبا.PDF مرجع صعب جدا الوثيقة إلى قراءة. هذا البرنامج التعليمي هو بداية أفضل على ما أعتقد.

هذا قد يساعد في تسليط القليل من الضوء:(من الصفحة 11 من PDF32000.كتاب)

PDF بناء الجملة هو المفهوم من النظر في أربعة أجزاء ، كما هو مبين في الشكل 1:

• الكائنات.وثيقة PDF هو بنية بيانات تتألف من مجموعة صغيرة من أنواع أساسية من الكائنات البيانات.الفرعية البند 7.2 "المعجمية الاتفاقيات" يصف مجموعة الأحرف المستخدمة لكتابة الأشياء الأخرى النحوية العناصر.الفقرة الفرعية 7.3, "الكائنات" يصف الجملة الأساسية خصائص الكائنات.الفقرة الفرعية 7.3.8, "تيار الكائنات" يقدم تفاصيل كاملة من البيانات الأكثر تعقيدا نوع تيار الكائن.

• بنية الملف.ملف PDF هيكل يحدد كيف يتم تخزين الأشياء في ملف PDF, كيف يتم الوصول إليها ، وكيف يتم تحديثها.هذا الهيكل هو مستقل من دلالات الكائنات.الفرعية شرط 7.5, "الملف هيكل" يصف بنية الملف.البند 7.6, "التشفير" يصف مستوى الملف آلية حماية محتويات الوثيقة من الوصول غير المصرح به.

• هيكل الوثيقة.PDF هيكل الوثيقة لتحديد كيفية الأساسية أنواع الكائنات تستخدم تمثل مكونات وثيقة PDF:صفحات, الخطوط, شروح, وهكذا دواليك.الفقرة الفرعية 7.7, "هيكل الوثيقة ،" يصف الوثيقة العامة الهيكل ؛ في وقت لاحق شروط معالجة مفصلة دلالات المكونات.

• المحتوى تيارات.PDF بث المحتوى يحتوي على سلسلة من التعليمات التي تصف مظهر صفحة أو الرسومية الأخرى الكيان.هذه التعليمات ، في حين أيضا تمثيل الكائنات ، من الناحية النظرية متميزة من الكائنات التي تمثل هيكل الوثيقة و تم وصفها بشكل منفصل.البند الفرعي 7.8 "المحتوى تيارات الموارد" يناقش محتوى PDF تيارات وما يرتبط بها من موارد.

يبدو أن التنقل من ملف PDF يتطلب أكثر قليلا من يمر من الجهد.

إذا كنت ترغب في تحليل PDF باستخدام بيثون يرجى إلقاء نظرة على PDFMINER.هذا هو أفضل مكتبة تحليل ملفات PDF حتى الآن.

ديدييه يكون أداة تحليل ملف PDF:

http://didierstevens.com/files/software/pdf-parser_V0_4_3.zip

أو هنا:

http://blog.didierstevens.com/programs/pdf-tools/ التي صنفت عدة ذات الصلة pdf-أدوات التحليل.

أداة أخرى هنا:

http://mshahzadlatif.wordpress.com/2011/09/28/view-pdf-structure-using-adobe-acrobat-or-a-free-tool-called-pdfxplorer/

استخراج النص من PDF هو مشكلة صعبة لأن PDF لديه مثل هذه الموجهة تخطيط الهيكل.يمكنك أن ترى مستندات التعليمات البرمجية المصدر بلدي بالكاد محاولة ناجحة على CPAN (بلدي التنفيذ في بيرل).PDF بنية البيانات هو بارد جدا ومصممة بشكل جيد, لكنه أسهل في الكتابة من القراءة.

طريقة واحدة للحصول على بعض القرائن هو إنشاء ملف PDF يتكون من صفحة فارغة.لدي CutePDF Writer على جهاز الكمبيوتر وجعل فارغة الدفتر وثيقة من صفحة واحدة.طباعتها .pdf ملف ثم فتح .ملف pdf باستخدام برنامج "المفكرة".

ثم استخدم نسخة من هذا الملف والقضاء على خطوط أو كتل من النص التي قد تكون ذات فائدة ، ثم تحديث في برنامج Acrobat Reader.سوف يفاجأ في مدى قلة المعلومات اللازمة لجعل العمل من صفحة واحدة وثيقة PDF.

أنا أحاول أن تشكل جدول لإنشاء قوات الدفاع الشعبي شكل من التعليمات البرمجية.

تحتاج PDF دليل مرجعي لبدء القراءة عن تفاصيل هيكل من ملفات PDF.أقترح أن تبدأ مع الإصدار 1.7.

على ويندوز أنا استخدم أداة مجانية PDF محلل أن ترى الهيكل الداخلي من ملفات PDF.وهذا سوف يساعد في فهم عند قراءة الدليل المرجعي.

enter image description here

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top