استخراج TOC من PDF؟

https://stackoverflow.com/questions/2431426

19-09-2019
|

سؤال

أنا استخراج قوات الدفاع الشعبي إلى الصور / SWF والنص بمساعدة swftools و xpdf .. أنا أعمل هذه في برنامج نصي PDF.

ولكن الآن أحاول أن أذهب إلى خطوة واحدة ومحاولة الحصول على TOC من PDF هل من الممكن استخراج هذه المعلومات؟

المحلول

لقد وجدت هذا مع القليل من البحث. يبدو واعد إلى حد ما.

Pdfminer: http://www.unixuser.org/~euske/python/pdfminer/index.html.

ملاحظة: تحتوي الأداة على Python مقرها، ولكن يجب أن تكون قادرا على استخدام الأداة عبر Access Shell. بدلا من ذلك، قد تتمكن من إلغاء بعض المعلومات المفيدة من التعليمات البرمجية المصدر نفسها، حيث أن المشروع مفتوح المصدر.

من الموقع:

dumppdf.py.

Dumppdf.py تفريغ المحتويات الداخلية لملف PDF بتنسيق Pseudo-XML. هذا البرنامج هو في المقام الأول لأغراض تصحيح الأخطاء، ولكن من الممكن أيضا استخراج بعض المحتويات الهادفة (مثل الصور).

أمثلة:
$ dumppdf.py -a foo.pdf
(dump all the headers and contents, except stream objects)

$ dumppdf.py -T foo.pdf
(dump the table of contents)

$ dumppdf.py -r -i6 foo.pdf > pic.jpeg
(extract a JPEG image)

نصائح أخرى

حاولت dump.pdf -T, ، لكنه لم يعمل على بعض ملفات PDF.

هناك أداة أخرى من MUPDF اسمه mutool, التي وجدت للتو. لا أعرف إذا كان هذا أفضل من DUMP.PDF ولكن عملت على ملف PDF DUMP.PDF يلقي خطأ.

إليك كيفية استخراج TOC مع Mutool

mutool show {your-pdf-file} outline

Mupdf.

بدلا من ذلك، يمكنك استخدام Mupdf. وهو عبارة عن تطبيق PDF خفيف الوزن تماما ولكنه مكتوب C. في apps/ الدليل الفرعي ستجد بعض الأدوات التي يمكن عرضها وتفريغها واستخراجها من ملفات PDF. أفضل Mupdf عبر XPDF لأنه تم الحفاظ عليه بنشاط ولديه دعم PDF أفضل.

خلاف ذلك، هناك دائما اللوحات التي تستند فعلا على XPDF. يقوم المطورون بتنفيذ كودها إلى C ++. وبالتالي، فإنه ينفذ أسوأ من سابقته. بالمقارنة مع MUPDF، يبدو أن المقاتلين لديهم المزيد من الميزات، ولكن في مقدم التعليمات البرمجية أكثر تعقيدا.

لأغراضك يجب أن تكون mupdf كافية. يمكنك الاختراق معا تطبيق بسيط من رمز المثال المنصوص عليه في apps/ الذي يستخرج جميع المعلومات التي تحتاجها دون الاعتماد على التطبيقات الخارجية.

أعتقد أن النظر في PDFLIB. PHP سيكون مكان جيد جدا للبدء. إذا قمت بالتمرير لأسفل، فسترى الكثير من الحلول المنشورة من المستخدم لتحويل PDF إلى HTML أو PDF إلى النص. بعد التحويل، يمكن أن استخراج وظيفة مطابقة بسيطة نسبيا عناصر TOC الموسومة ورميها في صفيف على سبيل المثال، والتي يمكنك التلاعب بها عندها.

هذا stackoverflow post. لديها أيضا بعض الحلول.

أتمنى أن يساعدك هذا.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow