ما هو PDF جيد لتحويل HTML ل Ruby On Rails؟ [مغلق

https://stackoverflow.com/questions/1900423

19-09-2019
|

سؤال

أحاول تحويل PDF برمجيا إلى HTML. حتى الآن كنت تستخدم Pdftohtml لكن مستخدمينا ليسوا سعداء بالنتائج.

إليك ما أحتاج إليه:

أنا أستخدم Ruby على القضبان، ولكن أي أداة تعمل على UNIX ستعمل كما أستطيع أن أسميها من سطر الأوامر. ولكن بالطبع جوهرة لطيفة أو البرنامج المساعد سيكون مثاليا.
أفضل أن يكون مفتوح المصدر
يجب أن تكون قادرة على التعامل مع الصور
سيكون من الرائع أن يكون هناك خيار تجاهل الصور إذا لزم الأمر
يجب أن تكون مستقرة
يحتاج إلى إعادة HTML مع تخطيط قريب من PDF الأصلي (لقد حاولت Pdftohtml والنتيجة ليست جيدة في الكثير من الحالات)

المحلول

فيما يلي بضع بدائل أكثر ل Pdftohtml / XPDF:

لدى Adobe PDF عبر الإنترنت مجانا إلى HTML أو النص خدمة التحويل. وبعد قد يستغرق الأمر دقيقة أو اثنين للحصول على المستند مرة أخرى، لكنني أظن أن هذا الخيار سيعطيك أفضل النتائج.
هناك قارئ PDF جوهرة Ruby التي ستمنحك الوصول إلى Internals من ملف PDF. سيتضمن ذلك بعض التطوير / الامتداد من جانبك، ولكن يمكنك استخدام هذا لتحليل ملف PDF وإنشاء HTML لطيفة المظهر. قد يكون هذا أسهل مما يبدو إذا كنت تعرف نوع الملفات التي يتحول إليها المستخدمون قبل المرات (كما لو كانوا يعملون بأشكال موحدة).
قد يكون لديك المزيد من الخيارات إذا كنت تستخدم ghostscript. (جوهرة وجدت هنا) لتحويل PDF إلى تنسيق آخر أولا. يمكن لجهاز GEM إنشاء صور (PNG، JPG، إلخ) من ملف PDF ولكن قد يكون لديك الحالات الحظ التي يحولها إلى ملف بوستسكريبت حيث يبدو أن هناك محولات "تنسيق" إلغاء "هنا].

نصائح أخرى

بالنسبة ل PDF لتحويل HTML، يبدو PDF2HTMLEX أداة جيدة جدا (تبحث في جميع الأمثلة / العينات):

https://github.com/coolwanglu/pdf2htmlex.

إذا فشل كل شيء آخر، فيمكنك تشغيل كل صفحة إلى صورة (باستخدام صورة Magick أو ما شابه) وعرض الصور، http://books.google.com. أو http://safari.oreilly.com.. وبعد سيكون هناك خنزير عرض النطاق الترددي، لكنك ستحصل على الإخلاص إلى الأصل.

قضيت أثناء العمل في مشروع بحثي يشارك في أخذ ملفات PDF كمدخلات. ما تطلبه هو مجرد مهمة صعبة حقا، ولا توجد برامج ستفعل ذلك تماما. في حين أن HTML لديه بعض الهيكل، مثل <p>, ، PDF عرض خاص بحت. سيقول مستند HTML، "هذه فقرة. هذه صورة". ويتم تفسير العرض التقديمي من ذلك. ستقول وثيقة PDF بشكل أساسي: "يجب تقديم هذه الشخصية في الموضع X، Y. سيتم تقديم هذا Chriacter التالي في الموضع ..." وما إلى ذلك حتى بناء الفقرات من ذلك يمكن أن يكون صعبا.

كنت أعمل في جافا، لذلك لا أعتقد أن البرنامج المحدد الذي استخدمته سيكون من الاستخدام لك كثيرا. أيضا، أذكر أن بعض مولدات PDF لصق صورة في صور أصغر وعرضها بجانب بعضها البعض - كان ذلك ألم ضخم.

هل هناك أي طريقة ممكنة يمكنك العمل بها بتنسيق مختلف، أو خفض توقعاتك؟ يمكنك أن تفعل الشيء صورة أن وين يقترح، ولكن بعد ذلك حقا أتش تي أم أل (وغير قابل للوصول - هل هذا مصدر قلق لك؟). قد يتعين عليك فقط أن تكون شيئا تعيش به.

حاول استخدام الفلفل أو XPDF. لكنها تحتاج إلى بعض السحر والرمام.

يمكنك المحاولة http://www.pdf-to-html-word.com/pdf-to-html.التي تعمل جيدة حقا. دفعت ثمنها بعد التحقق من وظائفها. لديك رحلة مجانية لاختبارها. أو استخدم Acrobat Pro وحفظه ك HTML مع CSS. هذا يعمل أيضا. لكنه ألم في A ** للقيام به مع مجموعة من الملفات.

يمكن أن تجرب هذا. لقد اتخذت مقطعة أول في التفاف Ruby حول الأداة المساعدة Pdftohtml. GEM المتاحة هنا: http://gemcutter.org/gems/pdftohtmlr.

بعد استخدام Pdftohtml لبعض الوقت ويجري غير راض عن نتائج عرض إصدار HTML، أفكر في استخدام API مستند من Google Apps أو API Scribd (المفضل لدي الآن)

http://www.scribd.com/developers/api.

في النهاية، ربما استخدم PDFTOHTML لمجرد استخراج محتوى نص ملف PDF و API SCRIBD لعرض الملف الأصلي على صفحة المستخدم

لقد أصدرت للتو جوهرة Ruby لتحويل المستندات باستخدام OFFIC OFFICENT (عبر Poyconverter أو Jodconverter). كما يدمج القليلة الأخرى (PDFTools و NetPBM) لاستخراج الصور DANS النصية من ملفات PDF.

يمكنك العثور عليها هنا https://github.com/itkin/proselytism.git.

لا تتردد في إضافة المحولات الخاصة بك وأبلغني عن بعض المشكلات

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow