سؤال

وماذا سيكون للمستخدمين بلدي القيام به هو تحديد وثيقة PDF على الجهاز، وتحميله على موقع الويب الخاص بي، حيث كنت سوف تتحول إلى وثيقة HTML للعرض على شبكة الإنترنت. سيتم تخزين المستند في قاعدة البيانات بعد التحويل.

ما هي أفضل طريقة لتحويل PDF إلى HTML؟

ولقد تم تسليم I شرط حيث المستعمل من شأنه أن يخلق "الأخبار" قصة الوثيقة باعتبارها وبعد ذلك تحميله إلى سيفر، حيث سيتم تحويلها إلى HTML وعرضها على الموقع.

هل كانت مفيدة؟

المحلول

وأي وثيقة انشاء برامج التي يمكن حفظ المستندات بصيغة PDF يمكن انقاذهم كما HTML. أفترض أن المسألة هي أن المستخدمين سيتم إنشاء وثائق غنية (الكثير من الصور المضمنة)، مما يؤدي إلى ملفات متعددة، والمتطلبات الخاصة بك تنبع من الرغبة في جعل تحميل هذه الوثائق بسيطا قدر الإمكان للمستخدم.

وهناك العديد من حزم التحويل التي ربما تستطيع أن تفعل ذلك بالنسبة لك، ولكن عندما نتحدث عن المحتوى الغني، كنت تتحدث عن النص بالإضافة إلى الصور. تلك الصور يجب أن تكون مخزنة في مكان ما، ويكون معدا بطريقة أو بأخرى، ومهما كانت طريقة التحويل التي تستخدمها سوف تتطلب منك لدراسة جميع مصادر الصورة للتأكد من أنها تشير إلى مواقع صالحة على الخادم الخاص بك.

وأود أن أقترح طريقة بديلة للقيام بذلك التي يمكنك اتخاذها لفريقك: تنفيذ واحد من العديد من واجهات برمجة التطبيقات بلوق لنشر المحتوى. هناك المجانية والتجارية حزم البرامج التي تستخدم واجهات برمجة التطبيقات لنشر المحتوى مباشرة إلى موقع على شبكة الانترنت، مثل ويندوز لايف الكاتب و Microsoft Word. يمكن للمستخدمين ببساطة خلق مضمونها وتحميل مباشرة إلى موقع الويب الخاص بك دون الحاجة لنشرها كما PDF أولا ثم تحميله. وبالتالي فإن عملية تصبح أكثر سلاسة للمستخدمين، وتحصل على وظيفة في شكل لا تتطلب منك تنفق آلاف الدولارات على تطوير أو شراء شفرة التحويل.

واجهات برمجة التطبيقات الأكثر شيوعا هما MetaWeblog API و في المنقول نوع API . كلاهما بسيطة جدا وسهلة التنفيذ. وأعتقد أن هذه الطريقة أن يكون بديلا أفضل بكثير مما كنت تفكر به.

نصائح أخرى

وأنا لا أعتقد أن تحويل PDF إلى سلسلة HTML غير بالضرورة أفضل فكرة، وخاصة إذا كنت ترغب في تصديرها مرة أخرى في PDF. غالبا ما تحتوي على ملفات PDF عناصر ثنائية مثل الصور، لذلك قد يكون من الأفضل لتحويلها إلى ASCII عن طريق الترميز، مثل باستخدام Base64. بهذه الطريقة سيكون لديك سلسلة ASCII يمكنك حفظ في حقل النص في DB ثم تحويله مرة أخرى للخروج. هل يمكن توسيع أكثر على الشرط الرئيسي؟

وتوصيتي سيكون للا تفعل ذلك بهذه الطريقة إن أمكن (ولكن نحن جميعا نعرف ما المديرين مثل) لذلك ...

وأود أن أوصي بأن عليك البقاء بعيدا عن تحويل PDF من / HTML (لأن ما لم تتمكن من العثور على حل تجاري سيكون قريب من المستحيل) وبدلا من ذلك تفعل ما سبق ذكره وتخزينه بوصفها سلسلة ترميز Base64 ، أو BLOB أو بعض تنسيق ثنائي آخر في قاعدة البيانات، ومن ثم عرضه للمستخدم مع نوع من عرض PDF المساعد للمتصفح.

وكل ما يحتج لأكثر من جوجل بحث بسيط ل "PDF إلى HTML": HTTP: // شبكة الاتصالات العالمية. gnostice.com/pdf2manyOverview_x.asp . أنا متأكد من أن هناك آخرين.

وهكذا في حين انها "ممكن"، قد تحتاج إلى شرح لمديرك أن هذا ليس أفضل حل إدارة المحتوى.

لماذا لا تستخدم iTextSharp لقراءة PDF المحتوى؟ ثم هل يمكن حفظ كل من PDF ثنائي ومحتوى النص إلى قاعدة البيانات. يمكنك بعد ذلك السماح للمستخدمين البحث في المحتوى وتحميل PDF.

ويجب أن ننظر إلى DynamicPDF. لديهم تحويل (بيتا حاليا) من أجل خدمة بالضبط هذا الغرض. وقد استخدمنا منتجاتها بنجاح كبير (خاصة للتخلص خدمات التقارير تقارير مباشرة إلى PDF).

المرجع: http://www.dynamicpdf.com/

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top