ما هو أفضل "تنسيق ملف" لحفظ صفحات ويب كاملة (صور ، إلخ.) في واحدة الأرشيف ؟ [مغلقة]

StackOverflow https://stackoverflow.com/questions/260058

سؤال

أنا أعمل على مشروع متجر واحد الصور و الملفات النصية في مكان واحد ، مثل كبسولة زمنية.الآن, معظم كل مشروع يمكن حفظ ملف واحد مثل DOC, PPT, و ODF.ولكن صفحات ويب كاملة لا يمكن إنهم حفظها كملف HTML منفصلة ملف بيانات المجلد. كنت ترغب في حفظ صفحة ويب في أرشيف واحد ، في حين أن هناك العديد من الحلول ، لا يوجد "مستوى".الذي هو أفضل شكل HTML الأرشيف ؟

  • مايكروسوفت MHTML -- في الأساس ملف مشفر تماما كما MIME HTML رسالة البريد الإلكتروني.إنه بالفعل على القائمة الموحدة ، MHTML الخاصة وقد اقترح rfc2557.هذا هو فكرة عظيمة وهي موجودة إلى الأبد, إلا انها كانت "المقترحة القياسية" منذ عام 1999.بالإضافة إلى تطبيقات أخرى من IE فقط مرهقة.إنترنت إكسبلورر و أوبرا الدعم ؛ فايرفوكس وسفاري مع مرهقة التمديد.

  • موزيلا موزيلا تنسيق الأرشيف -- في الأساس ملف مضغوط مع العلامات والصور مع البيانات الوصفية حفظ قوات الدفاع الرواندية.انها فكرة رهيبة -- Winamp هل هذا للجلود ، ODF و OOXML عن الصور المضمنة.أنا أحب هذا, إلا, 1.لا أحد آخر إلا موزيلا يستخدم ذلك ، 2.فقط تمديد دعم لم يكن تحديث منذ فايرفوكس 1.5.

  • محددات البيانات أصبحت أكثر شعبية.بدلا من الرجوع إلى موقع خارجي a la MHTML أو MAF, ترميز الملف مباشرة إلى HTML ترميز base64.اعتمادا على طريقة العرض مبسطة منذ الملفات صحيح حيث الترميز.بيد أن الدعم لا تزال ضعيفة إلى حد ما.فايرفوكس, أوبرا, سفاري الدعم دون الزلات;أي الرائدة في السوق, بدأ دعم في IE8 ، وحتى ذلك الحين مع حدود.

  • ثم بالطبع هناك "حفظ صفحة ويب كاملة" حيث HTML يتم حفظ "savedpage.html" و ملفات منفصلة "savedpage_files" المجلد.Afaik الجميع يفعل هذا.انها مدعومة بشكل جيد.ولكن الحاجة إلى التعامل مع اثنين من عناصر منفصلة ليست بسيطة ومبسطة في كل.المشروع يحتاج إلى أن يكون لهم في أرشيف واحد.

مع الأخذ في الاعتبار دعم المتصفح و سهولة تحرير الصفحة, ماذا تعتقد هي أفضل طريقة لحفظ صفحات الويب في واحدة الأرشيف ؟ ما يمكن أن يكون أفضل "المعيار" ؟ أم يجب أن تشمر عن ساعد الجد والتعامل مع ملف HTML منفصل المجلد ؟ من اجل هذا المشروع ، يمكن أن يؤيد ذلك ، ولكن من الأفضل تجنب ذلك.

هل كانت مفيدة؟

المحلول

المفضل لدي هو تنسيق ZIP.لأن:

  • إنه جيد جدًا لهذا الغرض
  • لقد تم توثيقه جيدًا
  • هناك الكثير من التطبيقات المتاحة لإنشائها أو قراءتها
  • يمكن للمستخدم بسهولة استخراج الملفات الفردية وتغييرها وإعادتها إلى الأرشيف
  • تحتوي كل أنظمة التشغيل الرئيسية تقريبًا (Windows وMac ومعظم أنظمة Linux) على برنامج ZIP مدمج

جميع البدائل بها بعض العيوب:

  • مع MHTML، لا يمكنك التعديل بسهولة.
  • مع عناوين URI للبيانات، لا أعرف مدى صعوبة التنفيذ.(باستخدام ZIP، كان بإمكاني أيضًا القيام بذلك بلغة PHP، منذ 3 سنوات...)
  • يحتوي خيار تخزين الأشياء كملفات منفصلة على الكثير من الأشياء التي يمكن أن تسوء وتفسد أرشيفك.

نصائح أخرى

يتم دعم ملفات PDF على جميع المتصفحات تقريبًا وعلى جميع الأنظمة الأساسية تقريبًا، كما يتم تخزين المحتوى والصور في ملف واحد.ويمكن تحريرها باستخدام الأدوات المناسبة.من المؤكد تقريبًا أن هذا ليس مثاليًا، لكنه خيار يجب أخذه في الاعتبار.

انها ليست فقط مسألة تنسيق الملف.آخر السؤال الحاسم هو بالضبط ما كنت ترغب في تخزين?هو:

  1. متجر صفحة كاملة كما هو الحال مع جميع الموارد المشار إليها - صور ، CSS و جافا سكريبت ؟

  2. لالتقاط الصفحة كما صدر في بعض نقطة في الوقت المناسب ؛ ثابت صورة من بعض الدولة المقدمة من صفحة ويب دوم ؟

معظم الحالية "حفظ الصفحة" وظائف في المتصفح ، يكون عليه أن ماف أو MHTML أو ملف+dir محاولات الطريقة الأولى.هذا هو في نهاية المطاف معيبة النهج.

لا ننسى صفحات الويب هناك أيام بدلا من التطبيقات المحلية ثم مستند ثابت يمكنك بسهولة تخزين.المشكلات المحتملة:

  1. صفحة واحدة هو في الواقع عدة صفحات بناء حيوي قبل JS, تفاعل المستخدم مطلوب للحصول على المطلوب من الدولة

  2. اياكس التطبيقات التي يمكن القيام به عن بعد التواصل مع خدمة التحكم عن بعد مما يجعلها غير قابل للاستخدام دون اتصال الرأي.

  3. الروابط المخفية في شفرة جافا سكريبت.مثل هذه الموارد ليست جزءا من تخزين الصفحة.حتى تحليل JS التعليمات البرمجية قد لا يتم اكتشافها.تحتاج إلى تشغيل التعليمات البرمجية.

  4. حتى موقف الأساسية عناصر html قد تكون recomputed يمكن حسابها بشكل حيوي عن طريق شبيبة وأنه ليس من الممكن دائما/من السهل إعادة محليا.

  5. سوف تحتاج نوعا من شبيبة تفريغ الذاكرة وتحميل هذا على الصفحة المطلوب من الدولة تمنيت لتخزين

و العديد العديد من القضايا...

التحقق من الكروم SingleFile تمديد.فإنه يخزن صفحة ويب إلى ملف html واحد مع الصور المضمنة باستخدام سبق ذكره محددات البيانات.لم يختبر كثيرا لذلك لا أستطيع أن أقول جيدا كيف يتعامل مع "متقلبة" اياكس صفحات.

استخدم ملفًا مضغوطًا.

يمكنك دائمًا إنشاء برنامج/برنامج نصي يقوم باستخراج الملف المضغوط إلى دليل مؤقت وتحميل ملف Index.html في متصفحك.يمكنك أيضًا استخدام ملف Index.ini/txt لتحديد الملف الذي يجب تحميله عند الاستخراج.

في الأساس، أنت تريد شيئًا مثل تنسيق Mozilla Archive، ولكن بدون حماقة rdf غير الضرورية فقط لتحديد الملف الذي سيتم تحميله.

تعد ملفات MHT جيدة، ولكنها عادةً ما تستخدم base64 لتضمين الملفات، مما يجعل حجم الملف أكبر مما ينبغي (عناوين URI للبيانات بنفس الطريقة).يمكنك إضافة مرفقات كمرفقات ثنائية، ولكن سيتعين عليك القيام بذلك يدويًا باستخدام محرر سداسي عشري أو إنشاء أداة وقد لا يكون الدعم لها من قبل العملاء جيدًا.

بالطبع، إذا كنت تريد استخدام ما تنشئه المتصفحات، فقد يكون MHT (Opera وIE على الأقل) أفضل.

لا أرى أي عذر لاستخدام أي شيء آخر غير ملف مضغوط

حسنًا، إذا كان دعم المتصفح وسهولة التحرير هما أكبر المخاوف، فأعتقد أنك عالق في نهج الملف + الدليل إلا إذا كنت على استعداد لتوفير محرر لتنسيق ملف واحد والعيش مع دعم غير جيد جدًا في المتصفحات.

يمكنك إنشاء ملف واحد عن طريق ضغط محتوياته.يمكنك أيضًا إنشاء دليل أصل لتسهيل التعامل معه.

المشكلة هي أنه في html هي قيعان لا من أعلى إلى أسفل.ننظر في اسم الملف الخاص بك التي تم حفظها على بلدي مربع مثل "ما هو أفضل "تنسيق ملف" لحفظ صفحات ويب كاملة (صور ، إلخ.) في واحدة الأرشيف ؟ - كومة Overflow.html"

فقط إضافة '|' واحد لديه مشكلة في القيام بنسخ ولصق النسخ الاحتياطي إلى محرك الأقراص قطع غيار.في نهاية المطاف كنت في نهاية المطاف.تقطيع اسم الملف في أجل حفظه.عشرات/ مئات وربما متطابقة index.html أو index.php هي التبعثر محركات الأقراص.

الجزئي الحل هو أن يكتب لك الخاصة CMS و استخدام البرامج النصية إلى خريطة جميع الملفات ذات الصلة إلى شقة ملف قاعدة البيانات ثم استخدام اسم الملف, الحجم, mtime و md5 للحصول على معرف فريد لكل ملف.إنشاء ملف ثابت مؤشر السماح 100k أو 1000k السجلات.والهدف من ذلك هو كتابة مرة واحدة واستخدامها عدة مرات.لذلك كنت في حاجة حقيقية CMS تحتاج هوية فريدة من نوعها على أساس المحتوى (على سبيل المثال index8765432.html) أن يذهب في files_archive.كما سبق الآخرين.ثم يمكنك أن غير المدمر الارتباط الرمزي من حفظ الأصلي html إلى files_archive فقط إعادة إنشاء الملف باستخدام php أو الكتابة البديلة عند الحاجة.لا أعرف ما إذا كان سوف يعمل كما أنا في نفس النقطة أنت - ربما في غضون أسبوع سوف نعرف على وجه اليقين.أكثر فائدة النهج هو أن يكون أعلى إلى أسفل الهيكل القائم على الأعمال التجارية الخاصة بك أو الشخصية يريد والمهام ذات الصلة.لذلك قد يكون الملفات نظمت أعلى إلى أسفل ولكن الخارجية منها أسفل إلى الحفاظ على المحتوى الأصلي.اهتمامي هو في الويب 3.0 والخدمات أقرب تحصل على آلة إلى آلة التفاعل وزيادة الحاجة إلى بنية المعلومات.ربما حان الوقت لإعادة النظر في فكرة تجميع كل شيء في ملف واحد.بحيث يكون لديك مئات الرئيسية.css لماذا حزمة عند أعلى إلى أسفل الحل قد تتيح لك تعديل ملف واحد بدلا من المئات.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top