كيف يمكنك أرشفة موقع الويب بأكمله للعرض دون اتصال بالإنترنت؟

StackOverflow https://stackoverflow.com/questions/538865

  •  22-08-2019
  •  | 
  •  

سؤال

لقد أحرقنا بالفعل نسخا ثابتة / مؤرشفة من مواقع ASP.NET الخاصة بنا للعملاء عدة مرات. وقد استخدمنا Webzip. حتى الآن، لكن لدينا مشاكل لا نهاية لها مع حوادث، والصفحات التي تم تنزيلها لا يتم إعادة ربطها بشكل صحيح، إلخ.

نحتاج أساسا أساسا يزحف وتنزيل نسخ ثابتة من كل شيء على موقعنا ASP.NET الخاص بنا (الصفحات والصور والمستندات والمستندات والمكتبات وما إلى ذلك) ثم يعالج الصفحات التي تم تنزيلها بحيث يمكن تصفحها محليا دون اتصال بالإنترنت (تخلص عناوين URL المطلقة في الروابط، إلخ). أكثر الأبله دليل أفضل. هذا يبدو وكأنه عملية بسيطة شائعة و (نسبيا) ولكن جربت بعض التطبيقات الأخرى وقد تم إنشاؤها حقا

هل لدى أي شخص برامج الأرشيف التي يوصي بها؟ هل لدى أي شخص عملية بسيطة حقا ستشاركها؟

هل كانت مفيدة؟

المحلول

في ويندوز، يمكنك أن تنظر في httrack.. وبعد من القابل للتكوين للغاية مما يتيح لك ضبط سرعة التنزيلات. ولكن يمكنك فقط توجيهها في موقع ويب وتشغيلها أيضا مع عدم وجود تكوين على الإطلاق.

في تجربتي كانت أداة جيدة حقا ويعمل بشكل جيد. بعض الأشياء التي أحبها في HTTRACK هي:

  • مفتوح المصدر الرخصة
  • توقف السير الذاتية التنزيلات
  • يمكن تحديث الأرشيف الموجود
  • يمكنك تكوينه لتكون غير عدوانية عند التنزيلات، لذلك لا تضيع عرض النطاق الترددي الخاص بك وعرض النطاق الترددي للموقع.

نصائح أخرى

يمكنك استخدام واهن:

wget -m -k -K -E http://url/of/web/site

ال آلة تحميل آلة بواسطة هارتاتور بسيط وسريع.

قم بالتثبيت عبر Ruby، ثم قم بالركض مع المجال المطلوب والطابع الزمني الاختياري من أرشيف الإنترنت.

sudo gem install wayback_machine_downloader
mkdir example
cd example
wayback_machine_downloader http://example.com --timestamp 19700101000000

أنا أستعمل سرطان البحر الأزرق على OSX و Webcopier. على ويندوز.

wget -r -k.

... والتحقيق في بقية الخيارات. آمل أن تتبع هذه الإرشادات:http://www.w3.org/protocols/rfc2616/rfc2616-sec9.html. لذلك كل مواردك آمنة مع طلبات الحصول عليها.

أنا فقط استخدام: wget -m <url>.

إذا كان عملائك أرشفة لقضايا الامتثال، فأنت ترغب في ضمان مصادقة المحتوى. الخيارات المدرجة على ما يرام للعرض البسيط، لكنها غير مقبولة قانونا. في هذه الحالة، كنت تبحث عن الطوابع الزمنية والتوقيعات الرقمية. أكثر تعقيدا إذا كنت تفعل ذلك بنفسك. أود أن أقترح خدمة مثل pagefreezer..

بالنسبة لمستخدمي OS X، لقد وجدت تطبيق Sitesucker هنا يعمل بشكل جيد دون تكوين أي شيء ولكن مدى عمقه يتبع الروابط.

لقد كنت أستخدم HTTRACK لعدة سنوات الآن. يتعامل مع كل الارتباط بين الصفحات، وما إلى ذلك على ما يرام. شكواي الوحيدة هي أنني لم أجد طريقة جيدة لإبعادها على موقع فرعي جيد للغاية. على سبيل المثال، إذا كان هناك موقع www.foo.com/steve أن أرغب في الأرشفة، فمن المرجح أن تتبع الروابط إلى www.foo.com/rowe وأرشيف ذلك أيضا. خلاف ذلك انها كبيرة. شكلي للغاية وموثوق بها.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top