كيف يمكنك تحويل موقع ديناميكي إلى موقع ثابت يمكن عرضه من قرص مضغوط؟

StackOverflow https://stackoverflow.com/questions/117467

  •  02-07-2019
  •  | 
  •  

سؤال

أحتاج إلى إيجاد طريقة للزحف إلى أحد تطبيقات الويب الخاصة بشركتنا وإنشاء موقع ثابت منه يمكن نسخه على قرص مضغوط واستخدامه من قبل مندوبي المبيعات المسافرين لعرض موقع الويب.ينتشر مخزن البيانات الخلفية عبر العديد والعديد من الأنظمة، لذا فإن تشغيل الموقع على جهاز افتراضي على الكمبيوتر المحمول الخاص بشخص البيع لن ينجح.ولن يتمكنوا من الوصول إلى الإنترنت أثناء وجودهم في بعض العملاء (لا يوجد إنترنت، هاتف محمول.... بدائي، أعرف).

هل لدى أي شخص أي توصيات جيدة لبرامج الزحف التي يمكنها التعامل مع أشياء مثل تنظيف الروابط، والفلاش، والقليل من Ajax، وCSS، وما إلى ذلك؟أعلم أن الاحتمالات ضئيلة، لكنني فكرت في طرح السؤال هنا قبل أن أبدأ في كتابة أداتي الخاصة.

هل كانت مفيدة؟

المحلول

يمكن لكل من wget أو curl متابعة الروابط بشكل متكرر وعكس الموقع بأكمله، لذلك قد يكون هذا رهانًا جيدًا.لن تتمكن من استخدام الأجزاء التفاعلية حقًا من الموقع، مثل محركات البحث، أو أي شيء يعدل البيانات.

هل من الممكن على الإطلاق إنشاء خدمات خلفية وهمية يمكن تشغيلها من أجهزة الكمبيوتر المحمولة الخاصة بأفراد المبيعات، ويمكن للتطبيق التفاعل معها؟

نصائح أخرى

باستخدام أ WebCrawler, ، على سبيل المثال.واحدة من هذه:

  • DataparkSearch هو محرك بحث وزاحف تم إصداره بموجب رخصة GNU العامة.
  • GNU Wget عبارة عن زاحف يتم تشغيله عبر سطر الأوامر ومكتوب بلغة C وتم إصداره بموجب ترخيص GPL.يتم استخدامه عادةً لعكس مواقع الويب ومواقع FTP.
  • يستخدم HTTrack زاحف الويب لإنشاء نسخة متطابقة من موقع الويب للعرض دون الاتصال بالإنترنت.هو مكتوب بلغة C وتم إصداره تحت رخصة GPL.
  • ICDL Crawler عبارة عن زاحف ويب متعدد الأنظمة الأساسية مكتوب بلغة C++ ويهدف إلى الزحف إلى مواقع الويب بناءً على قوالب تحليل موقع الويب باستخدام موارد وحدة المعالجة المركزية المجانية للكمبيوتر فقط.
  • JSpider هو محرك ويب عنكبوتي قابل للتكوين والتخصيص بدرجة كبيرة وتم إصداره بموجب ترخيص GPL.
  • لاربين بواسطة سيباستيان إيليريت
  • Webtools4larbin بواسطة أندرياس بيدر
  • Methabot عبارة عن زاحف ويب مُحسَّن السرعة وأداة مساعدة لسطر الأوامر مكتوبة بلغة C وتم إصدارها بموجب ترخيص BSD المكون من فقرتين.ويتميز بنظام تكوين واسع ونظام وحدات ويدعم الزحف المستهدف من خلال نظام الملفات المحلي أو HTTP أو FTP.
  • Jaeksoft WebSearch عبارة عن زاحف ويب ومفهرس تم إنشاؤه عبر Apache Lucene.تم إصداره بموجب ترخيص GPL v3.
  • Nutch عبارة عن زاحف مكتوب بلغة Java ويتم إصداره بموجب ترخيص Apache.يمكن استخدامه مع حزمة فهرسة النص Lucene.
  • Pavuk هي أداة مرآة ويب لسطر الأوامر مع زاحف X11 GUI اختياري وتم إصدارها بموجب GPL.لديها مجموعة من الميزات المتقدمة مقارنة بـ wget وhttrack، على سبيل المثال.قواعد التصفية وإنشاء الملفات القائمة على التعبير العادي.
  • WebVac هو برنامج زاحف يستخدمه مشروع Stanford WebBase.
  • يتكون WebSPHINX (Miller and Bharat, 1998) من مكتبة فئة Java التي تنفذ استرجاع صفحات الويب متعددة الخيوط وتحليل HTML، وواجهة مستخدم رسومية لتعيين عناوين URL للبدء، ولاستخراج البيانات التي تم تنزيلها وتنفيذ نص أساسي- محرك البحث القائم.
  • WIRE - بيئة استرداد معلومات الويب [15] عبارة عن زاحف ويب مكتوب بلغة C++ وتم إصداره بموجب GPL، بما في ذلك العديد من السياسات لجدولة تنزيلات الصفحة ووحدة لإنشاء التقارير والإحصائيات عن الصفحات التي تم تنزيلها، لذلك تم استخدامه لتوصيف الويب .
  • LWP::RobotUA (Langheinrich, 2004) هي فئة Perl لتنفيذ روبوتات الويب المتوازية حسنة التصرف والموزعة بموجب ترخيص Perl 5.
  • Web Crawler فئة زاحف الويب مفتوحة المصدر لـ .NET (مكتوبة بلغة C#).
  • Sherlock Holmes يقوم Sherlock Holmes بجمع البيانات النصية وفهرستها (الملفات النصية، وصفحات الويب، ...)، محليًا وعبر الشبكة.يتم رعاية هولمز واستخدامه تجاريًا بواسطة بوابة الويب التشيكية Centrum.يتم استخدامه أيضًا بواسطة Onet.pl.
  • YaCy، محرك بحث مجاني وموزع، مبني على مبادئ شبكات نظير إلى نظير (مرخص بموجب GPL).
  • Ruya Ruya هو برنامج زاحف ويب مفتوح المصدر وعالي الأداء ومعتمد على المستوى.يتم استخدامه للزحف إلى مواقع الويب الإنجليزية واليابانية بطريقة جيدة.تم إصداره تحت رخصة GPL ومكتوب بالكامل بلغة بايثون.يخضع تطبيق SingleDomainDelayCrawler لملف robots.txt مع تأخير الزحف.
  • Universal Information Crawler هو زاحف ويب سريع التطور.عمليات الزحف لحفظ البيانات وتحليلها.
  • Agent Kernel إطار عمل Java للجدول الزمني والسلسلة وإدارة التخزين عند الزحف.
  • أخبار العنكبوت، معلومات بخصوص بناء عنكبوت في لغة بيرل.
  • Arachnode.NET هو زاحف ويب غير شرعي مفتوح المصدر لتنزيل وفهرسة وتخزين محتوى الإنترنت بما في ذلك عناوين البريد الإلكتروني والملفات والارتباطات التشعبية والصور وصفحات الويب.تمت كتابة Arachnode.net بلغة C# باستخدام SQL Server 2005 وتم إصداره تحت رخصة GPL.
  • dine هو عميل/زاحف Java HTTP متعدد الخيوط يمكن برمجته في JavaScript وتم إصداره بموجب LGPL.
  • Crawljax هو زاحف Ajax يعتمد على طريقة تقوم بشكل ديناميكي ببناء "رسم بياني لتدفق الحالة" لنمذجة مسارات التنقل والحالات المختلفة داخل تطبيق Ajax.تمت كتابة Crawljax بلغة Java وتم إصداره بموجب ترخيص BSD.

فقط لأنه لم يقم أحد بنسخ أمر العمل ...أنا أحاول...بعد عشر سنوات.:د

wget --mirror --convert-links --adjust-extension --page-requisites \
--no-parent http://example.org

وهي تعمل مثل السحر بالنسبة لي.

لن تتمكن من التعامل مع أشياء مثل طلبات AJAX دون نسخ خادم ويب على القرص المضغوط، وهو ما أفهم أنك قلته بالفعل إنه مستحيل.

wget سيقوم بتنزيل الموقع لك (استخدم المعلمة -r لـ "العودي")، ولكن أي محتوى ديناميكي مثل التقارير وما إلى ذلك لن يعمل بشكل صحيح بالطبع، وستحصل فقط على لقطة واحدة.

إذا انتهى بك الأمر إلى تشغيله من خادم الويب، فقد ترغب في إلقاء نظرة على:

خادم توجو

فهو يتيح لك تشغيل مكدس WAMPP من قرص مضغوط، مع دعم mysql/php/Apache.يتم نسخ قواعد البيانات إلى الدليل المؤقت للمستخدمين الحاليين عند التشغيل، ويمكن تشغيلها بالكامل دون أن يقوم المستخدم بتثبيت أي شيء!

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top