هل يوجد أي زاحف على شبكة الإنترنت مفتوح ، ببساطة؟

StackOverflow https://stackoverflow.com/questions/2085213

  •  21-09-2019
  •  | 
  •  

سؤال

أبحث عن حل زاحف على شبكة الإنترنت يمكن أن ينضج بما فيه الكفاية ويمكن تمديده ببساطة. أنا مهتم بالميزات التالية ... أو إمكانية تمديد الزاحف لمقابلتها:

  • جزئيًا فقط لقراءة خلاصات عدة مواقع
  • لإلغاء محتوى هذه المواقع
  • إذا كان الموقع يحتوي على أرشيف أود الزحف وفهرسه أيضًا
  • يجب أن يكون الزاحف قادرًا على استكشاف جزء من الويب بالنسبة لي ويجب أن يكون قادرًا على تحديد المواقع التي تتطابق مع المعايير المحددة
  • يجب أن تكون قادرًا على إخطاري ، إذا تم العثور على أشياء تتطابق مع اهتمامي
  • يجب ألا يقتل الزاحف الخوادم عن طريق مهاجمتها من خلال العديد من الطلبات ، يجب أن يكون ذكيًا يزحف
  • يجب أن يكون الزاحف قويًا ضد مواقع وخوادم غريب

يمكن القيام بتلك الأشياء أعلاه واحدة تلو الأخرى دون أي جهد كبير ، لكنني مهتم بأي حل يوفر زاحفًا قابل للتخصيص قابل للتمديد. سمعت عن Apache Nutch ، لكنني غير متأكد جدًا من المشروع حتى الآن. هل لديك تجارب معها؟ هل يمكنك أن تنصح بدائل؟

هل كانت مفيدة؟

المحلول

بحث سريع في جيثب رمي شقائق النعمان, ، إطار عمل العنكبوت على شبكة الإنترنت والذي يبدو أنه يناسب متطلباتك - خاصة التوقيت. مكتوب في روبي.
نأمل أن تسير على ما يرام!

نصائح أخرى

لقد استخدمت Nutch على نطاق واسع ، عندما كنت أقوم ببناء مؤشر المشروع مفتوح المصدر لبدء تشغيل Krugle. من الصعب التخصيص ، كونه تصميمًا متجانسًا إلى حد ما. هناك بنية مكون من الإضافات ، ولكن التفاعل بين المكونات الإضافية والنظام صعب وهش.

نتيجة لتلك التجربة ، وأحتاج إلى شيء أكثر مرونة ، بدأت مشروع BIXO - مجموعة أدوات تعدين الويب. http://openbixo.org.

سواء كان ذلك مناسبًا لك يعتمد على ترجيح عوامل مثل:

  1. ما مدى المرونة التي تحتاجها (+)
  2. كيف يجب أن تكون ناضجة (-)
  3. سواء كنت بحاجة إلى القدرة على التوسع (+)
  4. إذا كنت مرتاحًا مع Java/Hadoop (+)

أوصي بحرارة Heritrix. إنه مرن للغاية وأزعم أنه أكثر زاحف المصادر المتوفرة مجانًا ، حيث إنه الشخص الذي يستخدمه أرشفة الإنترنت.

يجب أن تكون قادرًا على العثور على شيء يناسب احتياجاتك هنا.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top