هل يوجد أي زاحف على شبكة الإنترنت مفتوح ، ببساطة؟
-
21-09-2019 - |
سؤال
أبحث عن حل زاحف على شبكة الإنترنت يمكن أن ينضج بما فيه الكفاية ويمكن تمديده ببساطة. أنا مهتم بالميزات التالية ... أو إمكانية تمديد الزاحف لمقابلتها:
- جزئيًا فقط لقراءة خلاصات عدة مواقع
- لإلغاء محتوى هذه المواقع
- إذا كان الموقع يحتوي على أرشيف أود الزحف وفهرسه أيضًا
- يجب أن يكون الزاحف قادرًا على استكشاف جزء من الويب بالنسبة لي ويجب أن يكون قادرًا على تحديد المواقع التي تتطابق مع المعايير المحددة
- يجب أن تكون قادرًا على إخطاري ، إذا تم العثور على أشياء تتطابق مع اهتمامي
- يجب ألا يقتل الزاحف الخوادم عن طريق مهاجمتها من خلال العديد من الطلبات ، يجب أن يكون ذكيًا يزحف
- يجب أن يكون الزاحف قويًا ضد مواقع وخوادم غريب
يمكن القيام بتلك الأشياء أعلاه واحدة تلو الأخرى دون أي جهد كبير ، لكنني مهتم بأي حل يوفر زاحفًا قابل للتخصيص قابل للتمديد. سمعت عن Apache Nutch ، لكنني غير متأكد جدًا من المشروع حتى الآن. هل لديك تجارب معها؟ هل يمكنك أن تنصح بدائل؟
المحلول
بحث سريع في جيثب رمي شقائق النعمان, ، إطار عمل العنكبوت على شبكة الإنترنت والذي يبدو أنه يناسب متطلباتك - خاصة التوقيت. مكتوب في روبي.
نأمل أن تسير على ما يرام!
نصائح أخرى
لقد استخدمت Nutch على نطاق واسع ، عندما كنت أقوم ببناء مؤشر المشروع مفتوح المصدر لبدء تشغيل Krugle. من الصعب التخصيص ، كونه تصميمًا متجانسًا إلى حد ما. هناك بنية مكون من الإضافات ، ولكن التفاعل بين المكونات الإضافية والنظام صعب وهش.
نتيجة لتلك التجربة ، وأحتاج إلى شيء أكثر مرونة ، بدأت مشروع BIXO - مجموعة أدوات تعدين الويب. http://openbixo.org.
سواء كان ذلك مناسبًا لك يعتمد على ترجيح عوامل مثل:
- ما مدى المرونة التي تحتاجها (+)
- كيف يجب أن تكون ناضجة (-)
- سواء كنت بحاجة إلى القدرة على التوسع (+)
- إذا كنت مرتاحًا مع Java/Hadoop (+)
أوصي بحرارة Heritrix. إنه مرن للغاية وأزعم أنه أكثر زاحف المصادر المتوفرة مجانًا ، حيث إنه الشخص الذي يستخدمه أرشفة الإنترنت.
يجب أن تكون قادرًا على العثور على شيء يناسب احتياجاتك هنا.