ما هو جيد الزاحف على شبكة الإنترنت أداة [مغلقة]

StackOverflow https://stackoverflow.com/questions/176820

  •  05-07-2019
  •  | 
  •  

سؤال

أريد أن مؤشر الكثير من صفحات الويب ، ما هو جيد webcrawler المرافق هناك ؟ أنا ويفضل بعد شيء .صافي يمكن التحدث, ولكن هذا ليس رقصة.

ما أريده حقا هو شيء يمكن أن أقدمه موقع url & وسوف تتبع كل رابط وتخزين المحتوى الفهرسة.

هل كانت مفيدة؟

المحلول

وHTTrack - http://www.httrack.com/ - هو جيد جدا ناسخة الموقع . يعمل جيدا جدا. وقد تم استخدامه لفترة طويلة.

وNutch هو الزاحف على شبكة الإنترنت (الزاحف هو نوع البرنامج الذي تبحث عنها) - HTTP: / /lucene.apache.org/nutch/ - الذي يستخدم الدرجة الأولى فائدة البحث وسين

نصائح أخرى

Crawler4j هو مفتوح المصدر جافا الزاحف الذي يوفر واجهة بسيطة عن الزحف على شبكة الإنترنت.يمكنك إعداد متعددة الخيوط الزاحف على شبكة الإنترنت في غضون 5 دقائق.

يمكنك تعيين الخاص بك مرشح لزيارة صفحات أو لا (عناوين) وتحديد بعض التشغيل لكل زحف الصفحة وفقا المنطق الخاص بك.

بعض الأسباب لاختيار crawler4j;

  1. متعددة الخيوط هيكل ،
  2. يمكنك تعيين العمق إلى زحف ،
  3. هو جافا القائمة والمفتوحة المصدر ،
  4. التحكم من خلال روابط (عناوين),
  5. يمكنك تعيين عدد من الصفحات إلى زحف ،
  6. يمكنك تعيين حجم الصفحة إلى زحف ،
  7. ما يكفي من الوثائق

Searcharoo.NET يحتوي على العنكبوت الذي يزحف والمحتوى والفهارس، ومحرك البحث لاستخدامها. يجب أن تكون قادرة على العثور على طريقك حول رمز Searcharoo.Indexer.EXE إلى اعتراض المحتوى كما تنزيله، وإضافة رمز المخصصة الخاصة بك من هناك ...

وانها أساسية جدا (يتم تضمين كافة التعليمات البرمجية المصدر، وأوضح في ستة مقالات CodeProject، وآخرها هنا <لأ href = "http://www.codeproject.com/KB/IP/Searcharoo_6. ASPX "يختلط =" نوفولو noreferrer "> Searcharoo V6 ): العنكبوت يتبع الروابط، imagemaps والصور ويطيع توجيهات الروبوتات، بتوزيع بعض أنواع الملفات غير HTML. وتتجه النية للمواقع واحدة (وليس في كامل الويب).

وNutch / لوسين يكاد يكون من المؤكد أن أكثر قوة / تجارية من الدرجة الحل - ولكن أنا لم ينظر في مدوناتها. غير متأكد ما كنت ترغب في تحقيقه، ولكن هل ينظر أيضا بحث Microsoft خادم اكسبرس ؟

تنويه: أنا مؤلف Searcharoo. مجرد عرضه هنا كخيار.

Sphider هو جيد جدا. انها PHP، ولكن قد يكون من بعض المساعدة.

Mozenda والقشط للمواقع . هل يمكن أن يكون بسهولة الزحف جميع الروابط والاستيلاء على جميع المعلومات التي تحتاج إليها وانها كبيرة برنامج للحصول على المال.

scroll top