توصيات لأداة spidering لاستخدام مع لوسين أو المؤسسة العامة؟ [مغلق]

StackOverflow https://stackoverflow.com/questions/282654

  •  08-07-2019
  •  | 
  •  

سؤال

ما هو الزاحف جيدة (العنكبوت) لاستخدام ضد HTML و XML وثائق (المحلية أو على شبكة الإنترنت) والتي تعمل بشكل جيد في الفضاء حل لوسين / المؤسسة العامة؟ يمكن أن يكون جافا، ولكن لا يجب أن يكون.

هل كانت مفيدة؟

المحلول

في رأيي، وهذا هو ثقب كبير جدا وهو الحفاظ على خفض اعتماد على نطاق واسع من المؤسسة العامة. وDataImportHandler الجديد هو خطوة أولى جيدة لاستيراد البيانات المنظمة، ولكن ليس هناك خط أنابيب ابتلاع ثيقة جيدة للالمؤسسة العامة. Nutch يعمل، ولكن التكامل بين Nutch الزاحف والمؤسسة العامة هو أخرق إلى حد ما.
لقد حاولت كل الزاحف المفتوحة المصدر التي يمكن أن أجد واحدا منهم يدمج خارج مربع مع المؤسسة العامة.
إبقاء العين على OpenPipeline وأباتشي تيكا.

نصائح أخرى

ولقد حاولت nutch، ولكن كان من الصعب جدا على الاندماج مع المؤسسة العامة. وأود أن نلقي نظرة على هريتركس. أنه يحتوي على نظام المساعد واسعة لتجعل من السهل للتكامل مع المؤسسة العامة، وأنه هو أسرع بكثير في الزحف. يجعل الاستخدام المكثف للالمواضيع لتسريع هذه العملية.

وأنا أقترح عليك أن تحقق من Nutch للحصول على بعض الإلهام:

<اقتباس فقرة>   

وNutch هو المصدر المفتوح برامج البحث على شبكة الإنترنت. وهو يعتمد على لوسين جافا، مضيفا-تفاصيل شبكة الإنترنت، مثل الزاحف، قاعدة بيانات الارتباط الرسم البياني، موزعي لHTML وثيقة غيرها من الأشكال، وما إلى ذلك.

وتحقق أيضا أباتشي Droids [ http://incubator.apache.org/droids/] - هذا وتأمل ألا يكون بسيط العنكبوت / الزاحف / إطار عامل

وهذا هو جديد وليس من السهل أن استخدام من على الرف بعد (سوف يستغرق بعض tweeking للحصول على التوالي)، ولكن هو شيء جيد لإبقاء العين على.

قد يكون Nutch أقرب مباراة الخاص بك، ولكنها ليست مرنة جدا.

إذا كنت بحاجة إلى شيء أكثر سيكون لديك الإختراق حد كبير الزاحف الخاصة بك. انها ليست سيئة كما يبدو، كل لغة لها المكتبات على شبكة الإنترنت، لذلك تحتاج فقط للاتصال بعض مدير طابور مهمة مع تحميل HTTP ومحلل HTML، انها ليست حقا أن الكثير من العمل. يمكنك على الأرجح أن تفلت من صندوق واحد، والزحف هو في الغالب عرض النطاق الترددي-intentive، وليس وحدة المعالجة المركزية مكثفة.

http://arachnode.net

وC #، ولكن تنتج لوسين (جافا وC #) الملفات مؤشر الاستهلاكية.

هل حاول احد Xapian؟ ومن طبقات أسرع بكثير من المؤسسة العامة ومكتوب في ج ++.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top