بناء محرك البحث على شبكة الإنترنت [مغلقة]

StackOverflow https://stackoverflow.com/questions/112248

  •  02-07-2019
  •  | 
  •  

سؤال

لقد كنت دائما مهتمة في تطوير محرك البحث على شبكة الإنترنت.ما هو مكان جيد للبدء ؟ لقد سمعت من لوسين, ولكن أنا لست كبيرة جافا الرجل.أي موارد جيدة أو مفتوحة المصدر ؟

فهمت انها ضخمة تحت ، ولكن هذا جزء من النداء.أنا لا أبحث عن إنشاء Google المقبل ، فقط ما يمكنني استخدامه للبحث عن مجموعة فرعية من المواقع التي كنت قد تكون مهتمة في.

هل كانت مفيدة؟

المحلول

هناك عدة أجزاء محرك البحث.وبصفة عامة ، في ميؤوس العامة نحو (أيها الناس ، لا تتردد في تحرير إذا كنت تشعر بأنك يمكن أن تضيف أفضل الأوصاف, روابط, الخ):

  1. الزاحف.هذا هو الجزء الذي يذهب من خلال شبكة الإنترنت ، والاستيلاء على صفحات بتخزين معلومات حول لهم في بعض المركزي مخزن البيانات.بالإضافة إلى النص نفسه ، تريد أشياء مثل مرة كنت الوصول إليه ، وما إلى ذلك.الزاحف تحتاج إلى أن تكون ذكية بما فيه الكفاية لمعرفة كيف في كثير من الأحيان إلى ضرب بعض المجالات ، الانصياع robots.txt الاتفاقية ، إلخ.

  2. محلل.هذا يقرأ البيانات التي يتم جلبها من قبل الزاحف ، يوزع هذا ، قم بحفظ البيانات الوصفية يحتاج إليه ، يرمي القمامة ، وربما يجعل اقتراحات الزاحف على ما لجلب المرة القادمة.

  3. مفهرس.يقرأ الأشياء محلل تحليل ويخلق مقلوب الفهارس في الشروط الموجودة على صفحات الويب.يمكن أن تكون ذكيا كما كنت تريد أن تكون-تطبيق تقنيات البرمجة اللغوية العصبية أن تجعل الفهارس من المفاهيم عبر الرابط الأشياء, رمي في المترادفات.... الخ

  4. ترتيب محرك.بالنظر إلى بضعة آلاف من عناوين المواقع مطابقة "أبل" ، كيف يمكنك أن تقرر أي نتيجة أفضل ؟ برز مؤشر لا تعطيك هذه المعلومات.تحتاج إلى تحليل النص ، ربط الهيكل ، ومهما قطع أخرى تريد أن ننظر إلى ، وخلق بعض الدرجات.ويمكن القيام بذلك تماما على الطاير (هذا صعب) ، أو على أساس بعض قبل احتساب مفاهيم "الخبراء" (انظر الصفحة ، إلخ).

  5. الواجهة الأمامية.شيء يحتاج إلى تلقي الاستفسارات المستخدم, ضرب وسط المحرك و الاستجابة ؛ هذا شيء يحتاج إلى أن تكون ذكية حول التخزين المؤقت النتائج ، وربما خلط في النتائج من مصادر أخرى ، الخ.لديها مجموعتها الخاصة من المشاكل.

نصيحتي -- اختيار أي من هذه المصالح الأكثر, تحميل لوسين أو Xapian أو أي مشروع مفتوح المصدر هناك سحب بت أن يفعل واحدة من المهام المذكورة أعلاه ، ومحاولة استبداله.نأمل, مع شيء أفضل :-).

بعض الروابط التي قد تكون مفيدة:"رشيقة ويب-الزاحف", ورقة من استونيا (باللغة الإنجليزية) أبو الهول محرك البحث, وهو الفهرسة و البحث api.مصممة كبيرة DBs ، ولكن وحدات المفتوح العضوية."استرجاع المعلومات, كتاب عن الأشعة تحت الحمراء من مانينغ et al.عامة جيدة عن كيفية مؤشرات مبنية مختلف القضايا التي تأتي ، وكذلك بعض المناقشات من الزحف ، إلخ.نسخة مجانية على الانترنت (الآن)!

نصائح أخرى

Xapian هو خيار آخر بالنسبة لك.سمعت المقاييس أفضل من بعض تطبيقات لوسين.

تحقق من nutch, إنها مكتوبة من قبل نفس الرجل الذي خلق لوسين (دوج قطع).

يبدو لي أن أكبر جزء فهرسة المواقع.مما يجعل السير نظف الإنترنت وتحليل محتوياتها.

صديق وأنا كنا نتحدث عن كيف مذهلة جوجل وغيرها من محركات البحث يجب أن تكون تحت غطاء محرك السيارة.الملايين من النتائج في أقل من نصف ثانية ؟ مجنون.أعتقد أنهم قد مسبقا نتائج البحث عن عادة بحثت البنود.

تحرير:هذا الموقع تبدو مثيرة للاهتمام إلى حد ما.

وأود أن تبدأ مع المشاريع القائمة ، مثل مفتوحة المصدر محرك البحث من ويكيا.

[فهمي هو أن يكيا بحث المشروع قد انتهت.ومع ذلك أعتقد التورط مع القائمة المفتوحة المصدر المشروع هو وسيلة جيدة لتخفيف إلى تعهد من هذا الحجم.]

http://re.search.wikia.com/about/get_involved.html

إذا كنت ترغب في التعلم عن النظرية وراء استرجاع المعلومات و بعض التفاصيل الفنية وراء تنفيذ محركات البحث, يمكنني أن أوصي الكتاب إدارة غيغابايت ايان ويتن ، اليستير موفات و تيم C.جرس.(الكشف:اليستير موفات كانت جامعة المشرف.) على الرغم من انها قليلا مؤرخة الآن (الطبعة الأولى صدرت في عام 1994 والثانية في عام 1999 -- ما الصعب في إدارة غيغابايت الآن؟) ، النظرية لا تزال سليمة و هو مقدمة كبيرة سواء الفهرسة و استخدام ضغط في الفهرسة ونظم الاسترجاع.

أنا مهتم في محرك البحث أيضا.أنا أوصى على حد سواء Apache Hadoop MapReduce أباتشي لوسين.الحصول على أسرع طريق Hadoop هو أفضل وسيلة.

وهناك موانئ لوسين.زند واحد متاحة بحرية.إلقاء نظرة على هذا البرنامج التعليمي سريعة: http://devzone.zend.com/node/view/id/91

هنا مقاربة مختلفة قليلا ، إذا لم يكن الكثير من المهتمين في البرمجة ولكن أكثر اهتماما في النتائج:النظر في بناء ذلك باستخدام جوجل محرك البحث المخصص API.

المزايا:

  • جوجل يفعل كل رفع الأحمال الثقيلة بالنسبة لك
  • مألوفة واجهة المستخدم والسلوك للمستخدمين
  • يمكن أن يكون شيئا وتشغيلها في غضون دقائق
  • الكثير من قدرات التخصيص

العيوب:

  • أنت لا تكتب رمز لذا لا فرصة التعلم هناك
  • كل ما تريد أن البحث يجب أن يكون العام في فهرس Google بالفعل
  • نتيجة مرتبطة جوجل
مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top