هل لدى أحدكم أي التعليمات البرمجية C# تحليل robots.txt وتقييم عناوين ضدها

StackOverflow https://stackoverflow.com/questions/633479

  •  10-07-2019
  •  | 
  •  

سؤال

باختصار السؤال:

هل لدى أحدكم أي التعليمات البرمجية C# تحليل robots.txt ثم تقييم عناوين ضد ذلك حتى نرى ما اذا كان سيتم استبعاد أو لا.

مسألة طويلة:

لقد تم إنشاء خريطة الموقع جديد الموقع بعد أن أصدرت جوجل.خريطة الموقع وضعين ، وضع المستخدم (مثل التقليدية sitemap) و 'admin' واسطة.

المشرف الوضع سوف تظهر كل شيء ممكن عناوين url على الموقع ، بما في ذلك تخصيص إدخال عناوين المواقع أو عناوين url محددة خارج شريك مثل example.com/oprah لمن يرى موقعنا على أوبرا.أريد أن تتبع نشر الروابط في مكان ما عدا في جدول بيانات Excel.

وأود أن نفترض أن شخصا ما قد نشر /oprah الرابط على بلوق أو في مكان ما.في الواقع نحن لا نريد هذا 'ميني أوبرا الموقع ليتم فهرستها لأن ذلك سيؤدي إلى عدم أوبرا المشاهدين أن تكون قادرة على العثور خاصة أوبرا العروض.

وذلك في نفس الوقت لقد تم إنشاء خريطة الموقع أنا أيضا إضافة عناوين مثل /oprah سيتم استبعادها من robots.txt الملف.

ثم (وهذا هو السؤال الفعلي) ظننت 'لن يكون من الجميل أن تكون قادرة على أن تظهر على خريطة الموقع ما إذا كان أو لم يتم فهرسة الملفات و مرئية الروبوتات'.هذا من شأنه أن تكون بسيطة جدا - مجرد تحليل robots.txt ثم تقييم رابط ضدها.

ومع ذلك هذا هو 'ميزة مكافأة' وأنا بالتأكيد لم يكن لديك الوقت للذهاب بعيدا والكتابة (حتى يعتقد على الأرجح ليس هذا المجمع) - لذلك أنا أتساءل عما إذا كان أي شخص قد كتب بالفعل أي رمز تحليل robots.txt ?

هل كانت مفيدة؟

المحلول

أكره أن أقول هذا لكن جوجل "C# robots.txt محلل" ثم انقر فوق الضربة الأولى.انها CodeProject المادة عن محرك بحث بسيط تنفيذها في C# يسمى "Searcharoo", و أنه يحتوي على فئة Searcharoo.مفهرس.RobotsTxt ، كما هو موضح:

  1. التحقق ، إذا كان موجودا, تحميل و تحليل robots.txt الملف على الموقع
  2. توفر واجهة العنكبوت إلى التحقق من كل عنوان Url ضد robots.txt القواعد

نصائح أخرى

انا احب كود و اختبارات في http://code.google.com/p/robotstxt/ سوف أوصي به كنقطة انطلاق.

قليلا من النفس تعزيز, ولكن منذ أن كنت في حاجة مماثلة محلل و لم أستطع العثور على أي شيء كنت سعيدا ، أنا خلق بلدي:

http://nrobots.codeplex.com/

أحب أي ملاحظات

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top