هل هناك أي لبنات بناء لمحرك بحث يمكنه إلغاء المواقع الأخرى؟

StackOverflow https://stackoverflow.com/questions/1014138

سؤال

أريد بناء خدمة بحث لشيء واحد معين.البيانات متاحة مجانًا عبر الخدمات المبوبة المجانية ومجموعة من المواقع الأخرى.

هل هناك أي وحدات بناء، على سبيل المثال؟برامج الزحف مفتوحة المصدر التي يمكنني تخصيصها - بدلاً من إنشائها من الصفر، والتي يمكنني استخدامها؟

أي نصيحة حول بناء مثل هذا المنتج؟ليس الأمر تقنيًا فحسب، بل أي أمور خصوصية/قانونية قد أحتاج إلى أخذها بعين الاعتبار.

على سبيل المثالهل أحتاج إلى "منح الفضل" للمصدر الذي جاءت منه النتائج ووضع رابط للأصل - إذا حصلت عليها من عدة أماكن؟

يحرر:بالمناسبة، أنا أستخدم GWT مع JS للواجهة الأمامية، ولم أقرر بعد لغة الواجهة الخلفية.إما PHP أو بايثون.أفكار؟

هل كانت مفيدة؟

المحلول

هناك عدد قليل من الكتل في بايثون التي يمكنك استخدامها.

  1. حساء جميل [http://www.crummy.com/software/BeautifulSoup/] لتحليل HTML.ويمكنه أيضًا التعامل مع التعليمات البرمجية السيئة، كما أن واجهة برمجة التطبيقات (API) الخاصة به سهلة للغاية...أفضل بكثير من أي أداة تشبه DOM بالنسبة لي.استخدمه صديقي لنجاح منتدى phpbb القديم الخاص به.لديها مستندات جيدة جدا.
  2. ميكنة [http://wwwsearch.sourceforge.net/mechanize/] هي مكتبة عميل http تحاكي متصفح الويب.يتعامل مع ملفات تعريف الارتباط وملء النماذج وما إلى ذلك.كما أنه سهل الاستخدام، ولكن من المفيد أن تفهم كيفية عمل http.
  3. http://dev.scrapy.org/ - وهذا شيء جديد نسبيًا:إطار كشط كامل يعتمد على الملتوية.لم ألعب معها كثيرًا.

أستخدم الأولين لاحتياجاتي؛f.e.فهو يحتاج إلى 20 سطرًا من التعليمات البرمجية للحصول على أداة اختبار تلقائية لاستطلاع ثلاثي المراحل، مع محاكاة انتظار إدخال المستخدم للبيانات وما إلى ذلك.

نصائح أخرى

ولقد تقدمت مكشطة الشاشة في روبي التي حصلت مثل خمس دقائق. يبدو هذا المتأنق كانت عليه وصولا الى 60 ثانية! أنا لست متأكدا مما اذا كان روبي هي تحجيم كما أو بالسرعة ما كنت تبحث عنه، لكنني لم أر قط طريقا أسرع لمفهوم إثبات صحة أو النموذج.

والسر هو مكتبة تسمى " hpricot "، التي بنيت لهذا الغرض بالضبط .

وأنا لا أعرف أي شيء عن PHP أو بيثون أو ما هو متاح لأولئك تطوير النظم / لغات.

وحظا سعيدا!

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top