سؤال

مرحبًا ، لدي قائمة بعناوين URL لصفحة Facebook

eg...
http://www.facebook.com/daftpunk
http://www.facebook.com/DavidGuetta
...

ما هي أفضل طريقة ل:

  • تحقق مما إذا كانت عناوين URL هذه فعلا للحصول على صفحات الفيسبوك و ليس مظهر

  • جمع التفاصيل مثل # من المعجبين من هذه الصفحات

ان مساعدة سيكون محل تقدير كبير جدا.

هل كانت مفيدة؟

المحلول

بدون كشط أي محتوى (وهو ضد شروط الخدمة على Facebook على أي حال):

  1. استخراج اسم المستخدم جزء من عنوان URL أي بت بعد www.facebook.com/
  2. قم باستعلام FQL للنموذج select fan_count from page where username='michaeljackson'
  3. إذا كانت النتيجة هي العودة ، فأنت تعلم أنها صفحة وليس ملف تعريف للمستخدم.

انظر صفحة FQL Table للحصول على بيانات أخرى يمكنك استردادها في نفس المكالمة.

نصائح أخرى

استعمال urllib2 أو Pyfacebook لجلب المحتوى

استعمال جميل أو LXML لتحليلها

استخدم ال إعادة الوحدة النمطية (التعبيرات العادية) لاستخراج المحتوى لتحقيقك وجمع البيانات

# من المعجبين في علامة مع فئة "Fanmanager". يمكنك استخدام الحساء الجميل للحصول على محتويات هذه العلامة ، والتعبيرات العادية للحصول على البيانات من السلسلة (على سبيل المثال: 1،000،000 من المعجبين) كـ int أو ما تريد.

لمعرفة ما إذا كانت الصفحة موجودة ، تحقق من بعض العلامات لمعرفة ما إذا كنت على صفحة 404.

يمكنك استخدام Scrapy أو جميل لكشط المحتوى.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top