Question

Salut j'ai une liste des urls Page Facebook

eg...
http://www.facebook.com/daftpunk
http://www.facebook.com/DavidGuetta
...

Quelle est la meilleure façon de:

  • Vérifiez si ces urls sont en fait Facebook Pages et pas Profils

  • Recueillir des détails tels que # de fans à partir de ces pages

L'aide serait très apprécié.

Était-ce utile?

La solution

Sans gratter tout contenu (ce qui est contraire aux termes de service de Facebook de toute façon):

  1. Extraire la partie nom d'utilisateur de l'URL à-dire le bit après le www.facebook.com /
  2. Faites une requête FQL du formulaire select fan_count from page where username='michaeljackson'
  3. Si un résultat est de retour, vous savez qu'il est un Page et non le profil d'un utilisateur.

Voir la page Table FQL pour d'autres données peut récupérer dans le même appel.

Autres conseils

urllib2 ou pyfacebook pour récupérer le contenu

BeautifulSoup ou lxml pour l'analyser

pour extraire le contenu du re module (expressions régulières) pour votre vérification et la collecte de données

Le nombre de ventilateurs est une avec la classe une étiquette « FanManager ». vous pouvez utiliser Belle soupe pour obtenir le contenu de cette une étiquette et des expressions régulières pour obtenir les données de la chaîne (ex: 1.000.000 fans). comme un entier ou tout ce que vous voulez

Pour voir si la page existe, vérifiez quelques-unes des étiquettes pour voir si vous êtes sur la page 404.

Vous pouvez utiliser scrapy ou BeautifulSoup pour racler le contenu.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top