Domanda

Ciao ho un elenco di Facebook URL delle pagine

eg...
http://www.facebook.com/daftpunk
http://www.facebook.com/DavidGuetta
...

Qual è il modo migliore per:

  • Controlla se questi URL sono effettivamente per pagine di Facebook e non Profili

  • Raccogliere dettagli come # di fan da queste pagine

Aiuto sarebbe molto apprezzato.

È stato utile?

Soluzione

Senza raschiando qualsiasi contenuto (che è contro condizioni di Facebook del servizio in ogni caso):

  1. estrarre la parte nome utente dell'URL cioè il bit dopo la www.facebook.com /
  2. Fare una query FQL della forma select fan_count from page where username='michaeljackson'
  3. Se il risultato è di ritorno, sai che è un Pagina e non il profilo di un utente.

Vedere la Pagina FQL tavolo per altri dati può recuperare nella stessa chiamata.

Altri suggerimenti

urllib2 o pyfacebook per recuperare il contenuto

BeautifulSoup o lxml per analizzarlo

re modulo (espressioni regolari) per estrarre contenuti per il tuo verifica e raccolta dei dati

Il # di tifosi è in un tag con la classe 'FanManager'. è possibile utilizzare Beautiful Soup per ottenere il contenuto di questo tag, e le espressioni regolari per ottenere i dati dalla stringa (es: 1.000.000 fan). come un int o qualsiasi altra cosa che si desidera

Per vedere se la pagina esiste, controllare alcuni dei tag per vedere se siete nella pagina 404.

È possibile utilizzare Scrapy o BeautifulSoup per raschiare il contenuto.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top