dettagli Pagina Facebook e l'API RESTful?
-
21-09-2019 - |
Domanda
Ciao ho un elenco di Facebook URL delle pagine
eg...
http://www.facebook.com/daftpunk
http://www.facebook.com/DavidGuetta
...
Qual è il modo migliore per:
-
Controlla se questi URL sono effettivamente per pagine di Facebook e non Profili
-
Raccogliere dettagli come # di fan da queste pagine
Aiuto sarebbe molto apprezzato.
Soluzione
Senza raschiando qualsiasi contenuto (che è contro condizioni di Facebook del servizio in ogni caso):
- estrarre la parte nome utente dell'URL cioè il bit dopo la www.facebook.com /
- Fare una query FQL della forma
select fan_count from page where username='michaeljackson'
- Se il risultato è di ritorno, sai che è un Pagina e non il profilo di un utente.
Vedere la Pagina FQL tavolo per altri dati può recuperare nella stessa chiamata.
Altri suggerimenti
urllib2 o pyfacebook per recuperare il contenuto
BeautifulSoup o lxml per analizzarlo
re modulo (espressioni regolari) per estrarre contenuti per il tuo verifica e raccolta dei dati
Il # di tifosi è in un tag con la classe 'FanManager'. è possibile utilizzare Beautiful Soup per ottenere il contenuto di questo tag, e le espressioni regolari per ottenere i dati dalla stringa (es: 1.000.000 fan). come un int o qualsiasi altra cosa che si desidera
Per vedere se la pagina esiste, controllare alcuni dei tag per vedere se siete nella pagina 404.
È possibile utilizzare Scrapy o BeautifulSoup per raschiare il contenuto.