detalles página de Facebook y la API REST?
-
21-09-2019 - |
Pregunta
Hola tengo una lista de direcciones URL de página de Facebook
eg...
http://www.facebook.com/daftpunk
http://www.facebook.com/DavidGuetta
...
¿Cuál es la mejor manera de:
-
Comprobar si estas URL son realmente para las páginas de Facebook y no Perfiles
-
detalles Collect como # de ventiladores Desde estas páginas
La ayuda sería muy apreciada.
Solución
Sin raspar cualquier contenido (que está en contra de los términos de servicio de Facebook de todos modos):
- Extraer la parte usuario de la URL es decir, el bit después de la www.facebook.com /
- Hacer una consulta FQL de la forma
select fan_count from page where username='michaeljackson'
- Si el resultado es el retorno, se sabe que es una Página y no el perfil de un usuario.
Vea la href="http://wiki.developers.facebook.com/index.php/Page_%28FQL%29" rel="nofollow noreferrer"> Página FQL tabla
Otros consejos
uso urllib2 o pyfacebook a buscar el contenido
utilizar BeautifulSoup o lxml analizarlo
re módulo (expresiones regulares) a contenido de extracto para su verificación y recopilación de datos
El Número de ventiladores está en un una etiqueta con la clase 'FanManager'. puede utilizar Hermosa sopa para obtener el contenido de esta una etiqueta, y expresiones regulares para obtener los datos de la cadena. 1.000.000 (por ejemplo: ventiladores) como un int o lo que sea que le gustaría
Para ver si existe la página, comprobar algunas de las etiquetas para ver si está en la página 404.
Se puede usar scrapy o BeautifulSoup para raspar el contenido.