Pregunta

Hola tengo una lista de direcciones URL de página de Facebook

eg...
http://www.facebook.com/daftpunk
http://www.facebook.com/DavidGuetta
...

¿Cuál es la mejor manera de:

  • Comprobar si estas URL son realmente para las páginas de Facebook y no Perfiles

  • detalles Collect como # de ventiladores Desde estas páginas

La ayuda sería muy apreciada.

¿Fue útil?

Solución

Sin raspar cualquier contenido (que está en contra de los términos de servicio de Facebook de todos modos):

  1. Extraer la parte usuario de la URL es decir, el bit después de la www.facebook.com /
  2. Hacer una consulta FQL de la forma select fan_count from page where username='michaeljackson'
  3. Si el resultado es el retorno, se sabe que es una Página y no el perfil de un usuario.

Vea la href="http://wiki.developers.facebook.com/index.php/Page_%28FQL%29" rel="nofollow noreferrer"> Página FQL tabla

Otros consejos

uso urllib2 o pyfacebook a buscar el contenido

utilizar BeautifulSoup o lxml analizarlo

re módulo (expresiones regulares) a contenido de extracto para su verificación y recopilación de datos

El Número de ventiladores está en un una etiqueta con la clase 'FanManager'. puede utilizar Hermosa sopa para obtener el contenido de esta una etiqueta, y expresiones regulares para obtener los datos de la cadena. 1.000.000 (por ejemplo: ventiladores) como un int o lo que sea que le gustaría

Para ver si existe la página, comprobar algunas de las etiquetas para ver si está en la página 404.

Se puede usar scrapy o BeautifulSoup para raspar el contenido.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top