Pergunta

Oi eu tenho uma lista de URLs da página do Facebook

eg...
http://www.facebook.com/daftpunk
http://www.facebook.com/DavidGuetta
...

Qual é a melhor forma de:

  • Verifique se esses URLs são na realidade Para páginas do Facebook e não Perfis

  • Coletar detalhes como # de fãs a partir dessas páginas

A ajuda seria muito apreciada.

Foi útil?

Solução

Sem raspar nenhum conteúdo (que seja contra os termos de serviço do Facebook de qualquer maneira):

  1. Extraia a parte do nome de usuário do URL, ou seja, a parte depois do www.facebook.com/
  2. Faça uma consulta FQL do formulário select fan_count from page where username='michaeljackson'
  3. Se um resultado for devolvido, você sabe que é uma página e não o perfil de um usuário.

Veja o Página FQL Tabela Para outros dados, você pode recuperar na mesma chamada.

Outras dicas

usar urllib2 ou pyfacebook Para buscar o conteúdo

usar Belo grupo ou lxml para analisá -lo

use o Módulo (Expressões regulares) para extrair conteúdo para sua verificação e coleta de dados

O número de fãs está em uma tag A com a classe 'FanManager'. Você pode usar uma sopa bonita para obter o conteúdo desta tag e expressões regulares para obter os dados da string (ex: 1.000.000 fãs) como um INT ou o que quiser.

Para ver se a página existe, verifique algumas das tags para ver se você está na página 404.

Você pode usar Scrapy ou Belo grupo para raspar o conteúdo.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top