Detalhes da página do Facebook e a API RESTful?
-
21-09-2019 - |
Pergunta
Oi eu tenho uma lista de URLs da página do Facebook
eg...
http://www.facebook.com/daftpunk
http://www.facebook.com/DavidGuetta
...
Qual é a melhor forma de:
Verifique se esses URLs são na realidade Para páginas do Facebook e não Perfis
Coletar detalhes como # de fãs a partir dessas páginas
A ajuda seria muito apreciada.
Solução
Sem raspar nenhum conteúdo (que seja contra os termos de serviço do Facebook de qualquer maneira):
- Extraia a parte do nome de usuário do URL, ou seja, a parte depois do www.facebook.com/
- Faça uma consulta FQL do formulário
select fan_count from page where username='michaeljackson'
- Se um resultado for devolvido, você sabe que é uma página e não o perfil de um usuário.
Veja o Página FQL Tabela Para outros dados, você pode recuperar na mesma chamada.
Outras dicas
usar urllib2 ou pyfacebook Para buscar o conteúdo
usar Belo grupo ou lxml para analisá -lo
use o ré Módulo (Expressões regulares) para extrair conteúdo para sua verificação e coleta de dados
O número de fãs está em uma tag A com a classe 'FanManager'. Você pode usar uma sopa bonita para obter o conteúdo desta tag e expressões regulares para obter os dados da string (ex: 1.000.000 fãs) como um INT ou o que quiser.
Para ver se a página existe, verifique algumas das tags para ver se você está na página 404.
Você pode usar Scrapy ou Belo grupo para raspar o conteúdo.