Вопрос

Привет, у меня есть список URL-адресов страниц Facebook

eg...
http://www.facebook.com/daftpunk
http://www.facebook.com/DavidGuetta
...

Какой самый лучший способ:

  • Проверьте, являются ли эти URL-адреса на самом деле для страниц Facebook и не Профили

  • Собирайте такие сведения, как количество поклонников с этих Страниц

Помощь была бы очень признательна.

Это было полезно?

Решение

Без удаления какого-либо контента (что в любом случае противоречит условиям предоставления услуг Facebook):

  1. Извлеките часть имени пользователя из URL-адреса т. е.немного после того, как www.facebook.com/
  2. Выполните запрос FQL в форме select fan_count from page where username='michaeljackson'
  3. Если результатом является return, вы знаете, что это страница , а не профиль пользователя.

Смотрите на Таблица FQL страницы для других данных, которые вы можете получить в том же вызове.

Другие советы

использование urllib2 или pyfacebook - pyfacebook для извлечения содержимого

использование Прекрасный суп или lxml чтобы разобрать его

используйте ре модуль (регулярные выражения) для извлечения содержимого для вашей проверки и сбора данных

# of fans находится в теге a с классом 'FanManager'.вы можете использовать Beautiful Soup для получения содержимого этого тега a и регулярные выражения для получения данных из строки (например:1,000,000 fans) как int или что бы вы ни пожелали.

Чтобы узнать, существует ли страница, проверьте некоторые теги, чтобы узнать, находитесь ли вы на странице 404.

Вы можете использовать шершавый или Прекрасный суп чтобы очистить содержимое.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top