您好,我有 Facebook 页面网址列表

eg...
http://www.facebook.com/daftpunk
http://www.facebook.com/DavidGuetta
...

最好的方法是什么:

  • 检查这些网址是否 实际上 对于 Facebook 页面和 不是 型材

  • 收集详细信息,例如 粉丝数量 从这些页面

非常感谢您的帮助。

有帮助吗?

解决方案

不抓取任何内容(无论如何,这违反了 Facebook 的服务条款):

  1. 提取 URL 的用户名部分 即后面的位 www.facebook.com/
  2. 执行以下表单的 FQL 查询 select fan_count from page where username='michaeljackson'
  3. 如果结果是返回的,您就知道它是 页面,而不是用户的个人资料。

请参阅 页面 FQL 表 对于其他数据,您可以在同一调用中检索。

其他提示

使用 urllib2 或者 脸书 获取内容

使用 美丽汤 或者 lxml 解析它

使用 关于 模块(正则表达式)来提取内容以进行验证和数据收集

粉丝数量位于类“FanManager”的 a 标签中。您可以使用 Beautiful Soup 获取该 a 标签的内容,并使用正则表达式从字符串中获取数据(例如:1,000,000 名粉丝)作为 int 或任何你想要的。

要查看该页面是否存在,请检查一些标签以查看您是否位于 404 页面。

您可以使用 刮毛 或者 美丽汤 来抓取内容。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top