作为我们大清单的扩展 公开可用的数据集, ,我想知道是否有任何公开可用的社交网络数据集/爬网API列表。如果添加了可用数据的特征,那将是非常好的。这些信息应该是,也不限于以下内容:

  • 社交网络的名称;
  • 它提供了什么样的用户信息(帖子,个人资料,友谊网络,...);
  • 它是否允许通过API(和速率:10/min,1k/个月)爬行其内容物;
  • 它是否仅提供整个数据集的快照。

非常欢迎任何建议和进一步的特征。

有帮助吗?

解决方案

关于社交网络API的几个单词。大约一年前,我为研究人员写了一篇关于流行社交网络的API的评论。不幸的是,它是在俄罗斯的。这是一个摘要:

推特 (https://dev.twitter.com/docs/api/1.1)

  • 几乎所有有关推文/文本和用户的数据都可以使用;
  • 缺乏社会人口统计学数据;
  • 出色的流API:可用于实时文本处理;
  • 许多用于编程语言的包装纸;
  • 获得网络结构(连接)是可能的,但是耗时(每1分钟1个请求)。

Facebook (https://developers.facebook.com/docs/reference/api/)

  • 费率限制:每秒大约1个请求;
  • 记载的沙盒出现;
  • FQL(SQL Like)和“常规休息”图API;
  • 友谊数据和社会人口统计学特征;
  • 很多数据超出了 事件视野: :只有朋友和朋友的数据或多或少是完整的,几乎没有任何关于随机用户的研究;
  • 一些奇怪的API错误,看起来没人在乎它(例如,通过FQL获得的某些功能,但不是通过Graph API同义词)。

Instagram (http://instagram.com/developer/)

  • 费率限制:每小时5000个请求;
  • 实时API(例如用于Twitter的流API,但使用照片) - 与之连接有点棘手:使用回调;
  • 缺乏社会人口统计学数据;
  • 照片,过滤数据可用;
  • 意外的缺陷(例如,只能收集150条评论来发布/照片)。

Foursquare (https://developer.foursquare.com/overview/)

  • 费率限制:每小时5000个请求;
  • 地年代数据王国:)
  • 由于隐私问题,与研究完全封闭。要收集Checkins数据,需要构建与4SQ,BIT.LY和TWITTER API一起工作的复合解析器;
  • 再次:缺乏社会人口统计学数据。

Google+ (https://developers.google.com/+/api/latest/)

  • 每秒大约5个请求(尝试验证);
  • 主要方法:活动和人员;
  • 像在Facebook上一样,隐藏了许多随机用户的个人数据;
  • 缺乏用户连接数据。

竞争之外:我审查了俄罗斯读者的社交网络,这里的#1网络是 vk.com. 。它被翻译成多种语言,但仅在俄罗斯和其他独联体国家中流行。 API文档链接: http://vk.com/dev/. 。从我的角度来看,这是自制社交媒体研究的最佳选择。至少在俄罗斯。这就是为什么:

  • 费率限制:每秒3个请求;
  • 可用的公共文本和媒体数据;
  • 可用的社会人口统计学数据:对于随机的用户可用性级别约为60-70%;
  • 还可以使用用户之间的连接:几乎所有随机用户的友谊数据都可以使用;
  • 一些特殊的方法:例如,有一种方法可以实时获得确切用户的在线/离线状态,并且可以为他的受众建立时间表。

其他提示

它本身不是社交网络,而是STACKEXCHANGE定期发布他们的整个数据库:

您可以通过分析用户互相询问和回答来提取一些社交信息。一件好事是,由于帖子被标记,您可以轻松分析子社区。

可以在Stanford网络分析项目网站上找到一系列公开的社交网络数据集:

快照数据集

该网站包含Internet社交网络数据(Facebook,Twitter,Google Plus),用于学术期刊的引文网络,来自亚马逊的共同购买网络以及其他几种网络。他们已经指示,无向和两部分图形,所有数据集都是可以以压缩形式下载的快照。

来自德国的一个例子:与LinkedIn类似的网站,但仅限于德语国家。

链接到开发人员中央: https://dev.xing.com/overview

提供:用户配置文件,用户之间的对话(限于用户本身),求职广告,联系人的联系和联系人,网络新闻和一些地理位置API。

是的,它有一个API,但我没有找到有关费率的信息。但是在我看来,一些信息仅限于用户的同意。

网络存储库(http://networkrepository.com)拥有大量的社交网络,网络图,生物和大脑网络等。最重要的是,它们还具有交互式的视觉分析工具来比较/探索各种社交网络。

可以在 这里. 。其中许多是社交图。

泰语文字 来自不同的社交媒体平台 +情感标签(积极,中性,负面)。

许可以下: CC-BY-SA归因
scroll top