有几个经典数据集用于机器学习分类/回归任务。最受欢迎的是:

但是,有人知道网络分析 /图理论的类似数据集吗?更具体的 - 我正在寻找 黄金标准 用于比较/评估/学习的数据集:

  1. 中心措施;
  2. 网络聚类算法。

我不需要大量的公开网络/图形列表,而需要几个实际必须知道的数据集。

编辑:

很难为“黄金标准数据集”提供确切的功能,但这里有一些想法。我认为,真正的经典数据集应满足这些标准:

  • 文章和教科书中的多个参考文献;
  • 包含在著名的网络分析软件包中;
  • 足够的存在时间;
  • 在许多课程中使用图形分析。

关于我感兴趣的领域,我还需要标记为顶点和/或预先计算(或预定义的)“权威得分”的类(即中心性估计)。在问这个问题之后,我继续搜索,这里有一些合适的例子:

  • Zachary的空手道俱乐部: :在1977年引用的,引用了超过1.5k次(根据Google Scholar),顶点具有属性派系(可用于聚类)。
  • ERDOS协作网络: :不幸的是,我没有以数据文件的形式找到这个网络,但是它很有名,如果有人会用数学家的专业数据丰富网络,它也可以用于测试聚类算法。
有帮助吗?

解决方案

您正在寻找的东西可以找到 Konect (当我写这篇文章时,该网站已经下降,但应该尽快解决!)。这几乎是用于网络分析的最全面的数据收集。但是问题是哪个是 标准 使用?

好吧,除了Zachary的空手道俱乐部,没有明确的答案!

如果您在社区检测算法中进行文献综述,您会发现几乎所有闪亮的论文都使用不同的网络。我的建议是通过Andrea Lancichinetti和Santo Fortunato为基准图表所做的一切。他们提出了一些基准图生成算法,例如 这个.

希望能帮助到你 :)

其他提示

也许您可以在这里检查 - http://snap.stanford.edu/data/

对于每个数据集,您还将看到使用它们已使用的作品的参考

我唯一知道的是图形数据库的基准数据,例如Neo4J。

您可能会发现与此类似的链接:http://istc-bigdata.org/index.php/benchmarking-graph-databases/

您可以在其中找到数据以测试网络分析和图理论。

此外,您可以使用Twitter/Facebook的API来收集自己的数据。如果您找不到所需的数据,这也是一个建议。

许可以下: CC-BY-SA归因
scroll top