题
有几个经典数据集用于机器学习分类/回归任务。最受欢迎的是:
但是,有人知道网络分析 /图理论的类似数据集吗?更具体的 - 我正在寻找 黄金标准 用于比较/评估/学习的数据集:
- 中心措施;
- 网络聚类算法。
我不需要大量的公开网络/图形列表,而需要几个实际必须知道的数据集。
编辑:
很难为“黄金标准数据集”提供确切的功能,但这里有一些想法。我认为,真正的经典数据集应满足这些标准:
- 文章和教科书中的多个参考文献;
- 包含在著名的网络分析软件包中;
- 足够的存在时间;
- 在许多课程中使用图形分析。
关于我感兴趣的领域,我还需要标记为顶点和/或预先计算(或预定义的)“权威得分”的类(即中心性估计)。在问这个问题之后,我继续搜索,这里有一些合适的例子:
- Zachary的空手道俱乐部: :在1977年引用的,引用了超过1.5k次(根据Google Scholar),顶点具有属性派系(可用于聚类)。
- ERDOS协作网络: :不幸的是,我没有以数据文件的形式找到这个网络,但是它很有名,如果有人会用数学家的专业数据丰富网络,它也可以用于测试聚类算法。
其他提示
也许您可以在这里检查 - http://snap.stanford.edu/data/
对于每个数据集,您还将看到使用它们已使用的作品的参考
我唯一知道的是图形数据库的基准数据,例如Neo4J。
您可能会发现与此类似的链接:http://istc-bigdata.org/index.php/benchmarking-graph-databases/
您可以在其中找到数据以测试网络分析和图理论。
此外,您可以使用Twitter/Facebook的API来收集自己的数据。如果您找不到所需的数据,这也是一个建议。