大数据集

题

我一直在寻找大型数据集来测试各种类型的程序。有没有人有什么建议？

解决方案

查看 Netflix 竞赛. 。我相信他们公开了他们的数据库或一个大的子集，以促进比赛。

更新：他们的常见问题解答说他们有 1 亿个条目可以下载。

其他提示

您可能想查看美国统计协会的数据数据博览会 - 这是过去 20 年美国所有商业航班的航班详细信息 - 1.2 亿条记录，11 GB 数据。

我已经做了一些工作维基媒体下载集，这是巨大的 XML 文件。不幸的是，他们的下载服务器当前似乎存在磁盘空间问题，因此许多数据集不可用。但当它可用时，包含完整历史记录的整个英文维基百科数据集为 2.8 TB（压缩后为 18 GB）。

一些可口的用户（包括我自己）使用“publicdata”标签来标记包含公共数据的页面。你可以找到那个存档这里并订阅该标签的 RSS 提要这里. 。订阅该提要，您将看到网络上不断出现的有趣数据集。

并非所有这些数据集都很大，但它们通常很有趣。

您可能想看看生成随机数据模糊测试. 。这将为您提供几乎无限量的测试数据，并且您更有可能遇到边缘情况。

也许更多关于您想要什么类型的测试数据、什么格式以及用于什么类型的应用程序的信息？

我不知道您的目标平台是什么，但如果您正在针对 MSSQL 数据库进行开发，请查看面向数据库专业人员的 Visual Studio. 。它有一个非常酷的功能，可以使用您可以定义的数据计划为您的架构生成数据。

Redgate也有一个数据生成工具，但我没有使用过。

优点是您可以创建数据生成计划，并使用它用一致的大量数据填充数据库，这些数据可以调整以测试架构的特定区域。

您可能还想查看信息作者：亚伦·斯沃茨。

来自网站

这是一个大型数据集和爱他们的人的网站：收集它们的刮刀和爬网，对它们进行处理的学者和极客，可视化它们的设计师和艺术家。在这个地方，他们可以交换技巧和窍门，一起开发和共享工具，并开始整合其特定项目。

如果您有兴趣个性化您所获取的数据类型，请查看和服实验室. 。它是网络抓取软件，您可以使用它免费抓取几乎任何网站，没有返回行数限制。只需在其上设置一个 API（您可以使用他们的 url 生成器一次抓取一堆 url），然后使用您的个人数据集作为 JSON、CSV 或 RSS。

许可以下： CC-BY-SA 和归因