我一直在寻找大型数据集来测试各种类型的程序。有没有人有什么建议?

有帮助吗?

解决方案

查看 Netflix 竞赛. 。我相信他们公开了他们的数据库或一个大的子集,以促进比赛。

更新: 他们的常见问题解答 说他们有 1 亿个条目可以下载。

其他提示

您可能想查看美国统计协会的数据 数据博览会 - 这是过去 20 年美国所有商业航班的航班详细信息 - 1.2 亿条记录,11 GB 数据。

我已经做了一些工作 维基媒体 下载集,这是巨大的 XML 文件。不幸的是,他们的下载服务器当前似乎存在磁盘空间问题,因此许多数据集不可用。但当它可用时,包含完整历史记录的整个英文维基百科数据集为 2.8 TB(压缩后为 18 GB)。

一些 可口的 用户(包括我自己)使用“publicdata”标签来标记包含公共数据的页面。你可以找到那个存档 这里 并订阅该标签的 RSS 提要 这里. 。订阅该提要,您将看到网络上不断出现的有趣数据集。

并非所有这些数据集都很大,但它们通常很有趣。

您可能想看看生成随机数据 模糊测试. 。这将为您提供几乎无限量的测试数据,并且您更有可能遇到边缘情况。

也许更多关于您想要什么类型的测试数据、什么格式以及用于什么类型的应用程序的信息?

我不知道您的目标平台是什么,但如果您正在针对 MSSQL 数据库进行开发,请查看 面向数据库专业人员的 Visual Studio. 。它有一个非常酷的功能,可以使用您可以定义的数据计划为您的架构生成数据。

Redgate也有一个数据生成工具,但我没有使用过。

优点是您可以创建数据生成计划,并使用它用一致的大量数据填充数据库,这些数据可以调整以测试架构的特定区域。

您可能还想查看 信息 作者:亚伦·斯沃茨。

来自网站

这是一个大型数据集和爱他们的人的网站:收集它们的刮刀和爬网,对它们进行处理的学者和极客,可视化它们的设计师和艺术家。在这个地方,他们可以交换技巧和窍门,一起开发和共享工具,并开始整合其特定项目。

如果您有兴趣个性化您所获取的数据类型,请查看 和服实验室. 。它是网络抓取软件,您可以使用它免费抓取几乎任何网站,没有返回行数限制。只需在其上设置一个 API(您可以使用他们的 url 生成器一次抓取一堆 url),然后使用您的个人数据集作为 JSON、CSV 或 RSS。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top