题
我一直在寻找大型数据集来测试各种类型的程序。有没有人有什么建议?
解决方案
查看 Netflix 竞赛. 。我相信他们公开了他们的数据库或一个大的子集,以促进比赛。
更新: 他们的常见问题解答 说他们有 1 亿个条目可以下载。
其他提示
您可能想查看美国统计协会的数据 数据博览会 - 这是过去 20 年美国所有商业航班的航班详细信息 - 1.2 亿条记录,11 GB 数据。
我已经做了一些工作 维基媒体 下载集,这是巨大的 XML 文件。不幸的是,他们的下载服务器当前似乎存在磁盘空间问题,因此许多数据集不可用。但当它可用时,包含完整历史记录的整个英文维基百科数据集为 2.8 TB(压缩后为 18 GB)。
您可能想看看生成随机数据 模糊测试. 。这将为您提供几乎无限量的测试数据,并且您更有可能遇到边缘情况。
也许更多关于您想要什么类型的测试数据、什么格式以及用于什么类型的应用程序的信息?
我不知道您的目标平台是什么,但如果您正在针对 MSSQL 数据库进行开发,请查看 面向数据库专业人员的 Visual Studio. 。它有一个非常酷的功能,可以使用您可以定义的数据计划为您的架构生成数据。
Redgate也有一个数据生成工具,但我没有使用过。
优点是您可以创建数据生成计划,并使用它用一致的大量数据填充数据库,这些数据可以调整以测试架构的特定区域。
您可能还想查看 信息 作者:亚伦·斯沃茨。
来自网站
这是一个大型数据集和爱他们的人的网站:收集它们的刮刀和爬网,对它们进行处理的学者和极客,可视化它们的设计师和艺术家。在这个地方,他们可以交换技巧和窍门,一起开发和共享工具,并开始整合其特定项目。
如果您有兴趣个性化您所获取的数据类型,请查看 和服实验室. 。它是网络抓取软件,您可以使用它免费抓取几乎任何网站,没有返回行数限制。只需在其上设置一个 API(您可以使用他们的 url 生成器一次抓取一堆 url),然后使用您的个人数据集作为 JSON、CSV 或 RSS。