Вопрос

Я всегда ищу большие наборы данных для тестирования различных типов программ.У кого-нибудь есть предложения?

Это было полезно?

Решение

Проверьте конкурс Netflix.Я считаю, что они раскрыли свою базу данных или большую ее часть, чтобы облегчить конкурс.

ОБНОВЛЯТЬ: Их часто задаваемые вопросы говорит, что у них есть 100 миллионов записей в подмножестве, которое вы можете скачать.

Другие советы

Возможно, вы захотите взглянуть на данные Американской статистической ассоциации. выставка данных - это данные всех коммерческих рейсов в США за последние 20 лет - 120 миллионов записей, 11 гигабайт данных.

Я проделал некоторую работу с Викимедиа наборы загрузки, представляющие собой огромные XML-файлы.К сожалению, на их сервере загрузки в настоящее время возникают проблемы с дисковым пространством, поэтому многие наборы данных недоступны.Но когда он доступен, весь набор данных английской Википедии с полной историей занимает 2,8 ТБ (18 ГБ сжато).

Количество вкусный пользователи (включая меня) отмечают страницы, содержащие общедоступные данные, с помощью тега «publicdata».Вы можете найти этот архив здесь и подпишитесь на RSS-канал по этому тегу здесь.Подпишитесь на канал, и вы увидите постоянный поток интересных наборов данных, которые появляются в Интернете.

Не все эти наборы данных велики, но зачастую они интересны.

Возможно, вы захотите посмотреть на генерацию случайных данных для Фазз-тестирование.Это даст вам практически неограниченный объем тестовых данных, и вы с большей вероятностью столкнетесь с крайними случаями.

Может быть, дополнительная информация о том, какие тестовые данные вам нужны, в каком формате и для каких типов приложений?

Я не знаю, какая у вас целевая платформа, но если вы разрабатываете базу данных MSSQL, проверьте Visual Studio для специалистов по базам данных.У него есть очень интересная функция, позволяющая генерировать данные для вашей схемы, используя план данных, который вы можете определить.

У Redgate также есть инструмент для генерации данных, но я им не пользовался.

Преимущество состоит в том, что вы можете создать план генерации данных и использовать его для заполнения базы данных согласованными большими объемами данных, которые можно настроить для тестирования определенных областей вашей схемы.

Вы также можете проверить информация автор Аарон Шварц.

С сайта

Это сайт для больших наборов данных и людей, которые их любят:Скрещины и сканеры, которые их собирают, ученые и фанаты, которые их обрабатывают, дизайнеры и художники, которые их визуализируют.Это место, где они могут обмениваться советами и хитростями, разрабатывать и делиться инструментами вместе и начать интегрировать свои конкретные проекты.

Если вы заинтересованы в персонализации типа получаемых данных, ознакомьтесь с Кимоно Лаборатории.Это программное обеспечение для парсинга веб-страниц, которое вы можете использовать для бесплатного парсинга практически любого сайта без ограничения количества возвращаемых строк.Просто настройте на нем API (вы можете использовать их генератор URL-адресов, чтобы очистить несколько URL-адресов одновременно), а затем используйте свой личный набор данных в формате JSON, CSV или RSS.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top