Pergunta

Estou sempre procurando grandes conjuntos de dados para testar vários tipos de programas.Alguém tem alguma sugestão?

Foi útil?

Solução

Confira a concurso netflix.Acredito que eles expuseram seu banco de dados, ou um grande subconjunto, para facilitar o concurso.

ATUALIZAR: Suas perguntas frequentes diz que eles têm 100 milhões de entradas no subconjunto que você pode baixar.

Outras dicas

Você pode querer dar uma olhada nos dados da American Statistical Association exposição de dados - são detalhes de voos de todos os voos comerciais nos EUA nos últimos 20 anos - 120 milhões de registros, 11 gigabytes de dados.

Eu fiz alguns trabalhos com o Wikimedia conjuntos de download, que são arquivos XML enormes.Infelizmente, o servidor de download deles parece estar com problemas de espaço em disco, então muitos dos conjuntos de dados não estão disponíveis.Mas quando está disponível, todo o conjunto de dados da Wikipédia em inglês com histórico completo é de 2,8 TB (18 GB compactados).

Um número de delicioso usuários (inclusive eu) marcam páginas que contêm dados públicos usando a tag "publicdata".Você pode encontrar esse arquivo aqui e assine um feed RSS para essa tag aqui.Assine o feed e você verá um fluxo constante de conjuntos de dados interessantes que aparecem na web.

Nem todos esses conjuntos de dados são grandes, mas muitas vezes são interessantes.

Você pode querer gerar dados aleatórios para Teste de Fuzz.Isso lhe daria uma quantidade praticamente ilimitada de dados de teste e é mais provável que você atinja casos extremos.

Talvez mais algumas informações sobre que tipo de dados de teste você deseja, em que formato e para quais tipos de aplicativos?

Não sei qual é a sua plataforma de destino, mas se você estiver desenvolvendo em um banco de dados MSSQL, confira Visual Studio para profissionais de banco de dados.Possui um recurso muito interessante onde pode gerar dados para o seu esquema usando um plano de dados que você pode definir.

O Redgate também possui uma ferramenta de geração de dados, mas ainda não a utilizei.

A vantagem é que você pode criar um plano de geração de dados e usá-lo para preencher seu banco de dados com grandes quantidades de dados consistentes que podem ser ajustados para testar áreas específicas do seu esquema.

Você também pode querer conferir a informação por Aaron Swartz.

Do site

Este é um site para grandes conjuntos de dados e as pessoas que os amam:Os raspadores e os rastreadores que os colecionam, os acadêmicos e os geeks que os processam, os designers e artistas que os visualizam.É um lugar onde eles podem trocar dicas e truques, desenvolver e compartilhar ferramentas e começar a integrar seus projetos específicos.

Se você estiver interessado em personalizar o tipo de dados que está obtendo, confira Laboratórios de quimono.É um software de web scraping que você pode usar para raspar praticamente qualquer site gratuitamente, sem limite de linhas retornadas.Basta configurar uma API nele (você pode usar o gerador de URL para extrair vários URLs de uma vez) e, em seguida, utilizar seu conjunto de dados pessoal como JSON, CSV ou RSS.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top