Pregunta

Siempre estoy buscando grandes conjuntos de datos para probar varios tipos de programas.¿Alguien tiene alguna sugerencia?

¿Fue útil?

Solución

Revisar la concurso netflix.Creo que expusieron su base de datos, o un gran subconjunto, para facilitar el concurso.

ACTUALIZAR: Sus preguntas frecuentes dice que tienen 100 millones de entradas en el subconjunto que puedes descargar.

Otros consejos

Quizás quieras echar un vistazo a los datos de la Asociación Estadounidense de Estadística. exposición de datos - son los detalles de todos los vuelos comerciales en los EE. UU. durante los últimos 20 años: 120 millones de registros, 11 gigas de datos.

He trabajado un poco con el Wikimedia descargar conjuntos, que son archivos XML enormes.Desafortunadamente, su servidor de descarga parece tener problemas de espacio en disco, por lo que muchos de los conjuntos de datos no están disponibles.Pero cuando esté disponible, todo el conjunto de datos de Wikipedia en inglés con el historial completo será de 2,8 TB (18 GB comprimidos).

Un numero de delicioso Los usuarios (incluyéndome a mí) etiquetan páginas que contienen datos públicos utilizando la etiqueta "publicdata".Puedes encontrar ese archivo. aquí y suscríbete a una fuente RSS para esa etiqueta aquí.Suscríbase al feed y verá un flujo constante de conjuntos de datos interesantes que aparecen en la web.

No todos esos conjuntos de datos son grandes, pero suelen ser interesantes.

Es posible que desee considerar la generación de datos aleatorios para Prueba de fuzz.Eso le daría una cantidad prácticamente ilimitada de datos de prueba y es más probable que llegue a casos extremos.

¿Quizás más información sobre qué tipo de datos de prueba desea, en qué formato y para qué tipos de aplicaciones?

No sé cuál es su plataforma de destino, pero si está desarrollando con una base de datos MSSQL, consulte Visual Studio para profesionales de bases de datos.Tiene una característica muy interesante que le permite generar datos para su esquema utilizando un plan de datos que puede definir.

Redgate también tiene una herramienta de generación de datos, pero no la he usado.

La ventaja es que puede crear un plan de generación de datos y utilizarlo para llenar su base de datos con grandes cantidades de datos consistentes que pueden ajustarse para probar áreas específicas de su esquema.

Es posible que también desees consultar la información por Aaron Swartz.

Desde el sitio

Este es un sitio para grandes conjuntos de datos y las personas que los aman:Los raspadores y rastreadores que los recolectan, los académicos y los geeks que los procesan, los diseñadores y artistas que los visualizan.Es un lugar donde pueden intercambiar consejos y trucos, desarrollar y compartir herramientas juntas, y comenzar a integrar sus proyectos particulares.

Si está interesado en personalizar el tipo de datos que obtiene, consulte Laboratorios de kimono.Es un software de raspado web que puede utilizar para raspar casi cualquier sitio de forma gratuita sin límite de filas devueltas.Simplemente configure una API (puede usar su generador de URL para extraer un montón de URL a la vez) y luego utilice su conjunto de datos personales como JSON, CSV o RSS.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top