conjuntos de datos grandes libre de experimentar con Hadoop
Pregunta
¿Conoce alguna gran conjunto de datos de experimentar con Hadoop que está libre bajo costo /? Cualquier punteros / enlaces relacionados son apreciados.
Preferencia:
-
Al menos un GB de datos.
-
Producción datos de registro de servidor web.
Pocos de ellos que he encontrado hasta ahora:
También podemos ejecutar nuestro propio rastreador para recopilar datos de los sitios, por ejemplo, Wikipedia? Cualquier punteros sobre cómo hacer esto se aprecia también.
Solución
Algunos puntos acerca de su pregunta sobre el rastreo y la Wikipedia.
Se han vinculado a la Wikipedia datos volcados y se puede utilizar el proyecto Cloud9 de UMD para trabajar con estos datos en Hadoop
Ellos tienen una página en este: Trabajo con Wikipedia
Otra fuente de datos para añadir a la lista es:
- ClueWeb09 - 1 mil millones de páginas web recogidos entre enero y febrero 09. 5TB comprimido.
El uso de un rastreador para generar datos debe ser publicado en una cuestión distinta a uno sobre Hadoop / MapReduce diría yo.
Otros consejos
Una fuente obvia: los datos trilogía de desbordamiento de pila volcados . Estos están libremente disponibles bajo la licencia Creative Commons.
Esta es una colección de 189 conjuntos de datos para el aprendizaje de la máquina (que es uno de los mejores aplicaciones para hadoop g ): http://archive.ics.uci.edu/ml/datasets.html
No es un archivo de registro, pero tal vez usted podría utilizar el archivo planeta de OpenStreetMap: http: // wiki .openstreetmap.org / wiki / Planet.osm
licencia CC, sobre 160 GB (desempaquetado)
También hay archivos más pequeños para cada continente: http://wiki.openstreetmap.org/wiki/World