conjuntos de datos grandes libre de experimentar con Hadoop

https://stackoverflow.com/questions/2674421

28-09-2019
|

Pregunta

¿Conoce alguna gran conjunto de datos de experimentar con Hadoop que está libre bajo costo /? Cualquier punteros / enlaces relacionados son apreciados.

Preferencia:

Al menos un GB de datos.
Producción datos de registro de servidor web.

Pocos de ellos que he encontrado hasta ahora:

También podemos ejecutar nuestro propio rastreador para recopilar datos de los sitios, por ejemplo, Wikipedia? Cualquier punteros sobre cómo hacer esto se aprecia también.

Solución

Algunos puntos acerca de su pregunta sobre el rastreo y la Wikipedia.

Se han vinculado a la Wikipedia datos volcados y se puede utilizar el proyecto Cloud9 de UMD para trabajar con estos datos en Hadoop

Ellos tienen una página en este: Trabajo con Wikipedia

Otra fuente de datos para añadir a la lista es:

ClueWeb09 - 1 mil millones de páginas web recogidos entre enero y febrero 09. 5TB comprimido.

El uso de un rastreador para generar datos debe ser publicado en una cuestión distinta a uno sobre Hadoop / MapReduce diría yo.

Otros consejos

Una fuente obvia: los datos trilogía de desbordamiento de pila volcados . Estos están libremente disponibles bajo la licencia Creative Commons.

Esta es una colección de 189 conjuntos de datos para el aprendizaje de la máquina (que es uno de los mejores aplicaciones para hadoop g ): http://archive.ics.uci.edu/ml/datasets.html

No es un archivo de registro, pero tal vez usted podría utilizar el archivo planeta de OpenStreetMap: http: // wiki .openstreetmap.org / wiki / Planet.osm

licencia CC, sobre 160 GB (desempaquetado)

También hay archivos más pequeños para cada continente: http://wiki.openstreetmap.org/wiki/World

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow