Freie große Datensätze mit Hadoop zu experimentieren

https://stackoverflow.com/questions/2674421

28-09-2019
|

Frage

Haben Sie eine große Datenmenge kennen, mit Hadoop zu experimentieren, die frei / niedrig Kosten sind? Alle Hinweise / Links verbunden sind geschätzt.

Vorzug:

Mindestens ein GB Daten.
Produktionsprotokolldaten von Web Server.

Nur wenige von ihnen, die ich bisher gefunden:

Auch können wir unsere eigenen Crawler ausführen, um Daten von Websites zu sammeln, z.B. Wikipedia? Alle Hinweise, wie dies zu tun ist klar, wie gut.

Lösung

Ein paar Punkte über Deine Frage zu kriechen und wikipedia.

Sie haben im Zusammenhang mit der wikipedia Datendumps und Sie können die Cloud9 Projekt von UMD mit diesen Daten in Hadoop zur Arbeit

Sie haben eine Seite zu diesem Thema: Arbeiten mit Wikipedia

Eine weitere Datenquelle zu der Liste hinzuzufügen ist:

ClueWeb09 - 1 Milliarde Web-Seiten zwischen Jan und Februar 09. 5TB Compressed gesammelt.

einen Crawler Mit Hilfe von Daten zu erzeugen, sollte in einer separaten Frage zu einem etwa Hadoop / MapReduce mich gebucht werden sagen würde.

Andere Tipps

Eine offensichtliche Quelle: der Stack-Überlauf-Trilogie Datendumps . Diese sind frei verfügbar unter der Creative-Commons-Lizenz.

Dies ist eine Sammlung von 189 Datensätze für maschinelles Lernen (die eine der schönsten Anwendungen für Hadoop ist g ): http://archive.ics.uci.edu/ml/datasets.html

Es ist keine Protokolldatei, aber vielleicht könnten Sie die Planeten-Datei von OpenStreetMap verwenden: http: // wiki .openstreetmap.org / wiki / Planet.osm

CC-Lizenz, etwa 160 GB (entpackten)

Es gibt auch kleinere Dateien für jeden Kontinent: http://wiki.openstreetmap.org/wiki/World

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow