Freie große Datensätze mit Hadoop zu experimentieren
Frage
Haben Sie eine große Datenmenge kennen, mit Hadoop zu experimentieren, die frei / niedrig Kosten sind? Alle Hinweise / Links verbunden sind geschätzt.
Vorzug:
-
Mindestens ein GB Daten.
-
Produktionsprotokolldaten von Web Server.
Nur wenige von ihnen, die ich bisher gefunden:
Auch können wir unsere eigenen Crawler ausführen, um Daten von Websites zu sammeln, z.B. Wikipedia? Alle Hinweise, wie dies zu tun ist klar, wie gut.
Lösung
Ein paar Punkte über Deine Frage zu kriechen und wikipedia.
Sie haben im Zusammenhang mit der wikipedia Datendumps und Sie können die Cloud9 Projekt von UMD mit diesen Daten in Hadoop zur Arbeit
Sie haben eine Seite zu diesem Thema: Arbeiten mit Wikipedia
Eine weitere Datenquelle zu der Liste hinzuzufügen ist:
- ClueWeb09 - 1 Milliarde Web-Seiten zwischen Jan und Februar 09. 5TB Compressed gesammelt.
einen Crawler Mit Hilfe von Daten zu erzeugen, sollte in einer separaten Frage zu einem etwa Hadoop / MapReduce mich gebucht werden sagen würde.
Andere Tipps
Eine offensichtliche Quelle: der Stack-Überlauf-Trilogie Datendumps . Diese sind frei verfügbar unter der Creative-Commons-Lizenz.
Dies ist eine Sammlung von 189 Datensätze für maschinelles Lernen (die eine der schönsten Anwendungen für Hadoop ist g ): http://archive.ics.uci.edu/ml/datasets.html
Es ist keine Protokolldatei, aber vielleicht könnten Sie die Planeten-Datei von OpenStreetMap verwenden: http: // wiki .openstreetmap.org / wiki / Planet.osm
CC-Lizenz, etwa 160 GB (entpackten)
Es gibt auch kleinere Dateien für jeden Kontinent: http://wiki.openstreetmap.org/wiki/World