Frage

Ich bin immer auf der Suche nach großen Datensätzen, um verschiedene Arten von Programmen zu testen.Hat jemand Vorschläge?

War es hilfreich?

Lösung

Besuche die Netflix-Wettbewerb.Ich glaube, dass sie ihre Datenbank oder einen großen Teil davon offengelegt haben, um den Wettbewerb zu ermöglichen.

AKTUALISIEREN: Ihre FAQ sagt, dass die Teilmenge, die Sie herunterladen können, 100 Millionen Einträge enthält.

Andere Tipps

Vielleicht möchten Sie einen Blick auf die Daten der American Statistical Association werfen Datenmesse - Es handelt sich um Flugdaten aller kommerziellen Flüge in den USA der letzten 20 Jahre - 120 Millionen Datensätze, 11 GB Daten.

Ich habe einige Arbeiten damit durchgeführt Wikimedia Download-Sets, bei denen es sich um riesige XML-Dateien handelt.Leider scheint der Download-Server derzeit Probleme mit dem Speicherplatz zu haben, sodass viele Datensätze nicht verfügbar sind.Aber wenn er verfügbar ist, beträgt der gesamte englische Wikipedia-Datensatz mit vollständigem Verlauf 2,8 TB (18 GB komprimiert).

Eine Anzahl von lecker Benutzer (einschließlich mir) markieren Seiten, die öffentliche Daten enthalten, mit dem Tag „publicdata“.Sie können dieses Archiv finden Hier und abonnieren Sie einen RSS-Feed für dieses Tag Hier.Abonnieren Sie den Feed und Sie werden einen stetigen Strom interessanter Datensätze sehen, die im Web auftauchen.

Nicht alle dieser Datensätze sind groß, aber oft interessant.

Vielleicht möchten Sie die Generierung von Zufallsdaten für Folgendes in Betracht ziehen Fuzz-Test.Dadurch erhalten Sie eine nahezu unbegrenzte Menge an Testdaten und es ist wahrscheinlicher, dass Sie auf Grenzfälle stoßen.

Vielleicht weitere Informationen darüber, welche Art von Testdaten Sie benötigen, welches Format und für welche Arten von Anwendungen?

Ich weiß nicht, was Ihre Zielplattform ist, aber wenn Sie mit einer MSSQL-Datenbank entwickeln, schauen Sie sich das an Visual Studio für Datenbankprofis.Es verfügt über eine sehr coole Funktion, mit der es mithilfe eines Datenplans, den Sie definieren können, Daten für Ihr Schema generieren kann.

Redgate verfügt auch über ein Datengenerierungstool, das ich jedoch nicht verwendet habe.

Der Vorteil besteht darin, dass Sie einen Datengenerierungsplan erstellen und ihn verwenden können, um Ihre Datenbank mit konsistenten, großen Datenmengen zu füllen, die so abgestimmt werden können, dass bestimmte Bereiche Ihres Schemas getestet werden.

Vielleicht möchten Sie auch einen Blick darauf werfen theinfo von Aaron Swartz.

Von der Website

Dies ist eine Website für große Datensätze und die Menschen, die sie lieben:Die Scraper und Crawler, die sie sammeln, die Akademiker und Geeks, die sie verarbeiten, die Designer und Künstler, die sie visualisieren.Es ist ein Ort, an dem sie Tipps und Tricks austauschen, gemeinsam Tools entwickeln und teilen und ihre jeweiligen Projekte integrieren können.

Wenn Sie daran interessiert sind, die Art der Daten, die Sie erhalten, zu personalisieren, schauen Sie hier vorbei Kimono Labs.Dabei handelt es sich um eine Web-Scraping-Software, mit der Sie nahezu jede Website kostenlos und ohne Begrenzung der zurückgegebenen Zeilen durchsuchen können.Richten Sie einfach eine API darauf ein (Sie können den URL-Generator verwenden, um eine Reihe von URLs auf einmal zu scannen) und verwenden Sie dann Ihren persönlichen Datensatz als JSON, CSV oder RSS.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top