Domanda

Sono sempre alla ricerca di set di dati di grandi dimensioni su cui testare vari tipi di programmi.Qualcuno ha qualche suggerimento?

È stato utile?

Soluzione

Dai un'occhiata a concorso netflix.Credo che abbiano esposto il loro database, o un ampio sottoinsieme, per facilitare il concorso.

AGGIORNAMENTO: Le loro domande frequenti dice che ci sono 100 milioni di voci nel sottoinsieme che puoi scaricare.

Altri suggerimenti

Potresti dare un'occhiata ai dati dell'American Statistical Association esposizione dei dati - Sono i dettagli di volo di tutti i voli commerciali negli Stati Uniti negli ultimi 20 anni - 120 milioni di registrazioni, 11 giga di dati.

Ho lavorato un po' con il Wikimedia set di download, che sono enormi file XML.Sfortunatamente, sembra che il loro server di download abbia attualmente problemi di spazio su disco, quindi molti set di dati non sono disponibili.Ma quando sarà disponibile, l'intero set di dati di Wikipedia in inglese con la cronologia completa sarà di 2,8 TB (18 GB compressi).

Un numero di delizioso gli utenti (incluso me) taggano le pagine che contengono dati pubblici utilizzando il tag "publicdata".Puoi trovare quell'archivio Qui e iscriviti a un feed RSS per quel tag Qui.Iscriviti al feed e vedrai un flusso costante di set di dati interessanti che compaiono sul web.

Non tutti questi set di dati sono grandi, ma sono spesso interessanti.

Potresti voler provare a generare dati casuali per Test di fuzz.Ciò ti fornirebbe una quantità praticamente illimitata di dati di test e avrai maggiori probabilità di riscontrare casi limite.

Forse qualche informazione in più su che tipo di dati di test desideri, quale formato e per quali tipi di applicazioni?

Non so quale sia la tua piattaforma di destinazione, ma se stai sviluppando su un database MSSQL, dai un'occhiata Visual Studio per professionisti di database.Ha una funzionalità molto interessante in cui può generare dati per il tuo schema utilizzando un piano dati che puoi definire.

Redgate ha anche uno strumento di generazione dati, ma non l'ho usato.

Il vantaggio è che puoi creare un piano di generazione dei dati e utilizzarlo per popolare il tuo database con grandi quantità di dati coerenti che possono essere ottimizzati per testare aree specifiche del tuo schema.

Potresti anche voler dare un'occhiata theinfo di Aaron Swartz.

Dal sito

Questo è un sito per grandi set di dati e le persone che li amano:Gli raschiatori e i crawler che li raccolgono, gli accademici e i geek che li elaborano, i designer e gli artisti che li visualizzano.È un posto dove possono scambiare suggerimenti e trucchi, sviluppare e condividere strumenti e iniziare a integrare i loro progetti particolari.

Se sei interessato a personalizzare il tipo di dati che ricevi, dai un'occhiata Laboratori di kimono.È un software di web-scraping che puoi utilizzare per raschiare praticamente qualsiasi sito gratuitamente senza alcun limite di righe restituite.Basta impostare un'API su di esso (puoi utilizzare il loro generatore di URL per raccogliere un gruppo di URL contemporaneamente) e quindi utilizzare il tuo set di dati personali come JSON, CSV o RSS.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top