Question

Je suis toujours à la recherche de grands ensembles de données sur lesquels tester différents types de programmes.Est-ce que quelqu'un a des suggestions?

Était-ce utile?

La solution

Vérifiez concours netflix.Je crois qu'ils ont exposé leur base de données, ou un large sous-ensemble, pour faciliter le concours.

MISE À JOUR: Leur FAQ dit qu'ils ont 100 millions d'entrées dans le sous-ensemble que vous pouvez télécharger.

Autres conseils

Vous voudrez peut-être consulter les données de l'American Statistical Association. exposition de données - ce sont les détails des vols commerciaux aux États-Unis au cours des 20 dernières années - 120 millions d'enregistrements, 11 Go de données.

J'ai fait du travail avec le Wikimédia des ensembles de téléchargement, qui sont d'énormes fichiers XML.Malheureusement, leur serveur de téléchargement semble actuellement rencontrer des problèmes d'espace disque et de nombreux ensembles de données ne sont donc pas disponibles.Mais lorsqu'il est disponible, l'ensemble des données Wikipédia en anglais avec historique complet fait 2,8 To (18 Go compressés).

Un nombre de délicieux les utilisateurs (y compris moi-même) marquent les pages contenant des données publiques à l'aide de la balise "publicdata".Vous pouvez trouver cette archive ici et abonnez-vous à un flux RSS pour cette balise ici.Abonnez-vous au flux et vous verrez un flux constant d'ensembles de données intéressants apparaître sur le Web.

Tous ces ensembles de données ne sont pas volumineux, mais ils sont souvent intéressants.

Vous voudrez peut-être envisager de générer des données aléatoires pour Test de flou.Cela vous donnerait une quantité pratiquement illimitée de données de test et vous êtes plus susceptible de rencontrer des cas extrêmes.

Peut-être quelques informations supplémentaires sur le type de données de test que vous souhaitez, quel format et pour quels types d'applications ?

Je ne sais pas quelle est votre plate-forme cible, mais si vous développez sur une base de données MSSQL, consultez Visual Studio pour les professionnels des bases de données.Il possède une fonctionnalité très intéressante qui lui permet de générer des données pour votre schéma à l'aide d'un plan de données que vous pouvez définir.

Redgate dispose également d'un outil de génération de données, mais je ne l'ai pas utilisé.

L'avantage est que vous pouvez créer un plan de génération de données et l'utiliser pour remplir votre base de données avec de grandes quantités de données cohérentes qui peuvent être ajustées pour tester des zones spécifiques de votre schéma.

Vous voudrez peut-être aussi consulter l'info par Aaron Swartz.

Depuis le site

Ceci est un site pour les grands ensembles de données et les personnes qui les aiment:Les grabyers et les robots qui les collectent, les universitaires et les geeks qui les traitent, les designers et les artistes qui les visualisent.C'est un endroit où ils peuvent échanger des conseils et des astuces, développer et partager des outils ensemble, et commencer à intégrer leurs projets particuliers.

Si vous souhaitez personnaliser le type de données que vous obtenez, consultez Laboratoires de kimono.Il s'agit d'un logiciel de scraping Web que vous pouvez utiliser pour gratter n'importe quel site gratuitement, sans limite de lignes renvoyées.Configurez simplement une API dessus (vous pouvez utiliser leur générateur d'URL pour récupérer plusieurs URL à la fois), puis utilisez votre ensemble de données personnelles au format JSON, CSV ou RSS.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top