Vra

Ek is altyd op soek na groot stelle data te toets verskillende tipes van die programme op.Het iemand enige voorstelle?

Was dit nuttig?

Oplossing

Check uit die Netflix wedstryd . Ek glo dat hulle hul databasis, of 'n groot subset, blootgestel aan die wedstryd te fasiliteer.

UPDATE:. Hul faq sê hulle het as 100 miljoen inskrywings in die subset kan jy dit aflaai

Ander wenke

Jy wil dalk'n blik op die data vir die Amerikaanse Statistiese Vereniging data expo - dit se vlug besonderhede vir alle kommersiële vlugte in die VSA vir die afgelope 20 jaar - 120 miljoen rekords, 11 gig van die data.

Ek het 'n werk met die Wikimedia aflaai stelle, wat groot XML-lêers is gedoen. Ongelukkig blyk hul aflaai bediener na wees op die oomblik met spasie op die hardeskyf kwessies so baie van die datastelle nie beskikbaar is nie. Maar wanneer dit beskikbaar is, die hele Engels Wikipedia datastel met volle geskiedenis is 2,8 TB (18 GB saamgeperste).

'n aantal del.icio.us gebruikers (insluitende myself) tag bladsye wat openbare data met behulp van bevat die "publicdata" tag. Jy kan vind dat argief hier en inteken op 'n RSS feed vir daardie tag hier . Skryf in vir die voer en jy sal 'n bestendige stroom van interessante datastelle wat pop-up op die web te sien.

Nie alle van die datastelle is groot, maar hulle is dikwels interessant.

Jy mag dalk wil om te kyk na die opwekking van ewekansige data vir Fuzz Toets . Wat sou jy 'n pretty much onbeperkte bedrag van toetsdata gee, en jy is meer geneig om rand gevalle getref.

Miskien 'n paar meer inligting oor watter soort toets data wat jy wil, watter formaat, en vir watter tipe programme?

Ek weet nie wat jou teiken platform is, maar as jy die ontwikkeling is teen 'n MSSQL databasis check Visual Studio vir databasis Professionals . Dit het 'n baie cool funksie waar dit data vir jou skedule met behulp van 'n data plan wat jy kan definieer kan genereer.

Redgate het ook 'n datageneration instrument, maar ek het nie gebruik nie.

Die voordeel is dat jy 'n data generasie plan kan skep en gebruik dit om jou databasis met 'n steeds, groot hoeveelhede data wat gebruik kan word ingestel om spesifieke areas van jou skedule te toets vul.

Jy kan ook te kyk na theinfo deur Aaron Swartz.

Van die webwerf

  

Dit is 'n webwerf vir 'n groot datastelle en   die mense wat hulle liefhet, die skrapers   en crawlers wat hulle die versamel   akademici en geeks wat hulle verwerk,   die ontwerpers en kunstenaars wat   visualiseer hulle. Dit is 'n plek waar   hulle kan tips en truuks uit te ruil,   ontwikkel en gereedskap saam te deel, en   begin om hul besondere integreer   projekte.

scroll top