Domanda

Ho un enorme (4,5 GB) file CSV .. ho bisogno per il taglia di base e incollare, sostituire le operazioni per alcune colonne .. i dati sono abbastanza ben organizzato .. l'unico problema è che non posso giocare con lui con Excel a causa delle dimensioni (2000 righe, 550000 colonne).

Questa è una parte dei dati:

ID,Affection,Sex,DRB1_1,DRB1_2,SENum,SEStatus,AntiCCP,RFUW,rs3094315,rs12562034,rs3934834,rs9442372,rs3737728

D0024949,0,F,0101,0401,SS,yes,?,?,A_A,A_A,G_G,G_G
D0024302,0,F,0101,7,SN,yes,?,?,A_A,G_G,A_G,?_?
D0023151,0,F,0101,11,SN,yes,?,?,A_A,G_G,G_G,G_G

Ho bisogno di togliere 4 °, 5 °, 6 °, 7 °, 8 ° e 9 ° colonne; Ho bisogno di trovare ogni personaggio _ dalla colonna 10 in poi e sostituirlo con un carattere di spazio (); Ho bisogno di sostituire ogni? con zero (0); Ho bisogno di sostituire ogni virgola con una scheda; Ho bisogno di rimuovere prima fila (che ha nomi di colonna; Ho bisogno di sostituire ogni 0 con 1, ogni 1 con 2 e ogni? con 0 in 2a colonna; Ho bisogno di sostituire F con 2, M con 1 e? con 0 in 3 ° colonna;

in modo che nel file risultante l'output si legge:

D0024949 1 2 A A A A G G G G

D0024302 1 2 A A G G A G 0 0

D0023151 1 2 A A G G G G G G

(input e output dovrebbe leggere una riga per riga, ne riga vuota supplementare) C'è un modo efficiente di memoria di farlo con Java (e ho bisogno di un codice per farlo), o uno strumento utilizzabile per giocare con questi grandi quantità di dati in modo che posso applicare facilmente le funzionalità di Excel ..

Nessuna soluzione corretta

Altri suggerimenti

Hai bisogno di due cose:
- La conoscenza delle espressioni regolari (aka Regex, regex)
- PowerGrep

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top