Frage

Ich habe eine riesige (4,5 GB) CSV -Datei. Ich muss grundlegende Schnitt- und Einfügen durchführen und Vorgänge für einige Spalten ersetzen. Die Daten sind ziemlich gut organisiert. Das einzige Problem ist, dass ich nicht mit Excel mit ihm spielen kann, weil der Größe (2000 Zeilen, 550000 Säulen).

Hier ist ein Teil der Daten:

ID,Affection,Sex,DRB1_1,DRB1_2,SENum,SEStatus,AntiCCP,RFUW,rs3094315,rs12562034,rs3934834,rs9442372,rs3737728

D0024949,0,F,0101,0401,SS,yes,?,?,A_A,A_A,G_G,G_G
D0024302,0,F,0101,7,SN,yes,?,?,A_A,G_G,A_G,?_?
D0023151,0,F,0101,11,SN,yes,?,?,A_A,G_G,G_G,G_G

Ich muss den 4., 5., 6., 7., 8. und 9. Säulen entfernen; Ich muss jedes _ -Zeichen ab Spalte 10 finden und es durch ein Space () -Charnia ersetzen. Ich muss jeden ersetzen? mit null (0); Ich muss jedes Komma durch eine Registerkarte ersetzen. Ich muss die erste Zeile entfernen (das hat Spaltennamen; ich muss alle 0 durch 1, alle 1 durch 2 und jew 3. Säule;

so dass in der resultierenden Datei die Ausgabe lautet:

D0024949 1 2 A A A A G G G G

D0024302 1 2 A A G G A G 0 0

D0023151 1 2 A A G G G G G G

(Sowohl Eingabe als auch Ausgabe sollten eine Zeile pro Zeile lesen, ne extra leer Zeile) Gibt es eine Speicher -effizient Ich kann problemlos Excel -Funktionen anwenden.

Keine korrekte Lösung

Andere Tipps

Sie brauchen zwei Dinge:
- Kenntnis der regulären Ausdrücke (auch bekannt als Regex, Regexes)
- PowerGrep

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top