Question

J'ai un énorme (4,5 Go) fichier csv .. Je dois effectuer des coupe de base et coller, remplacer les opérations pour certaines colonnes .. les données sont assez bien organisé .. le seul problème est que je ne peux pas jouer avec avec Excel en raison de la taille (2000 lignes, 550000 colonnes).

Voici une partie des données:

ID,Affection,Sex,DRB1_1,DRB1_2,SENum,SEStatus,AntiCCP,RFUW,rs3094315,rs12562034,rs3934834,rs9442372,rs3737728

D0024949,0,F,0101,0401,SS,yes,?,?,A_A,A_A,G_G,G_G
D0024302,0,F,0101,7,SN,yes,?,?,A_A,G_G,A_G,?_?
D0023151,0,F,0101,11,SN,yes,?,?,A_A,G_G,G_G,G_G

Je dois enlever 4e, 5e, 6e, 7e, 8e et 9e colonnes; Je dois trouver tous les _ caractère de la colonne 10 partir et le remplacer par un espace (); Je dois remplacer tous? avec zéro (0); Je dois remplacer chaque virgule avec un onglet; Je dois enlever la première rangée (qui a les noms de colonnes; Je dois remplacer tous les 0 à 1, tous les 1 à 2 et tous? avec 0 en deuxième colonne; Je dois remplacer F avec 2, M avec 1 et? avec 0 à troisième colonne;

de sorte que dans le fichier résultant de la sortie se lit comme suit:

D0024949 1 2 A A A A G G G G

D0024302 1 2 A A G G A G 0 0

D0023151 1 2 A A G G G G G G

(à la fois les entrées et sorties doivent lire une ligne par ligne, une ligne de découpe ne sus) Y at-il une mémoire de façon efficace de le faire avec java (et je besoin d'un code pour le faire) ou un outil utilisable pour jouer avec ce gros volumes de données afin que je puisse facilement appliquer la fonctionnalité Excel ..

Pas de solution correcte

Autres conseils

You need two things:
- Knowledge of Regular Expressions (aka Regex, Regexes)
- PowerGrep

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top