我有一个巨大(4,5 GB)的CSV文件。我需要执行基本剪切和粘贴,替换某些列的操作。.数据井井有条。.唯一的问题是我不能用Excel玩它,因为尺寸(2000行,550000列)。

这是数据的某些部分:

ID,Affection,Sex,DRB1_1,DRB1_2,SENum,SEStatus,AntiCCP,RFUW,rs3094315,rs12562034,rs3934834,rs9442372,rs3737728

D0024949,0,F,0101,0401,SS,yes,?,?,A_A,A_A,G_G,G_G
D0024302,0,F,0101,7,SN,yes,?,?,A_A,G_G,A_G,?_?
D0023151,0,F,0101,11,SN,yes,?,?,A_A,G_G,G_G,G_G

我需要删除第四,第五,第6,第7,8和9列;我需要从第10列开始找到每个_字符,然后用Space()字符替换它;我需要更换每个人吗?零(0);我需要用一个选项卡替换每个逗号;我需要删除第一行(具有列的名称;我需要用1替换为1,每1用2和每列以2列中的0替换为2;我需要用2,m用1和0代替0第三列;

因此,在结果文件中,输出读取:

D0024949 1 2 A A A A G G G G

D0024302 1 2 A A G G A G 0 0

D0023151 1 2 A A G G G G G G

(输入和输出都应读取每行的一行,ne exture空白行)是否有一种记忆有效的方法来使用Java(我需要一个代码来执行此操作)或一个可用的工具来播放此大数据,以便我可以轻松地应用Excel功能。

没有正确的解决方案

其他提示

您需要两件事:
- 正则表达式的知识(又称正则言论)
- PowerGrep

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top