与查找和替换正则表达式援助
-
19-09-2019 - |
题
我有一个文本文件,并且每行具有以下形式:
TAB WORD TAB的PoS TAB FREQ#
Word PoS Freq
the Det 61847
of Prep 29391
and Conj 26817
a Det 21626
in Prep 18214
to Inf 16284
it Pron 10875
is Verb 9982
to Prep 9343
was Verb 9236
I Pron 8875
for Prep 8412
that Conj 7308
you Pron 6954
请问你一个正则表达式向导好心帮助我从文件隔离的话?我会做一个查找和替换TextPad,希望,这将是。多查找并替换的罚款。一两件事:请注意,搜索“动词”也会转起来“动词”的演讲中不只是部分的话,那么要小心。最后,我想,每行1个字来结束。
太感谢了!
解决方案
我认为Microsoft Excel中可以帮助你更好......
只要复制Excel的全部文本,它就会被格式化为表,然后继续前进,选择合适的栏目细胞的话,最终将其复制在记事本。
我打赌这是最简单的路径。
如果万一Excel存储在单个列中的所有值,在一个单独的列通过提取字:
=修剪(LEFT(C1,maxchar))
其他提示
您可以只使用awk
删除的第一列,如在
awk '{print $1}' /path/to/filename
通过使用跳过第一线
awk 'NR!=1 {print $1}' /path/to/filename
有没有真正的任何需要使用正则表达式这一点。例如,可以使用cut
:
cut -f1 <inputfile
像\s*([a-zA-z]+)\s*([a-zA-z]+)
东西将返回字和POS为组。然后,您可以在REPLACE语句为$ 1,你想要$ 2的输出使用它们。
如果您只想WORD部分你只可以在更换使用$ 1
不隶属于 StackOverflow