与查找和替换正则表达式援助

https://stackoverflow.com/questions/1524251

19-09-2019
|

题

我有一个文本文件，并且每行具有以下形式：

TAB WORD TAB的PoS TAB FREQ＃

Word    PoS Freq
the Det 61847
of  Prep    29391
and Conj    26817
a   Det 21626
in  Prep    18214
to  Inf 16284
it  Pron    10875
is  Verb    9982
to  Prep    9343
was Verb    9236
I   Pron    8875
for Prep    8412
that    Conj    7308
you Pron    6954

请问你一个正则表达式向导好心帮助我从文件隔离的话？我会做一个查找和替换TextPad，希望，这将是。多查找并替换的罚款。一两件事：请注意，搜索“动词”也会转起来“动词”的演讲中不只是部分的话，那么要小心。最后，我想，每行1个字来结束。

太感谢了！

解决方案

我认为Microsoft Excel中可以帮助你更好......

只要复制Excel的全部文本，它就会被格式化为表，然后继续前进，选择合适的栏目细胞的话，最终将其复制在记事本。

我打赌这是最简单的路径。

如果万一Excel存储在单个列中的所有值，在一个单独的列通过提取字：

=修剪（LEFT（C1，maxchar））

其他提示

您可以只使用awk删除的第一列，如在

awk '{print $1}' /path/to/filename

通过使用跳过第一线

awk 'NR!=1 {print $1}' /path/to/filename

有没有真正的任何需要使用正则表达式这一点。例如，可以使用cut：

cut -f1 <inputfile

像\s*([a-zA-z]+)\s*([a-zA-z]+)东西将返回字和POS为组。然后，您可以在REPLACE语句为$ 1，你想要$ 2的输出使用它们。

如果您只想WORD部分你只可以在更换使用$ 1

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow