我有一个文本文件,并且每行具有以下形式:

TAB WORD TAB的PoS TAB FREQ#

Word    PoS Freq
the Det 61847
of  Prep    29391
and Conj    26817
a   Det 21626
in  Prep    18214
to  Inf 16284
it  Pron    10875
is  Verb    9982
to  Prep    9343
was Verb    9236
I   Pron    8875
for Prep    8412
that    Conj    7308
you Pron    6954

请问你一个正则表达式向导好心帮助我从文件隔离的话?我会做一个查找和替换TextPad,希望,这将是。多查找并替换的罚款。一两件事:请注意,搜索“动词”也会转起来“动词”的演讲中不只是部分的话,那么要小心。最后,我想,每行1个字来结束。

太感谢了!

有帮助吗?

解决方案

我认为Microsoft Excel中可以帮助你更好......

只要复制Excel的全部文本,它就会被格式化为表,然后继续前进,选择合适的栏目细胞的话,最终将其复制在记事本。

我打赌这是最简单的路径。

如果万一Excel存储在单个列中的所有值,在一个单独的列通过提取字:

=修剪(LEFT(C1,maxchar))

其他提示

您可以只使用awk删除的第一列,如在

awk '{print $1}' /path/to/filename

通过使用跳过第一线

awk 'NR!=1 {print $1}' /path/to/filename

有没有真正的任何需要使用正则表达式这一点。例如,可以使用cut

cut -f1 <inputfile

\s*([a-zA-z]+)\s*([a-zA-z]+)东西将返回字和POS为组。然后,您可以在REPLACE语句为$ 1,你想要$ 2的输出使用它们。

如果您只想WORD部分你只可以在更换使用$ 1

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top