検索と置換正規表現の支援

https://stackoverflow.com/questions/1524251

19-09-2019
|

質問

私は、テキストファイルを持ち、各行の形式は次のとおりです。

TAB WORD TABのPoS TABのFREQの＃

Word    PoS Freq
the Det 61847
of  Prep    29391
and Conj    26817
a   Det 21626
in  Prep    18214
to  Inf 16284
it  Pron    10875
is  Verb    9982
to  Prep    9343
was Verb    9236
I   Pron    8875
for Prep    8412
that    Conj    7308
you Pron    6954

あなたの正規表現のウィザードの1は親切ファイルから単語を単離することに私を助けるだろうか？私はうまくいけば、TextPadの中で検索と置換をやる、それはそれになります。複数の検索と置き換えで結構です。一つのこと：「動詞」を検索することも、「動詞」、音声のない部分だけのWORDを上げるので、気をつけだろうということに気づきます。最後に、私は、行ごとに1つの単語で終わりにしたい。

本当にありがとうございました！

解決

私は、Microsoft Excelがあなたを助けることができると思うより良い...

は、エクセル上のテキスト全体をコピーし、最終的にはメモ帳にコピーし、その後、先に行くと、単語のための適切な列のセルを選択し、テーブルとしてフォーマットされます。

私は、これが最も簡単なパスで賭けます。

の場合において、単一の列に格納したすべての値が優れている場合、別の列にすることにより単語を抽出

=トリム（LEFT（C1、maxchar個））

他のヒント

あなただけの

のように、最初の列を削除するにはawkを使用することができます

awk '{print $1}' /path/to/filename

を使用して最初の行をスキップ

awk 'NR!=1 {print $1}' /path/to/filename

このために正規表現を使用する必要は本当にありません。たとえば、cutを使用することができます：

cut -f1 <inputfile

\s*([a-zA-z]+)\s*([a-zA-z]+)のようなものは、グループとしての単語とPOSを返します。あなたが好きなあなたは、出力に$ 1と$ 2として置き換える文の中でそれらを使用することができます。

あなたが唯一のWORDの部分はあなただけ置き換える$ 1を使用することができますしたい場合。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow