質問

私は、テキストファイルを持ち、各行の形式は次のとおりです。

TAB WORD TABのPoS TABのFREQの#

Word    PoS Freq
the Det 61847
of  Prep    29391
and Conj    26817
a   Det 21626
in  Prep    18214
to  Inf 16284
it  Pron    10875
is  Verb    9982
to  Prep    9343
was Verb    9236
I   Pron    8875
for Prep    8412
that    Conj    7308
you Pron    6954

あなたの正規表現のウィザードの1は親切ファイルから単語を単離することに私を助けるだろうか?私はうまくいけば、TextPadの中で検索と置換をやる、それはそれになります。複数の検索と置き換えで結構です。一つのこと:「動詞」を検索することも、「動詞」、音声のない部分だけのWORDを上げるので、気をつけだろうということに気づきます。最後に、私は、行ごとに1つの単語で終わりにしたい。

本当にありがとうございました!

役に立ちましたか?

解決

私は、Microsoft Excelがあなたを助けることができると思うより良い...

は、エクセル上のテキスト全体をコピーし、最終的にはメモ帳にコピーし、その後、先に行くと、単語のための適切な列のセルを選択し、テーブルとしてフォーマットされます。

私は、これが最も簡単なパスで賭けます。

の場合において、単一の列に格納したすべての値が優れている場合、別の列にすることにより単語を抽出

=トリム(LEFT(C1、maxchar個))

他のヒント

あなただけの

のように、最初の列を削除するにはawkを使用することができます
awk '{print $1}' /path/to/filename

を使用して最初の行をスキップ
awk 'NR!=1 {print $1}' /path/to/filename

このために正規表現を使用する必要は本当にありません。たとえば、cutを使用することができます:

cut -f1 <inputfile

\s*([a-zA-z]+)\s*([a-zA-z]+)のようなものは、グループとしての単語とPOSを返します。あなたが好きなあなたは、出力に$ 1と$ 2として置き換える文の中でそれらを使用することができます。

あなたが唯一のWORDの部分はあなただけ置き換える$ 1を使用することができますしたい場合。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top