検索と置換正規表現の支援
-
19-09-2019 - |
質問
私は、テキストファイルを持ち、各行の形式は次のとおりです。
TAB WORD TABのPoS TABのFREQの#
Word PoS Freq
the Det 61847
of Prep 29391
and Conj 26817
a Det 21626
in Prep 18214
to Inf 16284
it Pron 10875
is Verb 9982
to Prep 9343
was Verb 9236
I Pron 8875
for Prep 8412
that Conj 7308
you Pron 6954
あなたの正規表現のウィザードの1は親切ファイルから単語を単離することに私を助けるだろうか?私はうまくいけば、TextPadの中で検索と置換をやる、それはそれになります。複数の検索と置き換えで結構です。一つのこと:「動詞」を検索することも、「動詞」、音声のない部分だけのWORDを上げるので、気をつけだろうということに気づきます。最後に、私は、行ごとに1つの単語で終わりにしたい。
本当にありがとうございました!
解決
私は、Microsoft Excelがあなたを助けることができると思うより良い...
は、エクセル上のテキスト全体をコピーし、最終的にはメモ帳にコピーし、その後、先に行くと、単語のための適切な列のセルを選択し、テーブルとしてフォーマットされます。
私は、これが最も簡単なパスで賭けます。
の場合において、単一の列に格納したすべての値が優れている場合、別の列にすることにより単語を抽出
=トリム(LEFT(C1、maxchar個))
他のヒント
あなただけの
のように、最初の列を削除するにはawk
を使用することができます
awk '{print $1}' /path/to/filename
を使用して最初の行をスキップ
awk 'NR!=1 {print $1}' /path/to/filename
このために正規表現を使用する必要は本当にありません。たとえば、cut
を使用することができます:
cut -f1 <inputfile
\s*([a-zA-z]+)\s*([a-zA-z]+)
のようなものは、グループとしての単語とPOSを返します。あなたが好きなあなたは、出力に$ 1と$ 2として置き換える文の中でそれらを使用することができます。
あなたが唯一のWORDの部分はあなただけ置き換える$ 1を使用することができますしたい場合。
所属していません StackOverflow