Regex 찾기 및 교체에 대한 지원

https://stackoverflow.com/questions/1524251

19-09-2019
|

문제

텍스트 파일이 있고 각 줄은 양식입니다.

탭 단어 탭 POS 탭 freq#

Word    PoS Freq
the Det 61847
of  Prep    29391
and Conj    26817
a   Det 21626
in  Prep    18214
to  Inf 16284
it  Pron    10875
is  Verb    9982
to  Prep    9343
was Verb    9236
I   Pron    8875
for Prep    8412
that    Conj    7308
you Pron    6954

REGEX Wizards 중 한 명이 파일에서 단어를 분리하는 데 친절하게 도와 주시겠습니까? 나는 텍스트 패드에서 찾아서 교체 할 것입니다. 다중 찾기 및 대체는 괜찮습니다. 한 가지 : "동사"를 찾는 것은 언어의 일부뿐만 아니라 "동사"라는 단어가 나타날 것이므로 조심하십시오. 결국 나는 줄 당 1 단어로 끝나고 싶습니다.

정말 고마워!

해결책

Microsoft Excel이 당신을 더 잘 도울 수 있다고 생각합니다 ...

Excel의 전체 텍스트를 복사하면 테이블로 포맷 된 다음 단어에 대한 적절한 열 셀을 선택하고 마침내 메모장에서 복사하십시오.

나는 이것이 가장 쉬운 길이라고 확신합니다.

Excel의 경우 모든 값을 단일 열에 저장하는 경우 별도 열에서 단어를 추출합니다.

= 트림 (왼쪽 (C1, Maxchar))

다른 팁

당신은 그냥 사용할 수 있습니다 awk 첫 번째 열을 제거합니다

awk '{print $1}' /path/to/filename

사용하여 첫 번째 줄을 건너 뛰십시오

awk 'NR!=1 {print $1}' /path/to/filename

이를 위해 정규 표현을 사용할 필요는 없습니다. 예를 들어, 사용할 수 있습니다 cut:

cut -f1 <inputfile

같은 것 \s*([a-zA-z]+)\s*([a-zA-z]+) 단어와 pos를 그룹으로 반환합니다. 그런 다음 교체 명세서에서 원하는대로 출력하기 위해 $ 1 및 $ 2로 사용할 수 있습니다.

단어 부품 만 원한다면 교체에서 $ 1 만 사용할 수 있습니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow