Regex 찾기 및 교체에 대한 지원
-
19-09-2019 - |
문제
텍스트 파일이 있고 각 줄은 양식입니다.
탭 단어 탭 POS 탭 freq#
Word PoS Freq
the Det 61847
of Prep 29391
and Conj 26817
a Det 21626
in Prep 18214
to Inf 16284
it Pron 10875
is Verb 9982
to Prep 9343
was Verb 9236
I Pron 8875
for Prep 8412
that Conj 7308
you Pron 6954
REGEX Wizards 중 한 명이 파일에서 단어를 분리하는 데 친절하게 도와 주시겠습니까? 나는 텍스트 패드에서 찾아서 교체 할 것입니다. 다중 찾기 및 대체는 괜찮습니다. 한 가지 : "동사"를 찾는 것은 언어의 일부뿐만 아니라 "동사"라는 단어가 나타날 것이므로 조심하십시오. 결국 나는 줄 당 1 단어로 끝나고 싶습니다.
정말 고마워!
해결책
Microsoft Excel이 당신을 더 잘 도울 수 있다고 생각합니다 ...
Excel의 전체 텍스트를 복사하면 테이블로 포맷 된 다음 단어에 대한 적절한 열 셀을 선택하고 마침내 메모장에서 복사하십시오.
나는 이것이 가장 쉬운 길이라고 확신합니다.
Excel의 경우 모든 값을 단일 열에 저장하는 경우 별도 열에서 단어를 추출합니다.
= 트림 (왼쪽 (C1, Maxchar))
다른 팁
당신은 그냥 사용할 수 있습니다 awk
첫 번째 열을 제거합니다
awk '{print $1}' /path/to/filename
사용하여 첫 번째 줄을 건너 뛰십시오
awk 'NR!=1 {print $1}' /path/to/filename
이를 위해 정규 표현을 사용할 필요는 없습니다. 예를 들어, 사용할 수 있습니다 cut
:
cut -f1 <inputfile
같은 것 \s*([a-zA-z]+)\s*([a-zA-z]+)
단어와 pos를 그룹으로 반환합니다. 그런 다음 교체 명세서에서 원하는대로 출력하기 위해 $ 1 및 $ 2로 사용할 수 있습니다.
단어 부품 만 원한다면 교체에서 $ 1 만 사용할 수 있습니다.
제휴하지 않습니다 StackOverflow