문제

영어 텍스트에 대한 통계를 생성하고 있으며 "A"및 "The"와 같은 흥미롭지 않은 단어를 건너 뛰고 싶습니다.

  • 이 흥미롭지 않은 단어의 일부 목록을 어디에서 찾을 수 있습니까?
  • 이 단어의 목록은 영어로 가장 자주 사용되는 단어 목록과 동일합니까?

업데이트 : 이것들은 "단어 중지"라고 불리며 "단어를 건너 뛰기"라고 불리는 것입니다.

도움이 되었습니까?

해결책

Google에 넣을 마법 단어는 "중지 단어"입니다. 이것은 나타납니다 합리적인 목록.

MySQL도 있습니다 내장 된 중지 단어 목록, 그러나 이것은 내 취향에 너무 포괄적입니다. 예를 들어, 대학 도서관에서 "제 3 세계"의 "세 번째"가 중지 단어로 간주 되었기 때문에 문제가있었습니다.

다른 팁

이것들은 호출됩니다 단어 중지, 이것을 확인하십시오 견본

당신이 일하는 영어의 하위 도메인에 따라, 당신은 자신의 스톱 단어 목록을 컴파일하고 싶을 수 있습니다. 일부 일반적인 중지 단어는 도메인에서 의미가있을 수 있습니다. 예를 들어 "is"라는 단어는 실제로 가능합니다 일부 도메인의 약어/약어. 반대로, 일부 도메인 특정 단어를 무시하고 싶을 수도 있습니다. 응용 프로그램에 따라 일반 영어 영역에서 무시하고 싶지 않을 수도 있습니다. 예를 들어 병원 보고서의 코퍼스를 분석하는 경우 모든 보고서에서 발견 될 수있는 '역사'및 '증상'과 같은 단어를 무시하고 유용하지 않을 수 있습니다 (일반 바닐라 반전 인덱스 관점에서).

그렇지 않으면 Google에서 반환 한 목록은 괜찮습니다. 포터 스템머 이것을 사용합니다 그리고 Lucene Seach Engine 구현 이것을 사용합니다.

대형 TXT Corpora에서 단어 주파수에 대한 통계를 받으십시오. 주파수> 일부 숫자로 모든 단어를 무시하십시오.

독일어의 스톱워드 목록을 사용했다고 생각합니다. 여기 얼마 전에 Lucene.net과 함께 검색 응용 프로그램을 구축했을 때. 이 사이트에는 영어 목록도 포함되어 있으며 사이트의 목록은 Lucene 프로젝트가 기본값으로 사용하는 목록입니다.

일반적 으로이 단어는 주파수가 가장 높은 문서에 나타납니다. 글로벌 단어 목록이 있다고 가정합니다.

{ Word Count }

단어 목록을 사용하면 가장 높은 카운트에서 가장 낮은 수에서 가장 낮은 단어로 단어를 주문하면 역 으로그 함수 인 그래프 (y axis) 및 Word (x Axis)가 있습니다. 왼쪽에서, "중지 단어"의 정지 지점은 가장 높은 첫 번째 파생물이 존재하는 곳에있을 것입니다.

이 솔루션은 사전 시도보다 낫습니다.

  • 이 솔루션은 언어로 구속되지 않는 보편적 인 접근법입니다.
  • 이 시도는 "단어 중지"로 간주되는 단어를 배웁니다.
  • 이 시도는 매우 유사한 컬렉션에 대한 더 나은 결과를 생성하고 컬렉션의 항목에 대한 고유 한 단어 목록을 생성합니다.
  • 중지 단어는 나중에 다시 계산할 수 있습니다 (이것은 캐싱이있을 수 있으며 중지 단어가 계산 될 때부터 중지 단어가 변경 될 수 있다는 통계적 결정이있을 수 있습니다).
  • 이것은 또한 시간 기반 또는 비공식 단어 및 이름 (예 : 속어 등 또는 회사 이름을 헤더로 한 문서가있는 경우)을 제거 할 수 있습니다.

사전 시도가 더 좋습니다.

  • 조회 시간이 훨씬 빠릅니다
  • 결과가 사전에 나타납니다
  • 간단 해
  • 다른 사람들은 중지 단어를 생각해 냈습니다.
라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top