기본 문장을 구성하는 일반적인 단어를위한 데이터 세트

https://stackoverflow.com//questions/10704858

13-12-2019
|

문제

"냉장고 자석"대화식을 만들고 사용자가 주위를 드래그 할 수있는 단어에 대한 유효한 데이터 세트를 파악하려고했습니다.

이 데이터 세트를 사용하고 있습니다.하지만 그 훌륭한 것은 아닙니다

http://en/en.wikipedia.org/wiki/most_common_words_in_english

와 아이디어가 더 유효한 단어 집합을 찾을 수있는

해결책

자신을 자신을 할 수있는 한 가지 방법은 텍스트의 코퍼스를 다운로드 한 다음 나타나는 각 단어의 수를 계산하는 스크립트를 실행하는 것입니다. 그런 다음 약간의 값을 선택하고 n (반올림)에 의해 모든 카운트를 나눕니다. 각 단어에 대해 각 분할 수에 대해 자석을 만듭니다. 마지막으로 원하는 자석 수를 기반으로 N 을 선택해야합니다.

이것은 자석의 분포가 단어 분포와 일치하는 이점이 있습니다. 예를 들어, "the"가 1000 번, "남자"320 번, "걷는"150 번, "건너 뛰는"2 번 n 을 100으로 선택하면 끝낼 것입니다. 10 "자석, 3"남자 ", 1"howns ", 0"건너 뜁니다.

Counts의 로그를 사용하여 왜곡을 줄이려고 할 수도 있습니다. 단어 배포판은 Zipfian 각각에 대한 수천 개의 "워크에 대한 자석이 끝날지도 모릅니다. ").

마지막으로,이 접근법에 대한 멋진 점은 해당 도메인에 대한 단어 자석을 설정하기 위해 특정 도메인에서 실행할 수 있다는 것입니다. 예를 들어, 뉴스 기사처럼 들리는 단어 자석을 만들고 싶다면 뉴스 기사의 코퍼스에서 실행하십시오. 동화를 좋아하는 단어 자석을 만들고 싶다면 동화의 코퍼스에서 그것을 실행하십시오.

정말로 멋진 것을 원한다면 tf-idf 해당 도메인을 대표 한 단어를 선택한 다음 공통 기능 단어로 믹스합니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow