Word Splitting 통계적 접근 방식

https://stackoverflow.com//questions/9665501

12-12-2019
|

문제

Word Splitting 문제를 해결하고 싶습니다 (공백이없는 긴 문자열에서 단어 구문 분석). Examles의 경우 somelongword에서 [some, long, word]로 단어 추출을 원합니다.

우리는 사전과의 역동적 인 접근 방식으로 이것을 달성 할 수 있지만, 우리가 만난 또 다른 문제는 모호성을 파싱하는 것입니다.나는orcore=> or core 또는 orc ore (우리는 문구 의미 또는 연설의 일부를 고려하지 않음).그래서 나는 통계적 또는 ml 접근법의 사용에 대해 생각합니다.

기차 세트가있는 순진한 베이와 비터 비 알고리즘은 이것을 해결할 수 있음을 발견했습니다.이러한 알고리즘의 응용 프로그램에 대한 정보를 Word Splitting Problems에 대한 정보를 가리킬 수 있습니까?

UPD : Peter Norvig의 코드 의 일부 조언을 사용하여 Clojure 에이 메소드를 구현했습니다.

해결책

"Nofollow "> 슬라이드 쇼 피터 노르비그와 Sebastian Thurn은 좋은 지점입니다.시작한다.그것은 Google에서 만든 실제 작업을 제시합니다.

다른 팁

이 문제는 단어 경계 (예 : 중국어, 태국)를 명시 적으로 인코딩하지 않는 많은 아시아 언어에서 단어 분할에 전적으로 이에이션되어 있습니다. 문제에 대한 접근 방식에 대한 배경을 원한다면 현재 중국어 단어 분할 접근 방식에 대해 Google 학자를 볼 것을 권장합니다.

몇 가지 오래된 접근 방식을 살펴볼 수 있습니다. Sproat, Richard 및 Thomas Emerson. 2003. 첫 번째 국제 중국어 단어 분할 Bakeoff (http://www.sighan.org/bakeoff2003/paper.pdf)

즉시 만든 솔루션을 원한다면 LingPipe의 튜토리얼 (http://alias-i.com/lingpipe/demos/tutorial/chinesetokens/read-me.html)을 추천합니다. 좋은 결과를 가진 영어 텍스트에 사용하지 않았습니다. 나는 뉴스 스크린 텍스트의 2 백만 단어로 기본 인격 언어 모델을 훈련 시켰지만,이 태스크의 경우 상대적으로 정상적인 영어 텍스트의 코퍼스를 사용하여 합당한 성능을 얻을 수 있습니다.

그들은 후보 수정이 후보 수정이 입력과 동일하지만 삽입 된 공간과 동일한 후보 수정 시스템을 추천하기 위해 철자 수정 시스템을 사용했습니다. 그들의 철자 보정기는 Levenshtein 편집 거리를 기반으로합니다. 그들은 대체 및 전치를 거부하고 단일 공간에만 허용 삽입을 제한합니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow