문제

내가 작업중 인 프로젝트를위한 좋은 줄기 알고리즘이 필요합니다. 포터 스템머를보고 있다고 제안되었습니다. Porter Stemmer의 페이지를 확인했을 때 나는 그것이 "Snowball"Stemmer에 찬성하여 지금 더 이상 사용되지 않는다는 것을 알았습니다.

나는 좋은 stemmer가 필요하지만, 나는 내 자신의 구현 (또는 최적화)에 상당한 시간을 할애 할 수 없습니다. 자유롭게 사용할 수있는 가장 큰 "선반 오프"는 무엇입니까? 합리적인 가격으로 사용할 수있는 비없는 stemmers가 있습니까? 아니면 눈덩이 스티머가 내 최선의 방법입니까?

도움이 되었습니까?

해결책

그만큼 porter2 Stemmer는 내가 함께 가기로 결정한 것입니다. Porter Stemmer가 표준 인 것처럼 보였지만 저자가 페이지를 찾았을 때 그는 "Snowball (Porter2)"Stemmer를 추천했습니다. 이 페이지에는 C 포트 링크가 있습니다.

다른 팁

실제로 적용하는 방법에 달려 있습니다. 자연어 툴킷 (http://nltk.sourceforge.net)에는 대부분의 응용 프로그램을 처리 할 수있는 많은 STEMMERS가 구현되어 있습니다. 나는 모피 스템머를 선호합니다.

물론, 파이썬으로 사용할 수 있으므로 다른 언어로 작업하는 경우 항상 코드를 살펴보고 알고리즘을 수집하고 선택한 언어로 전송할 수 있습니다. 파이썬은 읽을 수 있습니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top