문제

100GB의 문서가 있습니다. 나는 그것을 특성화하고 어떤 주제가 널리 퍼져 있는지에 대한 일반적인 의미를 얻고 싶습니다.

문서는 평범한 텍스트입니다.

Google 데스크탑과 같은 도구를 검색하기 위해 도구를 사용하는 것을 고려했지만 검색 할 내용을 검색 해야하는 것이 너무 큽니다. 전체 세트를 다루기에 충분한 검색을 수행하기에 너무 시간이 많이 걸립니다.

큰 문서 데이터 세트를 클러스터링 할 수있는 무료 도구가 있습니까?

이러한 클러스터를 시각화 할 수있는 도구가 있습니까?

도움이 되었습니까?

해결책

기본 NLP 접근법의 경우 각 문서를 단어 주파수를 기반으로 벡터로 표시 한 다음 베이지안 또는 기타 방법 (SVM, K-MEANS 등)을 사용하여 문서 벡터를 클러스터링 할 수 있습니다.

관련 답변은 이것을 참조하십시오 다소 비슷한 질문입니다.

다른 팁

자연어 처리를 수행하는 도구를 살펴 봐야합니다. 기본적으로 문서의 언어를 통계 도구 사용 (통계 도구 사용)을 상당히 결정할 수 있습니다 (참조 http://en.wikipedia.org/wiki/n-gram) 및 담론의 영역 (참조 http://en.wikipedia.org/wiki/support_vector_machine). Wikipedia에서 시작하면 일부 도구를 사용할 수 있어야합니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top