뉴스 클러스터링

https://stackoverflow.com/questions/784602

16-09-2019
|

문제

Google News와 Techmeme은 어떻게 비슷한 뉴스 항목을 클러스터합니까? 이것을 달성하는 데 사용되는 잘 알고있는 알고리즘이 있습니까?

당신의 도움을 주셔서 감사합니다.

미리 감사드립니다.

해결책

컨텐츠를 기반으로 텍스트를 클러스터하는 상당히 일반적인 방법 중 하나는 사용하는 것입니다. 원칙 구성 요소 분석 단어 벡터 (가능한 각 단어가 1 차원과 각 방향의 크기를 나타내는 N 치수의 벡터, 각 벡터에 대한 각 방향의 크기는 해당 기사에서 단어의 숫자 발생)에 이어 K와 같은 간단한 클러스터링이 뒤 따릅니다. -수단.

다른 팁

알고리즘 기반은 응집 적 클러스터링 또는 유사한 것입니다. 그러나 그 위에는 많은 휴리스틱이 있습니다. 예를 들어, 벡터 공간은 반드시 단어와 문구 (단어 n 그램)로 구성됩니다. 엄격한 기간에 검색을 제한하는 것도 매우 중요합니다. 그리고 이름을 식별하고 제목과 단락 제목의 무게를 높이는 것도 핵심 부분입니다.

접선 관련 메모에. 거의 약한 기사를 찾는 데 관심이 있다면 설명 된 접근 방식과 같은 많은 접근 방식이 있습니다. 여기

몇 가지 방법이 있습니다. 표준은 "Word of Word"분석 (가중 TF-IDF)을 수행 한 다음 코사인 유사성과 K- 평균을 수행하는 것입니다.

이 백서에서 성공했습니다. http://ieeexplore.ieee.org/xpl/articledetails.jsp?reload=true&arnumber=4289851

그것에 대한 가장 큰 장점은 1) 증분이라는 것입니다. 뉴스에 좋습니다. 표준 k- 평균의 경우 전체 데이터 세트가 있어야합니다. 뉴스를 사용하면 일반적으로 시간이 지남에 따라 기사가 도착합니다. 증분 알고리즘은이를 해결합니다. 2) 문구 기반입니다. 따라서 그것은 단지 단어가 아닌 문구에 의존합니다.

최근에는 단어 대신 의미 론적 의미를 사용하는 기술이 있습니다 (예 : 각 기사에서 Wikipedia 또는 DBPedia 개념을 추출하고 단어 대신 사용).

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow