r의 상관 클러스터링

https://stackoverflow.com/questions/1468962

16-09-2019
|

문제

사용하고 싶습니다 correlation clustering 그리고 나는 생각한다 R 시작하기에 좋은 곳입니다.

데이터를 제시 할 수 있습니다 R 크고 희소 한 벡터 세트 또는 사전 계산 된 비 유사성 매트릭스가있는 테이블로서.

내 질문은 다음과 같습니다.

기존이 있습니까? R 이것을 a로 바꾸는 기능 hierarchical cluster ~와 함께 agnes 그것은 사용합니다 correlation clustering?
(간단하게)를 구현해야합니까? correlation clustering손으로 기능하는 경우, 그렇다면 어떻게 잘 플레이하게 만드는가 agnes?

해결책

나는이 주제에 대해 거의 알지 못하지만 당신을 방향으로 지적하기 위해 :

클러스터 패키지를 보셨습니까? 아주 좋은 문서가 있습니다. 특히, 도움 (Agnes)을 확인하여 몇 가지 제안을하십시오. 마틴 매클 (R Core Team의 멤버)는 패키지를 만들었고 이전에 스택 오버 플로우 토론에 기여 했으므로 여기에 답을 제공하기를 바랍니다.
hclust () 함수는 통계 패키지의 일부입니다. 사실, 나는 hclust ()와 agnes ()를 병합 할 계획이 있다고 생각합니다.
당신은 또한 찾을 수 있습니다 바이오 컨덕터 프로젝트 의이 페이지가 도움이됩니다.
그렇지 않으면 크랜에서 다른 패키지를보고 운이 좋을 수 있습니다. 클러스터링, 자연어 처리 또는 기계 학습 견해.

다른 팁

표준 접근법은 관련된 접근법입니다 cor(), hclust() 그리고 plot.hclust(). 멋진 Gplots 패키지에서 HeatMap.2를 적극 권장합니다.

사용하기 쉽습니다 agnes 기능 무리 비 유사성 매트릭스가있는 패키지. "diss"인수를 true로 설정하십시오.

r 외부의 비 유사성 행렬을 쉽게 계산할 수 있다면, 그 방법이 될 수 있습니다. 그렇지 않으면 만 사용할 수 있습니다 cor R에서의 함수 유사성 행렬을 생성하기 위해 (1부터 빼면 비 유사성 행렬을 얻을 수 있음).

나는 갔었다 http://www.rseek.org/ Agnes 알고리즘을 입력하고 CRAN의 클러스터 패키지에 기능 Agnes에 대한 다음 기능 세부 사항이 있음을 발견했습니다.

세부

아그네스는 Kaufman and Rousseeuw (1990)의 5 장에 완전히 설명되어 있습니다. Hclust와 같은 다른 응집 군집화 방법과 비교하여 Agnes는 다음과 같은 특징을 갖습니다. (a) 발견 된 클러스터링 구조의 양을 측정하는 응집 계수 (Agnes.object 참조)를 산출합니다. (b) 일반적인 트리와는 별도로 새로운 그래픽 디스플레이 인 배너도 제공합니다 (Plot.agnes 참조).

Agnes-Algorithm은 클러스터링의 계층 구조를 구성합니다. 처음에는 각 관측치 자체가 작은 클러스터입니다. 클러스터는 모든 관측치가 포함 된 하나의 큰 클러스터 만 남아있을 때까지 병합됩니다. 각 단계에서 두 개의 가장 가까운 클러스터가 결합되어 하나의 더 큰 클러스터를 형성합니다.

메소드 = "평균"의 경우 두 클러스터 사이의 거리는 한 클러스터의 점과 다른 클러스터의 점 사이의 비 유사성의 평균입니다. 메소드 = "단일"에서, 우리는 첫 번째 클러스터의 한 지점과 두 번째 클러스터의 점 사이의 가장 작은 비 유사성을 사용합니다 (가장 가까운 이웃 방법). Method = "완료"인 경우 첫 번째 클러스터의 한 점과 두 번째 클러스터의 점 사이의 가장 큰 비 유사성을 사용합니다 (가장 먼 이웃 방법).

클러스터링은 꽤 큰 주제이며 R에 대한 많은 패키지를 찾을 수 있습니다. 속성과 공변량이 모두 있으면 클러스터링을 안수와 결합하면 때때로 더 많은 통찰력을 얻을 수 있습니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow