데이터 세트의 그룹 감지

https://stackoverflow.com/questions/2052321

20-09-2019
|

문제

여기에 표시된 것과 같은 데이터 포인트 그룹을 가정합니다 (이 그래프는 내 문제에만 국한되지 않고 적절한 예로 사용).

산란 그래프를 시각적으로 검사하면 데이터 포인트가 두 개의 '그룹'을 형성하는 것이 분명합니다.

알고리즘을 찾고 있습니다.

두 가지 이상의 차원의 데이터 세트로 시작하십시오.
사전 지식없이 데이터 세트에서 해당 그룹을 감지하여 몇 명 (또는 경우)에 대한 지식이 있습니다.
그룹이 감지되면 새로운 샘플 포인트가 그룹에 맞는 것처럼 보이면 그룹의 모델을 '물어 봅니다.

해결책

많은 선택이 있지만, 새로운 데이터 포인트가 특정 혼합물에 속할 확률에 관심이 있다면, 최대 가능성 또는 베이에 의해 추정 된 가우스 혼합물 모델링과 같은 확률 론적 접근법을 사용합니다.

최대 가능성 추정 Mixtures 모델은 MATLAB에서 구현됩니다.

구성 요소 수를 알 수 없다는 요구 사항은 모델을 더욱 복잡하게 만듭니다. 지배적 인 확률 론적 접근법은 일부 베이지안 방법에 의해 혼합 분포와 추정치에 더 먼저 Dirichlet 프로세스를 배치하는 것입니다. 예를 들어, 참조하십시오 무한 가우스 혼합물 모델에 대한이 논문. DP 혼합 모델은 구성 요소의 수와 각 요소가 속한 구성 요소에 대한 추론을 제공합니다. 이는 정확히 원하는 것입니다. 또는 구성 요소 수에 대한 모델 선택을 수행 할 수 있지만 일반적으로 우아하지 않습니다.

DP 혼합 모델 모델의 많은 구현이 있지만 편리하지 않을 수 있습니다. 예를 들어, 여기에 a가 있습니다 MATLAB 구현.

귀하의 그래프는 귀하가 R 사용자임을 암시합니다. 이 경우 준비된 솔루션을 찾고 있다면 질문에 대한 답은 이것에 있습니다. 클러스터 분석에 대한 작업보기.

다른 팁

나는 당신이 K- 평균 클러스터링 알고리즘.

대부분의 범용 언어에서 적절한 구현을 찾을 수 있어야합니다.

클러스터링 알고리즘 중 하나가 필요합니다. 그들 모두는 2 개의 그룹으로 이루어질 수 있습니다.

예제에 그룹 수 (클러스터) -2 개의 클러스터를 지정합니다.
알고리즘 자체적으로 올바른 수의 클러스터를 추측하려고합니다.

첫 번째 유형의 알고리즘을 원한다면 K- 평균이 실제로 필요한 것입니다.

두 번째 유형의 알고리즘을 원한다면 계층 적 클러스터링 알고리즘 중 하나가 필요할 수 있습니다. 나는 그들 중 어느 것도 구현하지 않았습니다. 그러나 나는 클러스터의 수를 지정할 필요가없는 방식으로 K- 평균을 개선하는 쉬운 방법을 본다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow