클러스터링 알고리즘의 성능 분석

https://stackoverflow.com//questions/9690706

13-12-2019
|

문제

I 2 개의 데이터 세트가 주어졌으며 적니를 사용하여 세트에 대한 클러스터 분석을 수행하려고합니다.

클러스터링을 완료하면 2 개의 다른 클러스터링 알고리즘의 성능 비교를 수행하고자합니다.

클러스터링 알고리즘의 성능 분석에 관해서는 시간 (알고리즘 시간 복잡성 및 데이터의 클러스터링을 수행하는 시간) 또는 클러스터의 출력의 유효성의 척도가 될 것입니까?(또는 둘 다)

클러스터링 알고리즘의 성능 (또는 부족)을 식별하기 위해 다른 각도가 있습니다.

미리 감사드립니다

해결책

사용할 수있는 데이터에 대해 많은 에어야합니다.

성능을 측정하는 일반적인 방법은 기존의 ( "외부") 레이블에 대해 (클러스터링보다는 분류보다 더 의미가 더 이상감이있는 경우)입니다.이것을 위해 사용할 수있는 약 2 개의 조치가 있습니다.

"내부"품질 측정 값을 사용할 때 알고리즘과는 독립적인지 확인하십시오.예를 들어, K- 의미는 그러한 측정 값을 최적화 하고이 측정 값과 관련하여 평가할 때 항상 최선을 다할 것입니다.

다른 팁

클러스터링 평가 방법에는 두 가지 범주가 있으며 선택은 의존합니다. 지상 진리가 있는지 여부에요. 첫 번째 범주는 지상 진리의 존재를 요구하는 외인성 방법이며 다른 카테고리는 본질적인 방법입니다. 일반적으로 외인 방법은 지상 진리를 감안할 때 클러스터링에 점수를 할당하려고하지만, 본질적인 방법은 클러스터가 얼마나 잘 분리되고 컴팩트한지를 검토하여 클러스터링을 평가합니다.

외인 방법의 경우 (접지를 사용할 수 있어야 함) 하나의 옵션은 Bcubed 정밀도 및 리콜 메트릭을 사용하는 것입니다. Bcubed Precion 및 Recall Metrics는 전통적인 정밀도와 다르며 클러스터링이 감독되지 않은 학습 기술이므로 클러스터의 레이블을 미리 알지 못한다는 의미에서 리콜합니다. 이러한 이유로 BCubed 메트릭은 지상 진리에 따라 주어진 데이터 세트의 클러스터링에서 정전 물체에 대한 Precion을 평가하고 리콜합니다. 예제의 정밀도는 동일한 클러스터의 다른 여러 예제가 예제와 동일한 카테고리에 속하는지 표시하는 것입니다. 예제의 리콜은 동일한 클러스터에 동일한 카테고리의 예가 얼마나 많은 예를 지정하는지 반영합니다. 마지막으로 F2 메트릭을 사용 하여이 두 메트릭을 하나로 결합 할 수 있습니다.

소스 :

Jiawei Han, Micheline, Kamber 및 Jian Pei
http://www.cs.utsa.edu. / ~ qitian/seminar/spring11/03_11_11/ir2009.pdf
클러스터링의 성과를 평가하는 경험

지상 진리가있는 외인성 방법에 대한 간단한 접근법은 클러스터링 사이의 거리 측정 항목을 사용하는 것입니다. 땅의 진실은 단순히 클러스터링으로 간주됩니다. 사용하기위한 두 가지 좋은 조치는 Meila가 정보의 변화와 나의 겸손한 의견으로, 나 자신에 의해 분할 요동 거리가 또한 Meila가 논의했습니다. 나는 Mirkin 인덱스 또는 RAND 색인을 추천하지 않습니다. 여기에 stockexchange .

이러한 메트릭은 각각 클러스터링 중 하나의 거리를 가장 큰 공통 하위 클러스터링으로 나타내는 두 개의 구성 요소로 분할 될 수 있습니다. 두 부분을 모두 고려하는 것은 가치가 있습니다. 지상 진리 부분 (일반적인 서브 클러스터 링)이 매우 작 으면 테스트 된 클러스터링이 수퍼 클러스터링에 가깝다는 것을 의미합니다. 다른 부분이 작 으면 테스트 된 클러스터링이 일반적인 서브 클러스터링과 가깝고 지상 진리의 서브 클러스터링에 가까운 곳에 가깝다는 것을 의미합니다. 두 경우 모두 클러스터링은 지상 진리와 호환 될 수 있습니다. 자세한 내용은 위의 링크를 참조하십시오.

클러스터링 알고리즘 평가 은 외부 품질 측정 (정확도) 및 내재적 조치 (형성된 클러스터의 일부 내부 통계)가있는 벤치 마크가 있습니다.

Cludmark icdm'18
webocd 종이
서큘러

clusim
codar (소스는 용지 저자) < / li>

적절한 벤치 마크의 선택은 클러스터링 알고리즘 (하드 또는 소프트 클러스터링)의 종류, 종류 (쌍으로 관계, 기상적 인 데이터 세트 또는 혼합) 및 클러스터링 데이터의 크기, 필수 평가 메트릭 및 감독의 허용 금액에 따라 다릅니다. ...에 Cludmark Paper 세부 정보의 평가 기준을 설명합니다.

클러스터 클러스터 (수백만 및 수십억 개의 클러스터링 요소)의 많은 클러스터링 알고리즘 (쌍이 관계로 지정된 입력 데이터 처리)의 완전 자동 병렬 평가를 위해 개발 된 것입니다. 정확한 메트릭 자원 소비 추적 (처리 및 실행 시간, 피크 거주 메모리 소비 등).

그러나 몇 가지 데이터 세트에 몇 가지 알고리즘을 위해 수동 평가조차도 적절합니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow