문제

이산 및 연속 속성 모두에서 클러스터링을 수행하기위한 좋은 알고리즘을 아는 사람이 있습니까? 나는 유사한 고객 그룹을 식별하는 문제를 해결하고 있으며 각 고객은 개별적이고 지속적인 속성을 가지고 있습니다 (고객의 유형,이 고객이 생성 한 수익 금액, 지리적 위치 등).

K-Means 또는 EM과 같은 전통적으로 지속적인 속성을 위해 작동합니다. 연속적이고 개별적 인 속성이 혼합되어 있으면 어떻게됩니까?

도움이 되었습니까?

해결책

내가 올바르게 기억한다면 거미줄 알고리즘은 개별 속성에서 작동 할 수 있습니다.

또한 의미있는 거리 메트릭을 만들기 위해 개별 속성과 다른 '트릭'을 수행 할 수도 있습니다.

첫 번째 적중 중 하나 인 범주/이산 속성의 클러스터링을 위해 Google을 Google 할 수 있습니다. 암석 : 범주 형 속성에 대한 강력한 클러스터링 알고리즘.

다른 팁

R은 클러스터링을위한 훌륭한 도구입니다. 표준 접근법은 혼합 데이터를 사용하여 비 유사성 행렬을 계산하는 것입니다. daisy, 그런 다음 해당 매트릭스로 클러스터링을 사용합니다 agnes.

그만큼 cba 크랜에 모듈 암석을 기반으로 바이너리 예측 변수의 클러스터 기능을 포함합니다.

당신은 또한 볼 수 있습니다 친화력 전파 가능한 해결책으로. 그러나 연속 / 이산 딜레마를 극복하려면 개별 상태를 평가하는 함수를 정의해야합니다.

나는 실제로 이산 속성의 쌍을 사용자에게 제시하고 그들의 근접성을 정의하도록 요청할 것입니다. 당신은 그들에게 [동의어로 외국] 또는 이와 유사한 규모에 도달 할 것입니다. 많은 사람들 이이 일을하게되면 비선형 속성 값에 대한 널리 받아 들여지는 근접 함수로 끝납니다.

각 범주 형 속성을 일련의 N-1 바이너리 표시기 속성으로 변환하는 것은 어떻습니까 (여기서 n은 범주 수)? 희소 한 표현 (예 : Mahout 's)으로서 높은 차원을 두려워해서는 안됩니다. SequentialAccessSparseVector 사용할 수 있습니다). 이렇게하면 클래식 K- 평균 또는 표준 숫자 전용 클러스터링 알고리즘을 사용할 수 있습니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top