Определение идеального количества кластеров для последовательности (расстояния) - кластеризация на основе
-
21-12-2019 - |
Вопрос
Я написал эти функции для данных на основе последовательности кластеризации:
library(TraMineR)
library(cluster)
clustering <- function(data){
data <- seqdef(data, left = "DEL", gaps = "DEL", right = "DEL")
couts <- seqsubm(data, method = "CONSTANT")
data.om <- seqdist(data, method = "OM", indel = 3, sm = couts)
clusterward <- agnes(data.om, diss = TRUE, method = "ward")
(clusterward)
}
rc <- clustering(rubinius_sequences)
cluster_cut <- function(data, clusterward, n_clusters, name_clusters){
data <- seqdef(data, left = "DEL", gaps = "DEL", right = "DEL")
cluster4 <- cutree(clusterward, k = n_clusters)
cluster4 <- factor(cluster4, labels = c("Type 1", "Type 2", "Type 3", "Type 4"))
(data[cluster4==name_clusters,])
}
rc1 <- cluster_cut(project_sequences, rc, 4, "Type 1")
.
Однако здесь количество кластеров произвольно назначено.Есть ли какой-то способ, которым я могу показать, что количество дисперсии (или некоторая подобная мера), захваченная определенным количеством кластеров, начинает достигать точки уменьшения доходности на определенном количестве кластеров?Я воображаю что-то похожее на Сюжет ScreeФакторный анализ .
Решение
library(WeightedCluster)
(agnesRange <- wcKMedRange(rubinius.dist, 2:10))
plot(agnesRange, stat = c("ASW", "HG", "PBC"), lwd = 5)
.
Это даст множественные показатели для поиска идеального количества кластеров, а также в качестве графика.Больше информации о индексах можно найти здесь (под качеством кластера): http://mephisto.unige.ch/weededCluster/
Не связан с StackOverflow