K-均与在线k- ameans
-
16-10-2019 - |
题
k均值 是一种众所周知的聚类算法,但此类算法也有一种在线变体(在线K-均值)。这些方法的利弊是什么?何时应该首选?
其他提示
原始的Macqueen K-Means出版物(第一个使用“ Kmeans”名称)是在线算法。
Macqueen,JB(1967)。 “一些分类和分析多元观察的方法”。第五伯克利数学统计和概率研讨会论文集1.加利福尼亚大学出版社。 pp。281–297
分配每个点后,使用简单的加权平均公式逐渐更新平均值(旧平均值加权n,如果均值之前的n观测值,则将新的观察值加权1)。
据我所知,尽管可以多次重复多次以重新分配点直到收敛。
麦昆通常比劳埃德(Lloyds)花费的迭代少于劳埃德(Lloyds),如果您的数据被改组(因为它会更快地更新均值!)。在有序数据上,它可能会有问题。不利的一面是,它需要为每个对象进行更多计算,因此每个迭代需要稍长一点(显然,其他数学操作)。