k均值 是一种众所周知的聚类算法,但此类算法也有一种在线变体(在线K-均值)。这些方法的利弊是什么?何时应该首选?

有帮助吗?

解决方案

在线k- ameans(通常称为 顺序k均值)和传统的K均值非常相似。不同之处在于,在线K-均值允许您在收到新数据时更新模型。

当您期望数据接收到一个(或可能是块)时,应使用在线K-均值。这使您可以在获取有关它的更多信息时更新模型。该方法的缺点是它取决于收到数据的顺序(参考).

其他提示

原始的Macqueen K-Means出版物(第一个使用“ Kmeans”名称)是在线算法。

Macqueen,JB(1967)。 “一些分类和分析多元观察的方法”。第五伯克利数学统计和概率研讨会论文集1.加利福尼亚大学出版社。 pp。281–297

分配每个点后,使用简单的加权平均公式逐渐更新平均值(旧平均值加权n,如果均值之前的n观测值,则将新的观察值加权1)。

据我所知,尽管可以多次重复多次以重新分配点直到收敛。

麦昆通常比劳埃德(Lloyds)花费的迭代少于劳埃德(Lloyds),如果您的数据被改组(因为它会更快地更新均值!)。在有序数据上,它可能会有问题。不利的一面是,它需要为每个对象进行更多计算,因此每个迭代需要稍长一点(显然,其他数学操作)。

许可以下: CC-BY-SA归因
scroll top