K-均与在线k- ameans

题

k均值是一种众所周知的聚类算法，但此类算法也有一种在线变体（在线K-均值）。这些方法的利弊是什么？何时应该首选？

解决方案

在线k- ameans（通常称为顺序k均值）和传统的K均值非常相似。不同之处在于，在线K-均值允许您在收到新数据时更新模型。

当您期望数据接收到一个（或可能是块）时，应使用在线K-均值。这使您可以在获取有关它的更多信息时更新模型。该方法的缺点是它取决于收到数据的顺序（参考).

其他提示

原始的Macqueen K-Means出版物（第一个使用“ Kmeans”名称）是在线算法。

Macqueen，JB（1967）。 “一些分类和分析多元观察的方法”。第五伯克利数学统计和概率研讨会论文集1.加利福尼亚大学出版社。 pp。281–297

分配每个点后，使用简单的加权平均公式逐渐更新平均值（旧平均值加权n，如果均值之前的n观测值，则将新的观察值加权1）。

据我所知，尽管可以多次重复多次以重新分配点直到收敛。

麦昆通常比劳埃德（Lloyds）花费的迭代少于劳埃德（Lloyds），如果您的数据被改组（因为它会更快地更新均值！）。在有序数据上，它可能会有问题。不利的一面是，它需要为每个对象进行更多计算，因此每个迭代需要稍长一点（显然，其他数学操作）。

许可以下： CC-BY-SA 和归因