Frage

K-means ist ein bekannter Algorithmus für das Clustering, aber es gibt auch eine Online-Variation eines solchen Algorithmus (Online-K-Mittel). Was sind die Vor- und Nachteile dieser Ansätze und wann sollte jeder bevorzugt werden?

War es hilfreich?

Lösung

Online-K-Means (allgemein bekannt als Sequentielle k-means) und traditionelle K-Mittel sind sehr ähnlich. Der Unterschied besteht darin, dass Sie mit Online-K-Means das Modell so aktualisieren können, wie neue Daten empfangen werden.

Online-K-Means sollten verwendet werden, wenn Sie erwarten, dass die Daten nacheinander (oder vielleicht in Stücken) empfangen werden. Auf diese Weise können Sie Ihr Modell aktualisieren, wenn Sie weitere Informationen dazu erhalten. Der Nachteil dieser Methode ist, dass sie von der Reihenfolge abhängt, in der die Daten empfangen werden (Ref).

Andere Tipps

Die ursprüngliche Veröffentlichung von MacQueen K-Means (die erste, die den Namen "Kmeans" verwendet) ist ein Online-Algorithmus.

MacQueen, JB (1967). "Einige Methoden zur Klassifizierung und Analyse multivariater Beobachtungen". Proceedings of 5. Berkeley Symposium über mathematische Statistiken und Wahrscheinlichkeit 1. University of California Press. S. 281–297

Nachdem jeder Punkt zugewiesen wurde, wird der Mittelwert inkrementell unter Verwendung einer einfachen gewichteten Durchschnittsformel aktualisiert (der alte Mittelwert wird mit n gewichtet, die neue Beobachtung wird mit 1 gewichtet, wenn der Mittelwert n Beobachtungen zuvor hatte).

Soweit ich das beurteilen kann, sollte es auch nur ein einziger Durchgang über die Daten sein, obwohl es sich mehrmals trivial wiederholt, um Punkte bis zur Konvergenz zuzuweisen.

MacQueen braucht normalerweise weniger Iterationen als Lloyds, um zu konvergieren, wenn Ihre Daten gemischt sind (da sie den Mittelwert schneller aktualisiert!). Bei geordneten Daten kann es Probleme haben. Auf der anderen Seite erfordert es für jedes Objekt mehr Berechnung, sodass jede Iteration etwas länger dauert (offensichtlich zusätzliche mathematische Operationen).

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit datascience.stackexchange
scroll top