Pregunta

Por favor, alguien podría recomendar un papel poste o blog que describe el algoritmo de k-medias en línea.

¿Fue útil?

Solución

El MacQueen original de kmeans publicación (el primero en utilizar las "kmeans" nombre) es un algoritmo en línea.

MacQueen, J. B. (1967). "Algunos métodos de clasificación y análisis de las observaciones multivariantes". Actas del 5º Simposio de Berkeley en Estadística Matemática y Probabilidad 1. University of California Press. pp. 281-297

Después de asignar cada punto, la media se actualiza de forma incremental.

Por lo que yo puedo decir, que también estaba destinado a ser una sola pasada sobre sólo los datos, aunque puede ser trivialmente repitió varias veces a puntos Reasignar hasta la convergencia.

MacQueen suele tardar menos iteraciones para converger Lloyds que si se barajan sus datos. Acerca de los datos solicitados, puede tener problemas. En el lado negativo, se requiere más cálculo para cada objeto, por lo que cada iteración tarda un poco más.

Cuando se implementa una versión paralela de k-medias, asegúrese de estudiar las fórmulas de actualización en MacQueens publicación. Son útiles.

Licenciado bajo: CC-BY-SA con atribución
scroll top