Pregunta

Como mi primer proyecto en la ciencia de datos, me gustaría seleccionar los principales grupos en los datos ruidosos. Creo que un buen ejemplo sería tratar de seleccionar ciertos enlaces en una pregunta StackExchange ya que tiene una serie de respuestas. El tipo más común de enlace es un enlace a una pregunta sobre la red SE. El siguiente es común, ya sea enlaces de etiqueta, o enlaces a los perfiles de usuario. Los enlaces restantes podrían ser enlaces aleatorios incluidos en los mensajes, que se considera ruido. Lo ideal es que estoy buscando una solución en la que no se cuantos grupos de enlaces no serán antes de tiempo.

He aplicado mi primer intento de utilizar scikit-learn y KMeans. Sin embargo, no es ideal, ya que parecen tener que especificar el número de grupos antes de tiempo, y creo que los enlaces al azar, ruidosos quedan agrupados de forma inadecuada. También creo que es más eficaz en un corpus más grande en comparación con la relativamente pequeña una de URL tokens (aunque eso es sólo una conjetura).

¿Hay una manera de hacer este tipo de agrupación, cuando no se conoce el número de grupos o en donde uno de los cúmulos es una especie de objetos de clúster que contiene varias que no coincide estrechamente los otros grupos?

¿Fue útil?

Solución

¿Has mirado en DBSCAN ? Es una agrupación espacial basada en la densidad de los datos con el ruido que puede definir agrupaciones no lineales (a diferencia de k-medias).

No requiere conocer el número de grupos. Sin embargo, requiere dos parámetros (mínimo tamaño de clúster y el tamaño de la zona es) que la densidad medida. Sin embargo, es posible que pueda para estimarlos en su dominio particular.

Licenciado bajo: CC-BY-SA con atribución
scroll top