Pregunta

Tengo un montón de perfiles de clientes almacenados en un clúster. Estos perfiles se utilizan ahora para la creación de grupos objetivo para nuestras suscripciones de correo electrónico.

Los grupos destinatarios están formados de forma manual utilizando Elasticsearch capacidades de búsqueda facetas (como obtener todos los clientes de sexo masculino de 23 años de edad con un coche y 3 niños).

¿Cómo podría buscar grupos de interés automáticamente -? Uso de la ciencia de datos, aprendizaje automático, la agrupación o alguna otra cosa

lenguaje de programación parece ser un buen herramienta para esta tarea, pero no se puede formar una metodología de registro de este tipo de grupo. Una solución es encontrar alguna manera los más grandes grupos de clientes y utilizarlos como grupos objetivo, por lo que la pregunta es:

¿Cómo puedo elegir automáticamente más grandes grupos de clientes similares (similares por parámetros que no sé en este momento)?

Por ejemplo: mi programa se conectará a Elasticsearch, descarga de datos de clientes a CSV y utilizando script language R dará cuenta de que gran parte de los clientes son hombres que no tienen hijos y otra gran parte de los clientes tener un coche y su color de ojos es marrón .

¿Fue útil?

Solución

Un algoritmo que puede ser utilizado para esto es los k-medias algoritmo de agrupamiento .

Básicamente:

  1. elegirá aleatoriamente k puntos de datos de su aparato, m_1, ..., M_K.
  2. "Hasta que la convergencia":

    1. Asignar los puntos de datos a k clusters, donde cluster i es el conjunto de puntos para los cuales m_i es el más cercano de sus medios actuales
    2. Reemplazar cada m_i por la media de todos los puntos asignados a agruparse i.

Es una buena práctica para repetir este algoritmo varias veces, a continuación, elija el resultado que minimiza las distancias entre los puntos de cada grupo I y el centro de m_i.

Por supuesto, usted tiene que saber k para iniciar aquí; puede utilizar la validación cruzada para elegir este parámetro, sin embargo.

Licenciado bajo: CC-BY-SA con atribución
scroll top