Question

J'ai un tas de profils de clients stockés dans un cluster. Ces profils sont maintenant utilisés pour la création de groupes cibles pour nos abonnements par courrier électronique.

Les groupes cibles sont maintenant formés manuellement à l'aide ElasticSearch capacités de recherche à facettes (comme obtenir tous les clients de sexe masculin de 23 ans avec une voiture et 3 enfants).

Comment pourrais-je rechercher des groupes intéressants automatiquement - en utilisant la science des données, l'apprentissage de la machine, le regroupement ou autre chose

langage de programmation semble être une bonne outil pour cette tâche, mais je ne peux pas former une méthodologie de cette recherche de groupe. Une solution est de trouver en quelque sorte les plus grands groupes de clients et de les utiliser en tant que groupes cibles, la question est donc:

Comment puis-je choisir automatiquement plus grappes de clients similaires (similaires par des paramètres que je ne sais pas à ce moment)?

Par exemple: mon programme se connecte à ElasticSearch, les données des clients de déchargement au format CSV et en utilisant un script de langage R constatera que grande partie des clients sont des hommes sans enfant et une autre grande partie des clients ont une voiture et leur couleur des yeux est brun .

Était-ce utile?

La solution

Un algorithme qui peut être utilisé pour cela est k-means algorithme .

En gros:

  1. choisir k hasard datapoints de votre jeu, m_1, ..., M_K.
  2. "Jusqu'à ce que la convergence":

    1. Attribuez vos points de données à k grappes, où la grappe i est l'ensemble des points pour lesquels m_i est le plus proche de vos moyens actuels
    2. Remplacer chaque m_i par la moyenne de tous les points attribués à i grappe.

Il est bon de répéter cet algorithme à plusieurs reprises, puis choisissez le résultat qui réduit les distances entre les points de chaque groupe i et le centre m_i.

Bien sûr, vous devez savoir k commencer ici; vous pouvez utiliser la validation croisée pour choisir ce paramètre, cependant.

Licencié sous: CC-BY-SA avec attribution
scroll top