Question

Je travaille actuellement sur un projet à temps partiel qui consiste à prédire la probabilité de clients vont acheter un produit en utilisant l'analyse de données. La société que je suis interné avec m'a donné un fichier CSV client avec tous les clients actuels et de leurs attributs et les besoins de faire un modèle de prédiction pour classer si les perspectives sont réalisables de poursuivre ou non.

Cependant, comme ils me ont donné une liste de tous leurs clients ou prospects avec succès, en termes de marketing, est-il possible de former un modèle comme K-means avec PCA (et k fois la validation croisée?) Et obtenir des résultats? Je dois former mon modèle pour tenir une valeur, disons 10, que je vais ajouter au CSV, et plus le tester.

J'utilise pandas géants. Un autre problème est qu'il ya beaucoup de données démographiques, mais je réussi à surmonter à l'aide get_dummies(). Le nombre de colonnes escaladé d'environ 10 à 47, bien.

Je suis juste d'entrer dans le monde de l'analyse des données, donc je suis un peu désemparés quant à ce chemin à prendre ou si ce que je fais est juste.

L'analyse exacte est appelée notation / analyse prédictive plomb, dans la commercialisation de la terminologie.

EDIT 1

J'ai suivi ce que @HonzaB a fait et, fait donc obtenir un arbre de décision. Cependant, depuis que j'avais 40 colonnes, il ressemble à ceci

Je devais prendre une capture d'écran de celui-ci, comme il était de plus de 2 MB.

De toute évidence, il est vraiment grand, et je dois élaguer l'arbre en quelque sorte, mais je ne sais pas comment le faire sur pandas géants. Aussi, est-il possible que je peux générer les meilleures caractéristiques en tant que fichier texte ou quelque chose qui peut être compris sans l'aide d'un scientifique de données?

EDIT 2

J'ai lu sur une question qui est tout à fait semblable à ce que je dois faire. modélisation prédictive en fonction d'indicateurs de notation RFM . Dans ce document il y a un lien vers un document ([Data Mining en utilisant l'analyse RFM] [3]) qui parle de classification fondé sur des règles . Idéalement, c'est ce que je dois faire, et ce qui est le mieux adapté aux besoins de l'entreprise.

Je veux savoir s'il est possible de le faire sur Python / pandas géants. Ou est-il possible de traverser l'arbre de décision et de générer les règles?

EDIT 3

J'ai trouvé un autre site encore des arbres de décision en python, validation croisée qui utilise validation croisée et optimisation hyperparam'etre pour obtenir une meilleure solution. En outre, ils ont inclus le code Python pour obtenir un code lisible. Il est une solution possible, mais il est assez compliqué et je ne peux pas comprendre comment cela fonctionne. Est-ce que ça marchera?

PS je résolu le problème "vraiment grand arbre de décision" de Edit 1, en réduisant max profondeur. Je ne savais pas du tout.

Était-ce utile?

La solution

D'abord, je voudrais demander à la société s'il y a plus d'informations sur le client. Vous avez dit que vous avez 10 colonnes d'origine, ce qui pourrait ne pas être suffisant pour faire une bonne prédiction. Même chose pour le nombre de lignes. En général, plus de données, plus le modèle, jusqu'à une certaine limite.

En second lieu, encodent caractéristiques qualitatives (données démographiques dans votre cas) est une bonne chose à faire. L'augmentation du nombre de colonnes n'avez pas vous déranger dans votre cas.

Pour la tâche elle-même, oui, il est faisable. Démarrage facile, consultez l'importance de chaque fonction (je laisserais PCA pour plus tard), choisir quelques modèles et les tester.

Voir également former l'arbre de décision simple. Vos résultats peuvent être facilement visualisées de façon à comprendre les gens d'affaires. Comme oposed aux méthodes boîte noire comme K-means.

Licencié sous: CC-BY-SA avec attribution
scroll top