Domanda

Al momento sto lavorando su un progetto part-time che coinvolge predire la probabilità di clienti che vanno a comprare un prodotto utilizzando analisi dei dati. L'azienda che sto internato con me ha dato un file CSV cliente con tutti i clienti attuali e le loro attributi e ha bisogno di fare un modello di previsione per classificare se le prospettive sono fattibili per perseguire o meno.

Tuttavia, poiché mi hanno dato una lista di tutti i loro clienti di successo o porta, in termini di marketing, è possibile formare un modello come K-means con PCA (e k volte convalida croce?) E ottenere risultati? Devo allenarmi il mio modello per adattarsi a un valore, ad esempio 10, che vorrei aggiungere al CSV, e l'ulteriore prova di esso.

Sto usando i panda. Un altro problema è che c'è un sacco di dati demografici, ma sono riuscito a superarla con get_dummies(). Il numero di colonne intensificato da circa 10 a 47, anche se.

sto solo entrando nel mondo di analisi dei dati, e quindi sono un po 'confusi su ciò che strada prendere, o se quello che sto facendo è giusto.

L'analisi precisa si chiama Predictive Piombo Scoring / Analisi, nella commercializzazione terminologia.

Modifica 1

ho seguito quello che @HonzaB ha fatto e, quindi, ha fatto ottenere un albero decisionale. Tuttavia, dal momento che ho avuto 40 colonne, sembra che questo

ho dovuto prendere uno screenshot di esso, come è stato più di 2 MB.

Ovviamente è davvero grande, e devo potare l'albero in qualche modo, ma non sicuro di come farlo su panda. Inoltre, c'è un modo che io possa solo creare le migliori caratteristiche di un file di testo o qualcosa che può essere compreso senza l'aiuto di uno scienziato di dati?

Modifica 2

Ho letto su una questione che è molto simile a quello che devo fare. Predictive modellazione basato su RFM indicatori punteggio . In esso v'è un link ad un articolo ([data mining utilizzando Analisi RFM] [3]), che parla di basato su regole di classificazione . Idealmente questo è quello che devo fare, e ciò che è più adatto alle esigenze della società.

voglio sapere se è possibile fare questo in Python / panda. Oppure è possibile attraversare l'albero decisionale e generare le regole?

EDIT 3

Ho trovato un altro sito decisione alberi in pitone di nuovo, la convalida incrociata che utilizza convalida incrociata e iperparametro ottimizzazione per ottenere una migliore soluzione. Inoltre essi hanno incluso codice Python per ottenere il codice leggibile. Si tratta di una soluzione fattibile, ma è abbastanza complicato e non riesco a capire come funziona. Funzionerà?

PS ho risolto il problema "veramente grande decisione-tree" da Edit 1, riducendo max-depth. Non sapevo affatto.

È stato utile?

Soluzione

In primo luogo, vorrei chiedere alla società se ci sono maggiori informazioni sul cliente. Lei ha detto di avere 10 colonne originali, che potrebbero non essere abbastanza per fare una buona previsione. Lo stesso vale per il numero di righe. Di solito, più dati, meglio il modello, fino ad un certo limite.

In secondo luogo, codificare funzioni categoriali (dati demografici nel tuo caso) è buona cosa da fare. L'aumento del numero di colonne non hanno disturbarti nel tuo caso.

Per l'attività in sé, sì, è fattibile. Easy Start, semplicemente controllare importanza di ogni caratteristica (avrei lasciato PCA per dopo), raccogliere alcuni modelli e testarli.

Considera anche addestrare semplice struttura decisionale. I risultati possono essere facilmente visualizzati in modo del commercio la gente capisce. Come oposed ai metodi black-box come K-Means.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
scroll top