Frage

Ich arbeite derzeit an einem Teilzeitprojekt, bei dem die Wahrscheinlichkeit von Kunden mit Datenanalysen vorhergesagt wird. Das Unternehmen, mit dem ich einschnitten habe, hat mir eine Kunden -CSV -Datei mit allen aktuellen Kunden und ihren Attributen gegeben und muss ein Vorhersagemodell vorlegen, um zu klassifizieren, ob potenzielle Kunden zu verfolgen sind oder nicht.

Seit sie mir jedoch eine Liste aller erfolgreichen Kunden oder Leads in Marketing gegeben haben, ist es möglich, ein Modell wie K-Means mit PCA (und k-fach Kreuzvalidierung?) Auszubilden und Ergebnisse zu erzielen? Ich muss mein Modell so trainieren, dass ich einen Wert anpasst, beispielsweise 10, was ich dem CSV hinzufügen und es weiter testen werde.

Ich benutze Pandas. Ein weiteres Problem ist, dass es viele demografische Daten gibt, aber ich habe es geschafft, sie mithilfe zu überwinden get_dummies(). Die Anzahl der Spalten wurde jedoch von etwa 10 bis 47 eskaliert.

Ich gehe nur in die Welt der Datenanalyse ein, daher bin ich ein bisschen ahnungslos darüber, welchen Weg ich einschlagen muss oder ob das, was ich tue, richtig ist.

Die genaue Analyse wird in der Marketingterminologie als prädiktive Bleibewertung/-analyse bezeichnet.

Bearbeiten 1

Ich folgte dem, was @honzab tat und bekam daher einen Entscheidungsbaum. Da ich jedoch 40 Spalten hatte, sieht es so aus

Ich musste einen Screenshot davon machen, da es über 2 MB war.

Offensichtlich ist es wirklich groß und ich muss den Baum irgendwie beschneiden, aber ich bin mir nicht sicher, wie ich dies auf Pandas machen soll. Gibt es auch eine Möglichkeit, nur die besten Eigenschaften als Textdatei oder etwas zu generieren, das ohne die Hilfe eines Datenwissenschaftlers verstanden werden kann?

Bearbeiten 2

Ich habe eine Frage gelesen, die dem, was ich tun muss, ziemlich ähnlich ist. Vorhersagemodellierung basierend auf RFM -Bewertungsindikatoren. Darin gibt es einen Link zu einem Papier ([Data Mining unter Verwendung von RFM -Analyse] [3]), über das spricht Regelbasierte Klassifizierung. Im Idealfall muss ich das tun und was für das Bedürfnis des Unternehmens am besten geeignet ist.

Ich möchte wissen, ob es möglich ist, dies auf Python/Pandas zu tun. Oder ist es möglich, den Entscheidungsbaum zu durchqueren und die Regeln zu generieren?

Bearbeiten 3

Ich habe eine andere Website gefunden Entscheidungsbäume in Python erneut, Kreuzvalidierung das verwendet Kreuzvalidierung und Hyperparameteroptimierung eine bessere Lösung bekommen. Außerdem haben sie Python -Code aufgenommen, um lesbarer Code zu erhalten. Es ist eine praktikable Lösung, aber es ist ziemlich kompliziert und ich kann nicht verstehen, wie es funktioniert. Wird es funktionieren?

PS Ich habe das Problem "wirklich großer Entscheidungsbaum" von Edit 1 gelöst, indem ich das Maximatum verringert habe. Ich wusste es überhaupt nicht.

War es hilfreich?

Lösung

Zunächst würde ich das Unternehmen fragen, ob es weitere Informationen über den Kunden gibt. Sie haben erwähnt, dass Sie 10 Originalspalten haben, die möglicherweise nicht ausreichen, um eine gute Vorhersage zu machen. Gleiches gilt für die Anzahl der Zeilen. Normalerweise mehr Daten, besser das Modell, bis zu einer bestimmten Grenze.

Zweitens ist kategoriale Merkmale (demografische Daten in Ihrem Fall) gut zu tun. Die erhöhte Anzahl von Spalten muss Sie in Ihrem Fall nicht stören.

Für die Aufgabe selbst ist es machbar. Starten Sie einfach, überprüfen Sie einfach die Bedeutung jeder Funktion (ich würde PCA für später lassen), wählen Sie nur wenige Modelle aus und testen Sie sie.

Betrachten Sie auch einen einfachen Entscheidungsbaum. Ihre Ergebnisse können leicht so visualisiert werden, wie die Geschäftsleute verstehen. Als Offosed für Black-Box-Methoden als K-Mittel.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit datascience.stackexchange
scroll top