Idées pour le modèle de notation de perspective

https://datascience.stackexchange.com/questions/12206

16-10-2019
|

Question

Je dois penser à un modèle pour identifier les perspectives (entreprises) qui ont une grande chance d'être convertis en clients, et je suis à la recherche de conseils sur ce genre de modèle pourrait être utile.

Les bases de données que j'aurai sont, autant que je sache (je ne les ai pas encore), le list of current clients (autrement dit, converted prospects) et leurs caractéristiques (size, revenue, age, location, des trucs comme ça) et un list of prospects (que je dois score) et leurs caractéristiques. Cependant, je ne pense pas que je vais avoir une liste des entreprises qui étaient auparavant des perspectives, mais pour lesquels la conversion aux clients a échoué (si j'avais, je pense que je pourrais avoir opté pour une forêt aléatoire. Bien sûr, je pouvais encore utiliser une forêt au hasard, mais je pense que ce serait une mauvaise idée de lancer une forêt au hasard sur l'union de mes deux bases de données, et de traiter les clients comme converted et les perspectives que non-converted ...)

Je dois trouver, dans la liste des prospects, ceux qui ressemblent à des clients déjà existants. Quel genre de modèle que je peux utiliser pour le faire?

(je pense aussi à des choses telles que « l'évaluation de la valeur des clients et d'appliquer cela aux perspectives similaires », et « évaluer la chance chaque prospect a de sortir de l'entreprise » pour affiner davantage la valeur de mon le ballon, mais il est un peu hors de la portée de ma question).

Merci

La solution

Je fait face à presque exactement le même scénario un an et demi il y a - essentiellement ce que vous avez est une variante de la classement d'une classe (OCC), en particulier PU-apprentissage (apprentissage de positif et de données sans étiquette). Vous avez votre connu, ensemble de données positives marquées ( clients ) et un ensemble de données non marqué des perspectives ( qui sont le client comme et dont certains certains ne sont pas client comme ). Votre tâche est d'identifier le plus client comme des perspectives et de les cibler ... ces charnières sur l'hypothèse que perspectives qui ont l'air plus comme des clients sont plus susceptibles de se convertir que perspectives qui ressemblent moins à des clients .

L'approche que nous installâmes sur utilisé une procédure appelée Spy- technique. L'idée de base est que vous prenez un échantillon de votre classe positif connu et injectez-les dans votre jeu non marqué. Vous pouvez ensuite former un classificateur sur ces données combinées, puis exécutez le dos de jeu à travers le classificateur non marqué formé assignant chaque fois une probabilité d'être un membre de la classe positive. L'intuition est que les points positifs injecté ( espions soi-disant ) doivent se comporter de façon similaire aux cas positifs (comme reflété par leurs probabilités a posteriori). En fixant un seuil ce qui vous permet d'extraire des instances négatives fiables de l'ensemble non marqué. Maintenant, ayant à la fois des données positives et négatives étiquetés, et vous pouvez construire un classificateur utilisant un algorithme de classification standard que vous choisissez. En substance, avec la technique d'espionnage, vous Bootstrap vos données pour vous fournir les instances négatives nécessaires pour une formation adéquate.

Pour commencer, vous devriez regarder dans le travail de Li et Liu qui ont un certain nombre de documents qui explorent le thème de l'OCC et PU-apprentissage.

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange