我目前正在从事一个兼职项目,该项目涉及预测客户将使用数据分析购买产品的可能性。我与之实习的公司为我提供了一个客户CSV文件,其中所有当前客户及其属性以及需要制定预测模型,以对潜在客户是否可行。

但是,由于他们已经为我提供了所有成功的客户或潜在客户的清单,因此,从营销角度来看,是否有可能培训具有PCA(和K-折叠交叉验证?)之类的模型并获得结果?我必须训练我的模型以适合一个值,例如10,我将添加到CSV中,然后进一步测试它。

我正在使用熊猫。另一个问题是有很多人口统计数据,但我设法使用 get_dummies(). 。不过,列的数量从大约10升至47。

我只是进入数据分析的世界,因此,我对要采取的途径或我正在做的事情是否正确,我有点毫无意义。

确切的分析称为营销术语中的预测线索评分/分析。

编辑1

我遵循@honzab所做的一切,因此,确实得到了决策树。但是,由于我有40列,看起来像这样

我不得不进行屏幕截图,因为它超过2 MB。

显然,这真的很大,我必须以某种方式修剪树,但是我不确定如何在熊猫上这样做。另外,有什么方法可以使最佳特征作为文本文件或无数据科学家的帮助可以理解的东西?

编辑2

我已经阅读了一个与我需要做的非常相似的问题。 基于RFM评分指标的预测建模. 。在其中,有一个链接([使用RFM分析数据挖掘] [3])谈论 基于规则的分类. 。理想情况下,这是我需要做的,最适合公司的需求。

我想知道是否有可能在python/pandas上这样做。还是可以穿越决策树并生成规则?

编辑3

我找到了另一个网站 python的决策树,交叉验证 使用 交叉验证超参数优化 获得更好的解决方案。他们还包括Python代码以获取可读代码。这是一个可行的解决方案,但是非常复杂,我不明白它是如何工作的。它会起作用吗?

PS I通过减少Max-depth解决了编辑1的“真正的决策树”问题。我一点都不知道。

有帮助吗?

解决方案

首先,我会问公司是否有有关客户的更多信息。您提到您有10列原始列,这可能不足以做出良好的预测。行数也是如此。通常,更多数据,更好的模型,达到一定限制。

其次,编码分类功能(您的情况下的人口统计数据)是好事。在您的情况下,增加的列数不必打扰您。

对于任务本身,是的,这是可行的。轻松启动,只需检查每个功能的重要性(我稍后再让PCA),选择几个型号并测试它们。

还考虑火车简单的决策树。您的结果可以轻松地以商业人士理解的方式可视化。作为K-均值的黑盒方法。

许可以下: CC-BY-SA归因
scroll top