问题

对于我的机器学习任务,我创建了一组预测指标。预测因子中有“捆绑” - 多维测量(在我的情况下为3或4-尺寸)。

只有在测量并将其全部进行时,“捆绑包”才有意义。

问题是,只能在样本的一小部分中测量预测变量的不同“捆绑包”,而这些部分并不需要与不同的“束”相交。

由于零件很小,归因会导致准确性降低(灾难性更准确)

可能的解决方案

我可以创建虚拟变量,以标记是否对每个变量进行测量。问题是,当随机森林绘制随机变量时,它会单独进行。

因此,有两种基本方法可以解决此问题:1)将每个“捆绑”组合到一个预测指标中。这是可能的,但似乎信息将丢失。 2)使随机森林不是单独绘制变量,而是通过强制性的“束”。

随机森林的问题

随机森林随机绘制变量,它具有无用的功能(或少得多),而没有其他“束”。我的感觉会导致准确性丧失。

例子

例如,我有变量 a,a_measure, b,b_measure。问题是,变量 a_measure 只有在变量时才有意义 a 存在,相同 b. 。所以我要么必须结合 aa_measure 在一个变量中分为一个变量,或者将两者都绘制,以防至少绘制其中一个。

问题

当针对整体人群的一小部分测量不同的预测因子时,最佳的实践解决方案是什么,这些预测因子集中有必要的“捆绑包”?

谢谢!

有帮助吗?

解决方案

您可能需要考虑渐变的树木而不是随机森林。它们也是一种基于整体树的方法,但是由于此方法没有采样尺寸,因此不会出现在任何特定时间都没有有用的预测器来分配的问题。

GBDT的不同实现具有不同的处理缺失价值的方式,这将在您的情况下产生很大的影响;我相信r进行三元拆分,可能会正常工作。

许可以下: CC-BY-SA归因
scroll top