创建变量的强制性组合，以绘制随机森林

题

问题

对于我的机器学习任务，我创建了一组预测指标。预测因子中有“捆绑” - 多维测量（在我的情况下为3或4-尺寸）。

只有在测量并将其全部进行时，“捆绑包”才有意义。

问题是，只能在样本的一小部分中测量预测变量的不同“捆绑包”，而这些部分并不需要与不同的“束”相交。

由于零件很小，归因会导致准确性降低（灾难性更准确）

可能的解决方案

我可以创建虚拟变量，以标记是否对每个变量进行测量。问题是，当随机森林绘制随机变量时，它会单独进行。

因此，有两种基本方法可以解决此问题：1）将每个“捆绑”组合到一个预测指标中。这是可能的，但似乎信息将丢失。 2）使随机森林不是单独绘制变量，而是通过强制性的“束”。

随机森林的问题

随机森林随机绘制变量，它具有无用的功能（或少得多），而没有其他“束”。我的感觉会导致准确性丧失。

例子

例如，我有变量 a,a_measure, b,b_measure。问题是，变量 a_measure 只有在变量时才有意义 a 存在，相同 b. 。所以我要么必须结合 a和 a_measure 在一个变量中分为一个变量，或者将两者都绘制，以防至少绘制其中一个。

问题

当针对整体人群的一小部分测量不同的预测因子时，最佳的实践解决方案是什么，这些预测因子集中有必要的“捆绑包”？

谢谢！

解决方案

您可能需要考虑渐变的树木而不是随机森林。它们也是一种基于整体树的方法，但是由于此方法没有采样尺寸，因此不会出现在任何特定时间都没有有用的预测器来分配的问题。

GBDT的不同实现具有不同的处理缺失价值的方式，这将在您的情况下产生很大的影响；我相信r进行三元拆分，可能会正常工作。

许可以下： CC-BY-SA 和归因