创建变量的强制性组合,以绘制随机森林
-
16-10-2019 - |
题
问题
对于我的机器学习任务,我创建了一组预测指标。预测因子中有“捆绑” - 多维测量(在我的情况下为3或4-尺寸)。
只有在测量并将其全部进行时,“捆绑包”才有意义。
问题是,只能在样本的一小部分中测量预测变量的不同“捆绑包”,而这些部分并不需要与不同的“束”相交。
由于零件很小,归因会导致准确性降低(灾难性更准确)
可能的解决方案
我可以创建虚拟变量,以标记是否对每个变量进行测量。问题是,当随机森林绘制随机变量时,它会单独进行。
因此,有两种基本方法可以解决此问题:1)将每个“捆绑”组合到一个预测指标中。这是可能的,但似乎信息将丢失。 2)使随机森林不是单独绘制变量,而是通过强制性的“束”。
随机森林的问题
随机森林随机绘制变量,它具有无用的功能(或少得多),而没有其他“束”。我的感觉会导致准确性丧失。
例子
例如,我有变量 a
,a_measure
, b
,b_measure
。问题是,变量 a_measure
只有在变量时才有意义 a
存在,相同 b
. 。所以我要么必须结合 a
和 a_measure
在一个变量中分为一个变量,或者将两者都绘制,以防至少绘制其中一个。
问题
当针对整体人群的一小部分测量不同的预测因子时,最佳的实践解决方案是什么,这些预测因子集中有必要的“捆绑包”?
谢谢!
解决方案
您可能需要考虑渐变的树木而不是随机森林。它们也是一种基于整体树的方法,但是由于此方法没有采样尺寸,因此不会出现在任何特定时间都没有有用的预测器来分配的问题。
GBDT的不同实现具有不同的处理缺失价值的方式,这将在您的情况下产生很大的影响;我相信r进行三元拆分,可能会正常工作。