R 随机森林变量重要性

https://stackoverflow.com/questions/736514

09-09-2019
|

题

我正在尝试使用随机森林包在 R 中进行分类。

列出的变量重要性度量有：

类别 0 的变量 x 的平均原始重要性得分
第 1 类变量 x 的平均原始重要性得分
MeanDecreaseAccuracy
MeanDecreaseGini

现在我知道这些“意思”是什么，因为我知道它们的定义。我想知道的是如何使用它们。

我真正想知道的是这些值在其准确度的情况下意味着什么，什么是好的值，什么是坏的值，最大值和最小值是什么，等等。

如果一个变量具有高 MeanDecreaseAccuracy 或者 MeanDecreaseGini 这意味着它重要还是不重要？此外，任何有关原始分数的信息也可能很有用。我想知道与这些数字的应用相关的一切。

使用“错误”、“求和”或“排列”等词的解释不如不涉及任何关于随机森林如何工作的讨论的更简单的解释有帮助。

就像如果我想要有人向我解释如何使用收音机一样，我不会期望解释涉及收音机如何将无线电波转换为声音。

解决方案

使用“错误”，“求和”或“置换”单词的解释将不如有用，而是一个简单的解释，不涉及关于随机森林的工作方式的任何讨论。

就像我想让某人向我解释如何使用无线电一样，我不希望解释涉及无线电将无线电波转换为声音的方式。

如果不深入讨论令人讨厌的波频率技术细节，您如何解释 WKRP 100.5 FM 中的数字“意味着什么”？坦率地说，即使您了解一些技术术语，随机森林的参数和相关性能问题也很难理解。

这是我的一些答案：

- 0 类变量 x 的平均原始重要性得分

-第 1 类变量 x 的平均原始重要性得分

从随机森林进行简化网页, ，原始重要性得分衡量特定预测变量在成功分类数据方面比随机变量有多大帮助。

- 平均减少准确度

我认为这只是在 R模块, ，我相信它衡量了模型中包含该预测变量可以减少分类错误的程度。

-平均基尼系数降低

基尼系数当用于描述社会的收入分配时，被定义为“不平等”，或基于树的分类中“节点不纯度”的度量。基尼系数低（即基尼系数下降幅度较大）意味着特定的预测变量在将数据划分为定义的类别时发挥更大的作用。如果不讨论分类树中的数据根据预测变量的值在各个节点上分割这一事实，就很难描述这一点。我不太清楚这如何转化为更好的性能。

其他提示

对于您的直接关注：更高的值意味着变量更重要。对于您提到的所有措施，这应该是正确的。

随机森林为您提供了相当复杂的模型，因此解释重要性措施可能很棘手。如果您想轻松了解变量在做什么，请不要使用RFS。改用线性模型或（非集装）决策树。

你说：

使用“错误”，“求和”或“置换”单词的解释将不如一个简单的解释，而不必讨论随机森林的工作方式。

除非您挖掘并了解随机森林，这将比以上的解释要比上述更加困难。我认为您在抱怨手册或Breiman手册中的部分：

http://www.stat.berkeley.edu/~breiman/randomforests/cc_home.htm#varimp

为了弄清变量的重要性，它们用随机垃圾（“输入”）填充它，然后查看预测精度降低了多少。曲折和毛se虫以这种方式工作。我不确定原始的重要性得分是多少。

随机森林有点艰难。尽管RF是一个非常强大的分类器，但它是民主的预测。我的意思是，您可以通过随机捕获变量的随机子集和数据的随机子集并建造树来建造数百或数千棵树。然后对所有未选择数据进行预测，并保存预测。它的坚固性是因为它可以很好地处理数据集的变化（即它在随机高/低的值，偶然的图/样品中平滑，测量相同的东西4种不同的方式等）。但是，如果您有一些高度相关的变量，则两者似乎都很重要，因为它们并非总是包含在每个模型中。

随机森林的一种潜在方法可能是帮助减少预测变量，然后切换到常规购物车或尝试派对套餐以获取基于推理的树型。但是，您必须对数据挖掘问题以及对参数的推断保持警惕。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow