我想使用一些决策树学习,例如随机森林分类器。

我有不同类型的数据:连续,离散和分类。我必须如何进行预处理数据才能获得一致的结果?

有帮助吗?

解决方案

决策树的好处之一是,序数(连续或离散)输入数据不需要任何重要的预处理。实际上,由于树木可以选择等效的分裂点,因此结果应保持一致。对于决策树的最佳预处理通常是最简单或最适合可视化的东西,只要它不会改变每个数据维度内的值的相对顺序。

没有明智的顺序的分类输入是一种特殊情况。如果您的随机森林实施没有内置的方式来处理分类输入,则可能应该使用1速编码:

  • 如果一个分类值具有$ n $类别,则使用$ n $ dimensions编码值,一个对应于每个类别。
  • 对于每个数据点,如果在类别$ k $中,相应的$ k $ th维度设置为1,而其余的则将其设置为0。

这种1速编码允许决策树以一个拆分执行类别平等测试,因为不平等数据上的不平等分裂没有多大意义。

许可以下: CC-BY-SA归因
scroll top