如何在决策树学习之前预处理不同类型的数据（连续，离散，分类）

题

我想使用一些决策树学习，例如随机森林分类器。

我有不同类型的数据：连续，离散和分类。我必须如何进行预处理数据才能获得一致的结果？

解决方案

决策树的好处之一是，序数（连续或离散）输入数据不需要任何重要的预处理。实际上，由于树木可以选择等效的分裂点，因此结果应保持一致。对于决策树的最佳预处理通常是最简单或最适合可视化的东西，只要它不会改变每个数据维度内的值的相对顺序。

没有明智的顺序的分类输入是一种特殊情况。如果您的随机森林实施没有内置的方式来处理分类输入，则可能应该使用1速编码：

这种1速编码允许决策树以一个拆分执行类别平等测试，因为不平等数据上的不平等分裂没有多大意义。

许可以下： CC-BY-SA 和归因