Comment les types de données différentes prétraiter (continue, discrète, catégoriques) avant la décision Learning Tree

https://datascience.stackexchange.com/questions/6721

16-10-2019
|

Question

Je veux utiliser une décision arbre d'apprentissage, tels que le classificateur Forêt aléatoire.

J'ai données de différents types: continu, discret et catégorique. Comment dois-je les données de prétraiter afin d'avoir des résultats cohérents?

La solution

L'un des avantages des arbres de décision est que ordinale données d'entrée (continu ou discret) ne nécessite pas de traitement préalable important. En fait, les résultats doivent être cohérents indépendamment de toute mise à l'échelle ou la normalisation de la traduction, étant donné que les arbres peuvent choisir des points de séparation équivalents. La meilleure Prétraitement des arbres de décision est généralement tout ce qui est plus facile ou tout ce qui est le mieux pour la visualisation, aussi longtemps que cela ne change pas l'ordre relatif des valeurs dans chaque dimension de données.

entrées catégorielles, qui ont pas d'ordre sensible, sont un cas particulier. Si votre mise en œuvre de la forêt au hasard ne dispose pas d'une manière intégrée pour faire face à l'entrée catégorique, vous devriez probablement utiliser un codage 1-chaud:

Si une valeur catégorique a catégories $ n $, vous encodez la valeur en utilisant des dimensions $ n $, l'un correspondant à chaque catégorie.
Pour chaque point de données, si elle est dans la catégorie $ k $, correspondant k $ $ e dimension est à 1, tandis que le reste est réglé sur 0.

Ce codage 1 chaud permet d'effectuer des tests catégorie d'égalité arbres de décision dans une scission depuis l'inégalité se divise sur des données non ordinale ne fait pas beaucoup de sens.

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange