Wie Sie verschiedene Arten von Daten (kontinuierlich, diskret, kategorisch) vor dem Entscheidungsbaumlernen vorbereiten

https://datascience.stackexchange.com/questions/6721

16-10-2019
|

Frage

Ich möchte ein Entscheidungsbaumlernen wie den zufälligen Waldklassifikator verwenden.

Ich habe Daten unterschiedlicher Typen: kontinuierlich, diskret und kategorisch. Wie muss ich Daten vorbereiten, um konsistente Ergebnisse zu erzielen?

Lösung

Einer der Vorteile von Entscheidungsbäumen besteht darin, dass ordinale (kontinuierliche oder diskrete) Eingabedaten keine signifikante Vorverarbeitung erfordern. Tatsächlich sollten die Ergebnisse unabhängig von einer Skalierung oder translationalen Normalisierung konsistent sein, da die Bäume äquivalente Spaltungspunkte wählen können. Die beste Vorverarbeitung für Entscheidungsbäume ist in der Regel das, was für die Visualisierung am einfachsten ist oder was auch immer am besten ist, solange es die relative Reihenfolge der Werte in jeder Datendimension nicht ändert.

Kategorische Eingaben, die keine vernünftige Reihenfolge haben, sind ein Sonderfall. Wenn Ihre zufällige Waldimplementierung keine integrierte Möglichkeit hat, sich mit kategorialen Eingaben zu befassen, sollten Sie wahrscheinlich eine 1-Hot-Codierung verwenden:

Wenn ein kategorischer Wert $ n $ Kategorien enthält, codieren Sie den Wert mit $ n $ Dimensionen, eine entsprechend jeder Kategorie.
Für jeden Datenpunkt wird die entsprechende Dimension von $ k $ th auf 1 gesetzt, während der Rest auf 0 gesetzt ist.

Diese 1-Hot-Codierung ermöglicht es Entscheidungsbäumen, Kategorie-Gleichstellungstests in einer Spaltung durchzuführen, da die Ungleichheit auf nicht ordinalen Daten nicht viel sinnvoll ist.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit datascience.stackexchange