Warum verwenden wir Informationen über die Genauigkeit als Spaltkriterium im Entscheidungsbaum?

https://datascience.stackexchange.com/questions/14433

16-10-2019
|

Frage

Im Entscheidungsbaumklassifizierer verwenden die meisten Algorithmen Informationsgewinn als Spittingkriterium. Wir wählen die Funktion mit maximaler Informationsgewinne aus, um sich aufzuteilen.

Ich denke, dass die Verwendung von Genauigkeit anstelle des Informationsgewinns einen einfacheren Ansatz ist. Gibt es ein Szenario, in dem die Genauigkeit nicht funktioniert und der Informationen zu Gewinne ist?

Kann jemand erklären, was die Vorteile der Verwendung von Informationen über die Genauigkeit als Spaltkriterium verwenden?

Lösung

Entscheidungsbäume sind im Allgemeinen anfällig für Überanpassungen, und die Genauigkeit verallgemeinert nicht gut auf unsichtbare Daten. Ein Vorteil des Informationsgewinns besteht darin, dass-aufgrund des Faktors $ -p*log (p) $ in der Entropie-Definition-Leafs mit einer geringen Anzahl von Instanzen weniger Gewicht zugewiesen wird ($ lim_ {p rightarrow 0^{+ }} p*log (p) = 0 $) und es bevorzugt die Teilen von Daten in größere, aber homogene Gruppen. Dieser Ansatz ist normalerweise stabiler und wählt auch die wirkungsvollsten Merkmale nahe der Wurzel des Baumes.

Bearbeiten: Genauigkeit ist normalerweise mit unausgeglichenen Daten problematisch. Betrachten Sie dieses Spielzeugbeispiel:

Weather Wind    Outcome
Sunny   Weak    YES
Sunny   Weak    YES
Rainy   Weak    YES
Cloudy  Medium  YES
Rainy   Medium  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO

Wetter und Wind produzieren nur ein falsches Etikett, weshalb 16/17 die gleiche Genauigkeit haben. Angesichts dieser Daten würden wir jedoch annehmen, dass schwache Winde (75% Ja) für ein positives Ergebnis als sonniges Wetter (50% Ja) prädiktiver sind. Das heißt, Wind lehrt uns mehr über beide Ergebnisse. Da es nur wenige Datenpunkte für positive Ergebnisse gibt, bevorzugen wir den Wind über das Wetter, da der Wind am kleineren Etikettssatz prädiktiver ist, was wir uns hoffen würden, uns eine Regel zu geben, die für neue Daten robuster ist.

Die Entropie des Ergebnisses beträgt $ -4/17*log_2 (4/17) -14/17*log_2 (14/17)) = 0,72 $. Die Entropie für Wetter und Ergebnis beträgt $ 14/17*(-1/14*log_2 (1/14) -13/14*log_2 (13/14)) = 0,31 $, was zu einem Informationsgewinn von 0,41 $ führt. In ähnlicher Weise gibt Wind einen höheren Informationsgewinn von 0,6 $.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit datascience.stackexchange