Erstellen obligatorischer Kombinationen von Variablen zum Zeichnen durch Random Forest

https://datascience.stackexchange.com/questions/1094

16-10-2019
|

Frage

Problem

Für meine Aufgabe für maschinelles Lernen erstelle ich eine Reihe von Prädiktoren. Prädiktoren gibt es in "Bündeln" - mehrdimensionale Messungen (3 oder 4 - Dimensional in meinem Fall).

Das Loch "Bündel" macht nur sinnvoll, wenn es gemessen und alle zusammengenommen wurde.

Das Problem ist, dass unterschiedliche "Bündel" von Prädiktoren nur für einen kleinen Teil der Probe gemessen werden können, und diese Teile müssen sich nicht für verschiedene "Bündel" überschneiden.

Da Teile gering sind, führt das Einsetzen zu einer erheblichen Abnahme der Genauigkeit (katastrophal, um genauer zu sein)

Mögliche Lösungen

Ich könnte Dummy -Variablen erstellen, die markieren, ob die Messung für jede Variable stattgefunden hat. Das Problem ist, wenn zufällige Wälder zufällige Variablen zeichnen, dies einzeln.

Es gibt also zwei grundlegende Möglichkeiten, um dieses Problem zu lösen: 1) Kombinieren Sie jedes "Bündel" zu einem Prädiktor. Das ist möglich, aber es scheint, dass Informationen verloren gehen. 2) Machen Sie zufällige Waldvariablen nicht einzeln, sondern durch obligatorische "Bündel".

Problem für zufällige Wald

Da der Zufallswald zufällig Variablen zeichnet, werden Merkmale, die ohne andere von ihrem "Bündel" nutzlos (oder viel weniger nützlich) sind. Ich habe ein Gefühl, das zu einem Genauigkeitsverlust führt.

Beispiel

Zum Beispiel habe ich Variablen a,a_measure, b,b_measure. Das Problem ist Variablen a_measure Machen Sie nur dann Sinn, wenn variabel a ist vorhanden, gleich für b. Also muss ich mich entweder kombinieren aund a_measure in eine Variable oder lassen Sie zufällige Wald beides ziehen, falls mindestens einer von ihnen gezogen wird.

Frage

Was sind die Best Practice -Lösungen für Probleme, wenn verschiedene Prädiktoren für kleine Teile der Gesamtbevölkerung gemessen werden und diese Prädiktoren in obligatorischen "Bündeln" kommen?

Vielen Dank!

Lösung

Möglicherweise möchten Sie eher fehlgeschlagene Bäume als zufällige Wälder in Betracht ziehen. Sie sind auch eine auf Ensemble baumbasierte Methode, aber da diese Methode keine Abmessungen probiert, wird sie nicht auf das Problem gelangt, keinen nützlichen Prädiktor zur Verfügung zu haben, um sich zu einem bestimmten Zeitpunkt aufzuteilen.

Unterschiedliche Implementierungen von GBDT haben unterschiedliche Möglichkeiten, fehlende Werte zu bearbeiten, was in Ihrem Fall einen großen Unterschied macht. Ich glaube, R macht ternäre Spaltungen, was wahrscheinlich gut funktioniert.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit datascience.stackexchange