Frage

Ich versuche, das Random Forests -Paket zur Klassifizierung in R. zu verwenden

Die aufgeführten variablen Wichtigkeitsmaßnahmen sind:

  • mittlere rohe Wichtigkeitsbewertung der Variablen x für Klasse 0
  • mittlere rohe Wichtigkeitsbewertung der Variablen x für Klasse 1
  • MeanDecreaseAccuracy
  • MeanDecreaseGini

Jetzt weiß ich, was diese "bedeuten", wie ich sie kenne, ihre Definitionen. Ich möchte wissen, wie man sie benutzt.

Was ich wirklich wissen möchte, ist, was diese Werte nur im Zusammenhang mit der Genauigkeit bedeuten, was ist ein guter Wert, was ist ein schlechter Wert, was sind die Maximums und Minimums usw.

Wenn eine Variable ein Hoch hat MeanDecreaseAccuracy oder MeanDecreaseGini Bedeutet das, dass es wichtig oder unwichtig ist? Auch alle Informationen zu Rohwerken könnten nützlich sein. Ich möchte alles wissen, was es über diese Zahlen zu wissen gibt, die für die Anwendung von ihnen relevant sind.

Eine Erklärung, die die Wörter "Fehler", "Summierung" oder "permutiert" verwendet, wäre weniger hilfreich als eine einfachere Erklärung, die keine Diskussion darüber beinhaltet, wie zufällige Wälder funktionieren.

Wenn ich wollte, dass mir jemand erklärt, wie man ein Radio benutzt, würde ich nicht erwarten, dass die Erklärung einbezieht, wie ein Radio Radiowellen in Sound umwandelt.

War es hilfreich?

Lösung

Eine Erklärung, die die Wörter "Fehler", "Summierung" oder "permutiert" verwendet, wäre weniger hilfreich als eine einfachere Erklärung, die keine Diskussion darüber beinhaltet, wie zufällige Wälder funktionieren.

Wenn ich wollte, dass mir jemand erklärt, wie man ein Radio benutzt, würde ich nicht erwarten, dass die Erklärung einbezieht, wie ein Radio Radiowellen in Sound umwandelt.

Wie würden Sie erklären, was die Zahlen in WKRP 100,5 FM "bedeuten", ohne in die lästigen technischen Details der Wellenfrequenzen einzugehen? Ehrlich gesagt sind Parameter und damit verbundene Leistungsprobleme mit zufälligen Wäldern schwierig, sich zu verbringen, selbst wenn Sie einige technische Begriffe verstehen.

Hier ist mein Schuss auf einige Antworten:

-Mean rohe Wichtigkeitsbewertung der Variablen x für Klasse 0

-Mean rohe Wichtigkeitsbewertung von Variablen x für Klasse 1

Vereinfachung aus dem zufälligen Wald Website, RAW WEALANCE Score misst, wie viel hilfreicher als zufällig eine bestimmte Prädiktorvariable bei der erfolgreichen Klassifizierung von Daten ist.

-Meandecreaccuracy

Ich denke, das ist nur in der R -Modul, Und ich glaube, es misst, wie viel Einbeziehung dieses Prädiktors in das Modell die Klassifizierungsfehler reduziert.

-Meandecreasegini

Gini wird als "Ungleichheit" definiert, wenn sie zur Beschreibung der Einkommensverteilung durch durch eine Gesellschaft oder als Maß für "Knotenverunreinigung" in der baumbasierten Klassifizierung verwendet wird. Ein niedriger Gini (dh eine höhere Beschreibung von Gini) bedeutet, dass eine bestimmte Prädiktorvariable eine größere Rolle bei der Aufteilung der Daten in die definierten Klassen spielt. Es ist schwer zu beschreiben, ohne darüber zu sprechen, dass Daten in Klassifizierungsbäumen an einzelnen Knoten auf der Grundlage der Werte von Prädiktoren aufgeteilt werden. Ich bin mir nicht so klar, wie sich dies zu einer besseren Leistung niederschlägt.

Andere Tipps

Für Ihr unmittelbares Anliegen: Höhere Werte bedeuten, dass die Variablen wichtiger sind. Dies sollte für alle von Ihnen erwähnten Maßnahmen zutreffen.

Zufällige Wälder geben Ihnen ziemlich komplexe Modelle, sodass es schwierig sein kann, die Wichtigkeitsmaßnahmen zu interpretieren. Wenn Sie leicht verstehen möchten, was Ihre Variablen tun, verwenden Sie keine RFS. Verwenden Sie stattdessen lineare Modelle oder einen (Nichtsemble) Entscheidungsbaum.

Du sagtest:

Eine Erklärung, die die Wörter "Fehler", "Summierung" oder "permutiert" verwendet, wäre weniger hilfreich als eine einfachere Erklärung, die keine Diskussion darüber beinhaltet, wie zufällige Wälder funktionieren.

Es wird schrecklich schwierig sein, viel mehr als das oben genannte zu erklären, es sei denn, Sie graben sich ein und lernen, was mit zufälligen Wäldern ist. Ich gehe davon aus, dass Sie sich entweder über das Handbuch oder über den Abschnitt von Breimans Handbuch beschweren:

http://www.stat.berkeley.edu/~breiman/randomforests/cc_home.htm#varimp

Um herauszufinden, wie wichtig eine Variable ist, füllen sie sie mit zufälliger Müll ("permute") und sehen dann, wie viel Vorhersagegenauigkeit abnimmt. Messecrreaccuracy und Meandecreasegini funktionieren auf diese Weise. Ich bin mir nicht sicher, welche Rohfrequenzwerte sind.

Interpretierbarkeit ist mit zufälligen Wäldern ein bisschen hart. Während RF ein äußerst robuster Klassifizierer ist, macht er seine Vorhersagen demokratisch. Damit meine ich, dass Sie Hunderte oder Tausende von Bäumen bauen, indem Sie eine zufällige Teilmenge Ihrer Variablen und eine zufällige Teilmenge Ihrer Daten einnehmen und einen Baum erstellen. Machen Sie dann eine Vorhersage für alle nicht ausgewählten Daten und speichern Sie die Vorhersage. Es ist robust, weil es sich gut mit den Launen Ihres Datensatzes befasst (dh es glättet zufällig hohe/niedrige Werte, zufällige Diagramme/Proben, messen dasselbe 4 verschiedene Arten usw.). Wenn Sie jedoch einige stark korrelierte Variablen haben, können beide wichtig erscheinen, da sie nicht immer in jedem Modell enthalten sind.

Ein potenzieller Ansatz bei zufälligen Wäldern kann darin bestehen, Ihre Prädiktoren zu verhindern, dann zum normalen Wagen umzusteigen oder das Partypaket für inferenzbasierte Baummodelle auszuprobieren. Dann müssen Sie sich jedoch in Bezug auf Data Mining -Probleme und die Schlussfolgerungen zu Parametern vorstellen.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top