Bagging gegen Tropfen in tiefen neuronalen Netzwerken

https://datascience.stackexchange.com/questions/8860

16-10-2019
|

Frage

Das Backen ist die Erzeugung mehrerer Prädiktoren, die als einzelner Prädiktor als VersaSble funktionieren. Dropout ist eine Technik, die einem neuronalen Netzwerk unterrichtet, um alle möglichen Subnetze durchschnittlich zu durchschnittlich. Wenn Sie die wichtigsten Kaggle -Wettbewerbe betrachten, scheinen diese beiden Techniken sehr oft zusammen eingesetzt zu werden. Ich kann neben der tatsächlichen Implementierung keinen theoretischen Unterschied sehen. Wer kann mir erklären, warum wir beide in einer wirklichen Anwendung verwenden sollten? Und warum verbessern sich die Leistung, wenn wir beide verwenden?

Lösung

Das Backen und Abbrecher erreichen nicht das Gleiche, obwohl beide Arten von Modell gemittelt sind.

Sacking ist ein Betrieb in Ihrem gesamten Datensatz, der Modelle in einer Teilmenge der Trainingsdaten ausbildert. Daher werden ein bestimmtes Modell nicht ein Trainings Beispiele gezeigt.

Aussteigen, Im Gegensatz dazu wird auf Merkmale in jedem Trainingsbeispiel angewendet. Es ist wahr, dass das Ergebnis funktional äquivalent zu schulisch exponentiell vielen Netzwerken (mit gemeinsamen Gewichten!) Und dann gleichermaßen ihre Ausgaben gewichtet wird. Tropfen funktioniert jedoch im Funktionsbereich, was dazu führt, dass bestimmte Funktionen für das Netzwerk nicht verfügbar sind, nicht für vollständige Beispiele. Da sich jedes Neuron nicht vollständig auf einen Eingang verlassen kann, sind Darstellungen in diesen Netzwerken tendenziell verteilter und das Netzwerk ist weniger wahrscheinlich, dass es über ein Überbie ist.

Andere Tipps

Ich fand einen Vergleich der beiden Netze in Max Out Networks was sagt:

Das Abbrechertraining ähnelt dem Sacking (Brewiran, 1994), wo viele verschiedene Modelle auf verschiedenen Teilmengen der Daten geschult werden. Das Ausbruchstraining unterscheidet sich von der Einbindung, da jedes Modell nur für einen Schritt trainiert wird und alle Modelle Parameter teilen. Damit sich dieses Trainingsverfahren (Ausfall) verhalten kann, als würde es ein Ensemble und nicht ein einzelnes Modell trainieren, muss jedes Update einen großen Effekt haben, so dass das von dieser µ induzierte Submodell die aktuelle Eingabe-V-Wellinformation induziert.

Hoffe es wird nützlich sein.

Aussteigen ist eine Regularisierungstechnik, mit der eine Überanpassung in großen neuronalen Netzwerken spezifisch durch die Auslasse einiger der Neuronen in verborgenen Schichten (daher der Namensabbruch für die ausgelassenen Neuronen) nach dem Training vermieden wird. Grundsätzlich sollte das Netzwerk während des Trainings wirklich etwas gelernt, und sollte einige der Neuronen die Präzision der Vorhersagen nicht negativ beeinflussen.

Sacking ist auch eine effektive Regularisierungstechnik, die zur Verringerung der Varianz aus den Trainingsdaten und zur Verbesserung der Genauigkeit Ihres Modells verwendet wird, indem mehrere Kopien von IT verwendet werden, die auf verschiedenen Datenabteilungen aus dem anfänglichen/größeren Trainingsdatensatz trainiert wurden.

Sieh dir das an Frage

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit datascience.stackexchange