Overfitting per la classe di minoranza dopo percosse con / foreste casuali

https://datascience.stackexchange.com/questions/11656

16-10-2019
|

Domanda

ho usato colpì per fare un modello predittivo, con classe 1 con 1800 campioni e 35000+ di classe 0 campioni. Quindi, come per percosse, campioni sintetici sono stati creati e la foresta a caso è stato addestrato.

Tuttavia, ora sto ottenendo la maggior parte dei risultati come classe 1 quando verifico il mio modello. Ho solo cercato di testarlo sul set di formazione e questo è quello che ho ottenuto:

Senza percosse

Con percosse

Inoltre ho provato Griglia di ricerca, ma che non ha funzionato

Grazie

PS: implementazione percosse utilizzato in pandas con biblioteca UnbalancedDataset

Soluzione

colpì algoritmo dipende dal set di dati che avete. Se si dispone di una grave squilibrio dei dati, come quello che avete nel vostro algoritmo colpì caso potrebbe non essere in grado di aiutare se le variazioni all'interno della classe di minoranza è molto alta e le somiglianze tra le due classi è molto alta. Ma come sapere se questo è il caso. Provare per duplicare campioni dalla stazione classe di minoranza un non lineare, SVM e controllare i risultati se la precisione di classificazione è molto bassa, allora questo il caso.

uso percosse KNN per creare nuovi campioni, ma se la variazione all'interno della classe di minoranza è molto alta quindi utilizzando colpì utilizzerà i campioni che non sono veri e propri vicini di casa, anche. Per essere onesto con te, non esiste una soluzione chiara per questo problema, ma posso suggerire i seguenti: 1. Prova borderline colpì: si tratta di una versione modificata dell'algoritmo di percosse 2. Provare colpì amplificando: si tratta di una versione modificata di AdaBoost dove AdaBoost algoritmo è aumentata con percosse 3. Se è possibile modificare la spinta colpì a considerare percosse borderline, invece di percosse

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a datascience.stackexchange