Domanda

Sono su un problema di classificazione binaria con le metriche di AUC. Ho fatto una scissione a caso il 70%, il 30% per i set di allenamento e di test. I miei primi tentativi utilizzando foresta casuale con Hyper-parametri di default mi ha dato AUC 0.85 sul set di prova e 0,96 sul training set. Così, il modello overfits. Ma il punteggio di 0,85 è abbastanza buono per la mia attività. Ho fatto anche un 5-piega la convalida incrociata con lo stesso modello e stessa iper-parametri ed i risultati esposti test sono stati costantemente qualcosa tra 0,84 e 0,86

La mia domanda è: posso credere sul punteggio 0,85 e utilizzare questo modello in produzione?

È stato utile?

Soluzione

Sì, se il vostro 0.85 AUC è abbastanza buono per il vostro caso d'uso che questo è un buon modello abbastanza. Le prestazioni sul set di formazione indica quanto bene il vostro modello conosce il training set. Questo noi non veramente a cuore, è proprio quello che il modello cerca di ottimizzare. Le prestazioni sul set di prova è un'indicazione su quanto il vostro generalizza modello. Questo è ciò che ci sta a cuore, e il tuo modello ottiene a circa 0,85 come una stima per la vostra generalizzazione. Le differenze tra la formazione e la sperimentazione sono la norma e in questo caso potrebbe essere che si potrebbe ottenere una migliore prestazione con l'aggiunta di più forte regolarizzazione ma se 0.85 è abbastanza buono, andare per esso!

Altri suggerimenti

I miei primi tentativi di [...] mi ha dato AUC 0.85 sul set di prova e 0,96 sul training set. Quindi, il modello overfits.

Questo non è del tutto vero.

See, ( quasi ) ogni stimatore avrà un punteggio migliore previsione sui dati di allenamento rispetto ai dati di test. Ciò non significa che ogni sovradattamento stimatore.

E 'normale anche se per habe un punteggio migliore sul set di formazione, come lo stimatore è costruito su di esso, cioè la sua parametri sono a muro grazie ad essa. Tuttavia, il vostro stimatore può andare bene più o meno i dati di allenamento.

Prendiamo il vostro esempio a caso-Forest. Se la profondità è troppo alto, si adatta modo di molto i dati di allenamento: sovradattamento . Se la profondità non è abbastanza alto, sarà difficile generalizzare ad altri dati:. Si underfit

  1. Underfitting: 0.96 sul convoglio & 0.82 sul set di test
  2. Possibile montaggio buono: 0.96 sul convoglio & 0.89 sul set di test
  3. overfitting: 0.96 sul convoglio & 0.75 sul set di test

Come buoni dati scienziato, si desidera che il modello per montare l'abbastanza dati generalizzare bene ma non troppo per non sovradattamento. Per controllare come il vostro modello di generalizzare, le tecniche si usa cross-validazione. Il valore che si ottiene è abbastanza-più o meno quello che si otterrà con il nuovo valore di ± la varianza associata a questa convalida incrociata

PS: Utilizzo di convalida incrociata troppo spesso su dati di test fa, in modo , l'apprendimento questi dati come li si sceglie di massimizzare il punteggio del test. Si può portare a una forma di sovradattamento per il futuro nuovi dati.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
scroll top