Soglia per modelli sovrapposti
-
02-11-2019 - |
Domanda
È una conoscenza comune in DS che i modelli eccessivi si comportano bene sui dati di addestramento e scarsamente sui dati di test. Ma come decidi se un modello è davvero eccessivo? Non ho nessun posto (libri, corsi online, letteratura su Internet) ho trovato una soglia prescritta per la definizione di un modello come eccessivo.
C'è una soglia per i dati di test? Supponiamo che in una precisione del modello di classificazione (o metrica di valutazione pertinente come richiamo o punteggio F1 o RMSE nella regressione) per i dati di test dovrebbe essere almeno del 75% o dell'80% o di una percentuale X di dati di addestramento. Pertanto, se i dati di addestramento hanno accuratezza del 90%, il modello non è eccessivo fintanto che i dati di test hanno una precisione di almeno il X% del 90%. Quindi c'è una soglia simile a X prescritta.
In attesa di una risposta dai data scientist della comunità. Grazie
Nessuna soluzione corretta