Soglia per modelli sovrapposti

https://datascience.stackexchange.com/questions/61631

02-11-2019
|

Domanda

È una conoscenza comune in DS che i modelli eccessivi si comportano bene sui dati di addestramento e scarsamente sui dati di test. Ma come decidi se un modello è davvero eccessivo? Non ho nessun posto (libri, corsi online, letteratura su Internet) ho trovato una soglia prescritta per la definizione di un modello come eccessivo.

C'è una soglia per i dati di test? Supponiamo che in una precisione del modello di classificazione (o metrica di valutazione pertinente come richiamo o punteggio F1 o RMSE nella regressione) per i dati di test dovrebbe essere almeno del 75% o dell'80% o di una percentuale X di dati di addestramento. Pertanto, se i dati di addestramento hanno accuratezza del 90%, il modello non è eccessivo fintanto che i dati di test hanno una precisione di almeno il X% del 90%. Quindi c'è una soglia simile a X prescritta.

In attesa di una risposta dai data scientist della comunità. Grazie

Nessuna soluzione corretta

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a datascience.stackexchange