Seuil pour les modèles surévalués

https://datascience.stackexchange.com/questions/61631

02-11-2019
|

Question

C'est une notoriété publique dans DS que les modèles sur-taillés fonctionnent bien sur les données de formation et mal sur les données de test. Mais comment décidez-vous si un modèle est vraiment sur ajustement? Je n'ai nulle part (des livres, des cours en ligne, de la littérature sur Internet) a trouvé un seuil prescrit pour définir un modèle comme suit.

Existe-t-il un seuil pour les données de test? Disons que dans une précision de modèle de classification (ou une métrique d'évaluation pertinente comme le rappel ou le score F1 ou le RMSE en régression) pour les données de test devrait être d'au moins 75% ou 80% ou un pourcentage X des données de formation. Donc, si les données de formation ont une précision de 90%, alors le modèle n'est pas sur-tenu tant que les données de test ont une précision d'au moins x% de 90%. Il y a donc un tel seuil x prescrit.

Dans l'attente d'une réponse des scientifiques des données de la communauté. Merci

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange