Question

Je suis sur un problème de classification binaire avec les paramètres AUC. Je l'ai fait une scission au hasard 70%, 30% pour la formation et de test. Mes premières tentatives à l'aide de forêt aléatoire avec les paramètres par défaut hyper-auc m'a donné 0,85 sur le plateau de test et 0,96 sur le plateau de formation. Ainsi, le modèle overfits. Mais le score de 0,85 est assez bon pour mon entreprise. J'ai aussi fait un 5 plis validation croisée avec le même modèle et même hyper-paramètres et les résultats du jeu de test ont été constamment quelque chose entre 0,84 et 0,86

Ma question est: puis-je croire sur le score de 0,85 et utiliser ce modèle dans la production?

Était-ce utile?

La solution

Oui, si votre 0,85 AUC est assez bon pour votre cas d'utilisation ce modèle est assez bon. La performance sur l'ensemble de la formation indique à quel point votre modèle connaît l'ensemble de la formation. Ce que nous ne se soucient pas vraiment, il est juste ce que le modèle cherche à optimiser. La performance sur l'ensemble de test est une indication sur la façon dont votre modèle se généralise. C'est ce que nous nous soucions, et votre modèle arrive à environ 0,85 comme une estimation pour votre généralisation. Les différences entre la formation et les tests sont la norme et dans ce cas, il se pourrait que vous pourriez obtenir une meilleure performance en ajoutant une régularisation plus forte, mais si 0.85 est assez bon, foncez!

Autres conseils

Mes premières tentatives [...] m'a donné auc 0,85 sur le plateau de test et 0,96 sur le plateau de formation. Ainsi, le modèle overfits.

Ce n'est pas tout à fait vrai.

Voir, ( presque ) chaque estimateur aura un meilleur score de prédiction sur les données de formation que sur les données de test. Cela ne signifie pas chaque surajustement estimateur.

Il est normal que de habe un meilleur score sur l'ensemble de la formation, comme l'estimateur est construit sur elle, ce qui signifie ses paramètres sont ajustés grâce à elle. Cependant, votre estimateur peut adapter vos données d'entraînement plus ou moins.

Prenons votre exemple Random-Forest. Si la profondeur est trop élevée, vous correspondez façon de bien aux données de formation: surajustement . Si la profondeur est pas assez élevé, il sera difficile de généraliser à d'autres données. Vous underfit

  1. Underfitting: 0.96 sur le plateau de train et 0.82 sur le plateau de test
  2. bonne possible montage: 0.96 sur le plateau de train et 0.89 sur le plateau de test
  3. surapprentissage: 0.96 sur le plateau de train et 0.75 sur le plateau de test

En tant que bonnes données scientifiques, vous voulez que votre modèle pour adapter suffisamment de données pour généraliser bien, mais pas trop pour ne pas surajustement. Pour contrôler la façon dont votre Généraliser modèle, on utilise des techniques de validation croisée. La valeur que vous obtenez est assez-bien ce que vous obtiendrez avec la nouvelle valeur ± la variance associée à cette validation croisée

PS: En utilisant trop souvent la validation croisée des données de test vous fait, de manière , l'apprentissage de ces données que vous les choisissez de maximiser votre score de test. Elle peut conduire à une forme de surapprentissage pour l'avenir de nouvelles données.

Licencié sous: CC-BY-SA avec attribution
scroll top