Pourquoi est-il mauvais d'utiliser le même ensemble de données de test encore et encore?

https://datascience.stackexchange.com/questions/35767

31-10-2019
|

Question

Je suis cette série Google: Cours de crash d'apprentissage automatique.

Sur le Chapitre sur la généralisation, ils font la déclaration suivante:

De bonnes performances sur l'ensemble de tests sont un indicateur utile de bonnes performances sur les nouvelles données en général, en supposant que:

- L'ensemble de test est assez grand.

- Vous ne trichez pas en utilisant le même ensemble de test encore et encore.

Pourquoi exactement le deuxième point est-il mauvais? Tant que l'on n'utilise pas l'ensemble de tests pour la phase de formation, pourquoi est-il mauvais de continuer à utiliser le même ensemble de tests pour tester les performances d'un modèle? Ce n'est pas comme si le modèle obtiendrait un biais en le faisant (l'ensemble de tests est ne pas Mise à jour de l'un des paramètres du modèle en interne).

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange