Ensemble de données de formation diminuant en qualité (Google Data Science Blog)

https://datascience.stackexchange.com/questions/39636

31-10-2019
|

Question

J'ai un algorithme complexe qui décide quand il devrait montrer aux clients d'un magasin uniquement une annonce sur notre site Web, après leur connexion, dans l'espoir qu'ils achèteront ce qui est dans l'annonce. Nous n'avons aucun contrôle ce qui est dans l'annonce, car un autre département de notre entreprise gère cela - notre modèle ne choisit qu'à qui l'annonce est indiquée (nous aimerions garder le nombre de personnes à qui nous montrons l'annonce aussi bas que possible, Parce que nous allons simplement offenser les clients avec l'annonce autrement; cela signifie ne pas afficher l'annonce aux personnes qui se connectent avec l'intention d'acheter quelque chose, ne le montrent que à ceux qui n'achèteraient rien s'ils n'étaient pas présentés une annonce) . Le modèle était une formation en utilisant des données de formation où nous avons montré au hasard certaines publicités de certaines personnes et d'autres et ont enregistré leur réponse respective.

Une mise en œuvre initiale du modèle est en direct et fonctionne décemment bien en classant à qui il est logique de montrer l'annonce. Mais chaque jour, de nouvelles données sont acquises et le modèle est recyclé à l'aide de l'ensemble de données (qui avec chaque recyclage devient plus grand) tous les quelques jours. Mais il y a l'inquiétude que ses performances puissent diminuer si nous continuons à le faire, car l'instance de modèle actuelle influence les nouvelles données qui arrivent, qui est utilisée pour former une future instance de modèle: le pourcentage du client qui ne sera pas affiché d'annonces au hasard diminuera et il y aura de plus en plus de données de client qui se sont présentées à une annonce uniquement si le modèle pense qu'ils achèteront ce qui y est.

Avons-nous raison de nous inquiéter que nos données deviennent biaisées à l'avenir?

La Blog non officiel de Google Data Sicence] [2, Section «Utilisation de la randomisation dans la formation» pourrait contenir des informations utiles sur ce problème, mais malheureusement, il est trop technique pour moi de donner beaucoup de sens à tout cela. Autre que le message "Oui, inquiétez-vous à ce sujet: mais continuez à envoyer une petite partie des publicités au hasard et tout ira bien", que j'ai obtenu, que puis-je faire d'autre pour réduire ce problème?

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange