Question

Je travaille sur une application de distribution de données qui reçoit des données provenant d'une source et distribue les données à l'application de cibles multiples. Après avoir distribué avec succès plusieurs messages par seconde pendant 8 jours, il a manqué un seul message et n'a pas livré correctement aux clients.

Comme je regardais les journaux que j'ai essayé de trouver quelque chose qui était spécial pour le moment la miss happend -. Soit dans les données, son taux ou une autre condition, mais n'a pas pu trouver quoi que ce soit

Y at-il technique d'exploration de données que je peux utiliser pour déterminer comment cet événement spécifique se distingue des autres événements?

Était-ce utile?

La solution

Vous pouvez regarder détection des valeurs aberrantes . Une technique de base est de tracer plusieurs variables pour un bon nombre de messages et voir si ce message signifie littéralement. Une manière de visualiser plus de deux dimensions est simultanément coordonnées parallèles . Peut-être vous devriez aussi regarder, par exemple, des bacs demi-heure, calculer leurs statistiques et voir s'il y avait un problème dans ce message.

Autres conseils

Je ne pense pas que l'exploration de données est l'outil ici.

Je voudrais ajouter une certaine exploitation forestière systématique (au niveau des interfaces, difficile de déduire les changements d'état internes, et dans votre cas, pourquoi la décision de distribuer ou non été prise) et essayer de reproduire le problème, comprendre ensuite à partir des journaux exactement ce qui se passait faux. Bien qu'il puisse être difficile avec des millions de messages et un bug qui se produisent rarement comme celui-ci.

Désolé, je ne vois pas comment cela est tout sauf une mauvaise compréhension de ce que l'exploration de données est.

Vous connaissez déjà le message troublé, et donc vous savez qu'il est un « aberrant ». Alors, qu'est-ce que vous Minier pour?

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top