La maximisation des attentes peut-elle estimer la matrice de vérité et de confusion à partir de plusieurs sources bruyantes?

datascience.stackexchange https://datascience.stackexchange.com/questions/40086

Question

Supposons que nous ayons $ m $ sources, dont chacune observe bruyamment le même ensemble de $ n $ Événements indépendants de l'ensemble de résultats $ {A, b, c } $. Chaque source a une matrice de confusion, par exemple pour la source $ i $:

$$ c_i = begin {bmatrix} 0,98 & 0,01 & 0,07 0,01 & 0,97 & 0,00 0,01 & 0,02 & 0,93 end {bMatrix} $$

où chaque colonne se rapporte à la vérité, et chaque ligne se rapporte à l'observation. Par exemple. Si le vrai événement est $ B $ puis source $ i $ fera raison 97% du temps et observera $ A $ 1% du temps et $ C $ 2% du temps. Nous pouvons supposer que les éléments diagonaux sont> 95%

Étant donné une séquence de $ n $ événements, où chaque événement $ j $ a été observé par source $ i $ comme $ O_ {i, j} $, il est trivial d'estimer le PMF de la vérité $ T_j $ en résolvant $ P (t_j | o_ {1, j}, points, o_ {m, j}) $ Utilisation de la formule bayésienne (compte tenu de certains priors raisonnables sur les probabilités des événements eux-mêmes, par exemple, uniformes).

Cependant, supposons que nous n'avions pas les matrices de confusion, ni la vérité au sol, et que nous voulions plutôt les estimer tous les deux. Un algorithme est:

  • Commencez avec une matrice de confusion raisonnable pour chaque source $ C_ {i, 0} $
  • Fixation des matrices de confusion $ C_ {i, k} $, estimer les vérités les plus probables $ T_ {j, k} $ Utilisation de la formule de Bayes
  • Fixation de vérités $ T_ {j, k} $, estimer de nouvelles matrices de confusion $ C_ {i, k + 1} $ Sur la base de la fréquence à laquelle chaque source s'est trompée "(prétendument)
  • Répéter les deux dernières étapes incrément $ k $ jusqu'à la convergence

Cela ressemble à l'algorithme EM, mais je ne sais pas comment le montrer formellement. (Non, ce ne sont pas les devoirs.)

1) Ce EM est-il ou un autre algorithme standard dans la fusion de données?

2) A-t-il des garanties de convergence?

3) A-t-il des garanties sur la qualité de la solution et dans quelle mesure les matrices de confusion finales se rapprocheront des véritables matrices de confusion?

4) Y a-t-il des problèmes sur le nombre de paramètres estimés par rapport au nombre d'échantillons? Par exemple. Il semble qu'il y ait $ n + 6m $ paramètres en cours d'estimation - le $ n $ les vérités et le 6 M $ $ Les éléments dans toutes les matrices de confusion (la dernière cellule de chaque colonne est déterminée par les autres).

ÉDITER

Ces deux articles décrivent exactement le problème et comment les utiliser pour le résoudre:

Estimation du maximum de vraisemblance des taux d'erreur d'observateurs à l'aide de l'algorithme EMhttp://crowdsourcing-class.org/readings/downloads/ml/em.pdf

Apprendre des données bruyantes cotisées individuelleshttps://openreview.net/pdf?id=H1SUHGB0Z

Les réponses sont donc:

1) correctement interprété oui c'est EM

2) EM en général converge vers l'optimum local

3) Pas vraiment. Dans ce problème, car les sources sont exactes à 97% +, je m'attends à ce que les estimations soient assez bonnes

4) Je ne pense pas que ce soit un problème - il s'agit d'un algorithme EM "non paramétrique" car les matrices de confusion ne sont pas paramétrées de toute façon. Les tailles d'échantillon avec lesquelles je m'occupe sont dans les 100000, donc ne devrait pas être un problème

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution
scroll top