Comment calculer la précision et rappeler en cluster?

https://stackoverflow.com/questions/657890

19-08-2019
|

Question

Je ne comprends vraiment pas comment calculer la précision et rappeler des applications de clustering.

J'ai la situation suivante:

Étant donné deux ensembles A et B. En utilisant une clé unique pour chaque élément, je peux déterminer lequel des éléments de A et B correspond. Je souhaite regrouper ces éléments en fonction des fonctionnalités (sans utiliser la clé unique bien sûr).

Je fais la mise en cluster mais je ne suis pas sûr de savoir comment calculer la précision et se rappeler. Les formules, selon le document "Graphiques de performances étendues pour la récupération de grappes". ( http://staff.science.uva.nl/~nicu/publications /CVPR01_nies.pdf ) sont:

p = precision = éléments récupérés pertinents / éléments récupérés et r = rappel = éléments pertinents récupérés / éléments pertinents

Je ne comprends vraiment pas quels éléments entrent dans quelle catégorie.

Ce que j’ai fait jusqu’à présent, c’est que j’ai vérifié dans les clusters le nombre de paires que j’avais (en utilisant la clé unique). Est-ce déjà un problème de précision ou de rappel? Et si oui, lequel est-ce et comment puis-je calculer l’autre?

Mise à jour: je viens de trouver un autre document intitulé "Une mesure F pour l’évaluation de la mise en grappes non supervisée avec un nombre non déterminé de grappes". sur http://mtg.upf.edu/files/publications/unsuperf.pdf.

La solution

Je pense que vous découvrirez que wikipedia contient un article sur la précision et le rappel . En bref:

Précision = vrais positifs / (vrais positifs + faux positifs)

Rappel = vrais positifs / (vrais positifs + faux négatifs)

Autres conseils

Il existe plusieurs autres mesures de la validité des clusters que j'utilise dans certaines recherches que j'ai effectuées pour accéder aux méthodes de clustering. Dans les cas où vous avez un jeu de données étiqueté avec des classes (clustering supervisé), vous pouvez utiliser la précision et le rappel comme mentionné ci-dessus, ou pureté et entropie.

Pureté d'un cluster = nombre d'occurrences de la classe la plus fréquente / taille du cluster (cette valeur doit être élevée)

Entropie d'un cluster = mesure de la façon dont les classes dispersées sont avec un cluster (cette valeur doit être faible)

Dans les cas où vous ne possédez pas les étiquettes de classe (clustering non supervisé), les similarités intra et inter sont de bonnes mesures.

Similarité intra-cluster pour un seul cluster = similarité moyenne en cosinus de toutes les paires d'un cluster (elle doit être élevée)

Similarité inter-cluster pour un seul cluster = cosinus moyen de tous les éléments d'un cluster comparé à tous les éléments d'un autre cluster (cette valeur doit être faible)

Ce document contient de bonnes descriptions de ces quatre mesures. http://glaros.dtc.umn.edu/gkhome/fetch/papers /edcICAIL05.pdf

Lien intéressant avec la mesure F non supervisée, je me penche sur la question en ce moment.

Ce que je fais de ce problème est le suivant:

L’un des ensembles A et B est le "positif" un. Supposons que A soit positif

Étant donné que pour un élément de A dans un cluster

L'élément correspondant de B est dans le même cluster. c'est un vrai positif
L'élément correspondant de B n'est pas dans le même cluster. c'est un faux négatif
l'élément non correspondant de B est dans le même cluster. est un faux positif
L'élément non correspondant de B n'est pas dans le même cluster. C'est un vrai négatif.

Ensuite, utilisez simplement

Précision = vrais positifs / (vrais positifs + faux positifs)

Rappel = vrais positifs / (vrais positifs + faux négatifs) comme mentionné par quelqu'un

Je pense que vos définitions posent problème.

La précision et le rappel conviennent aux problèmes de classification, qui sont essentiellement des problèmes à deux grappes. Vous êtes-vous regroupé dans quelque chose comme "bons articles"? (= éléments récupérés) et "éléments incorrects". (= éléments non récupérés), alors votre définition aurait un sens.

Dans votre cas, vous avez calculé le pourcentage de regroupements corrects parmi tous les éléments, ce qui est un peu la même précision, mais pas vraiment car, comme je l'ai dit, les définitions ne s'appliquent pas.

Reportez-vous à la section "Introduction à la recherche d'informations", chapitre 18 (grappe en grappe), pour savoir comment évaluer les algorithmes de grappe. http://nlp.stanford.edu/IR- book / html / htmledition / flat-clustering-1.html

Cette section du livre peut également s'avérer utile car elle traite de paramètres tels que la précision et le rappel: http: // nlp. stanford.edu/IR-book/html/htmledition/evaluation-of-unranked-retrieval-sets-1.html

Le problème de la précision et du rappel, c’est qu’ils exigent généralement que vous sachiez ce que sont les "vraies" étiquettes, alors que dans de nombreux cas (et dans votre description), vous ne connaissez pas les étiquettes, mais vous connaissez les partition à comparer. Je suggérerais le indice de Rand ajusté peut-être:

http://fr.wikipedia.org/wiki/Rand_index

Si vous considérez l'un des ensembles, dites A, clustering d'or et l'autre ensemble (B) en tant que sortie de votre processus de regroupement, les valeurs de précision (exacte) et de rappel peuvent être estimées comme suit: :

Précision = (Nombre d'éléments communs à A et B) / (Nombre d'éléments en B)

Recall = (Nombre d'éléments communs à A et B) / (Nombre d'éléments en A)

À partir de ces mesures standard, la mesure F peut également être estimée.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow