如何计算的精确度和召回，在群集的?

题

我真的很困惑如何计算的精确度和召回，在群集的应用。

我有以下情况：

鉴于两组A和B。通过使用一个独特的关键每个元素的我可以确定哪些要素的A和B相匹配。我想集这些要素基于功能(不使用唯一的关键当然)。

我做的聚类但我不知道该如何计算的精确度和召回。该公式，根据文件"扩展绩效图表集群检索"(http://staff.science.uva.nl/~新生儿重症监护室/出版物/CVPR01_nies.pdf)是：

p=精=检索有关项目/项目和检索 r=回顾=检索有关项目的/有关的项目

我真的没有得到什么因素属于这一类。

我做了什么迄今为止是的，我查内簇的多少匹配对我有(使用的唯一key)。是，已经在一个精密或召回?如果是，哪个是真的我该如何计算的其他一个？

更新：我刚刚发现的另一份文件，其标题为"一个F-测量对于评价无人监督的集群与非确定数量的集群"在 http://mtg.upf.edu/files/publications/unsuperf.pdf.

解决方案

我想你会发现维基百科对精度有帮助文章和回忆。简而言之：

精密=真阳性/（真阳性+假阳性）

回想=真阳性/（真positivies +假阴性）

其他提示

有集群效力的其他几个措施，我一直在使用中的一些研究，我在访问聚类方法在做。在你有标记类（监督聚类），可以使用精度和召回如上所述，或纯度和熵数据集的情况。

集群的纯度=最频繁的类的出现的次数/该簇的大小（这应该是高）

集群的熵=的类如何分散是具有簇的量度（这应该是低）

在这里你没有阶级标签（无监督聚类）的情况下，内部和之间的相似性是很好的措施。

的单一丛集群集内相似=群集之内的所有对（这应该是高）的平均余弦相似度

的单一丛集簇间相似性=相比在每一个其它集群的所有项目（这应该是低）在一个簇的所有项目的平均余弦SIM

这纸具有这些措施全部四个的一些很好的说明。 http://glaros.dtc.umn.edu/gkhome/fetch/papers /edcICAIL05.pdf

与监督的F-措施尼斯链接，我期待成现在。

什么我做这个问题是：

一套A和B是"积极的"一个。让我们假设是正

鉴于元素的一个集群中

然后只用

精=true阳性/(真正面+误报)

回顾=true阳性/(true positivies+假阴性) 如前所通过的人

我觉得有你定义一个问题。

精密和召回适合于分类的问题，这两种基本集群的问题。假如你聚集到像“好项目”（=检索项）和“坏项目”（=非检索到的项目），那么你的定义将是有意义的。

在你的情况计算出正确的集群所占的百分比的所有项目，这是有点像精度，但不是真的，因为正如我所说的定义并不适用。

请参阅“现代信息检索”，第18章（脂肪聚类），各种方法来评估聚类算法。 http://nlp.stanford.edu/IR-书/ HTML / htmledition /平坦的聚类-1.HTML

精度和召回的问题是，它们通常需要你有“真”的标签是什么了，而在很多情况下（在你的描述）你不知道的标签，但你知道的分区来比较。我建议在调整兰特指数或许是：

如果考虑集之一，比如说A，如<强>金聚类并与另一组（B）作为聚类过程的输出，（精确）的精度和召回值可以被估计为：

精密=（通用于A和B的元素的数量）/（B中元素的数量）

回想=（通用于A和B的元素的数量）/（以A元素的数量）

从这些标准的F量度也可被估算。

许可以下： CC-BY-SA 和归因