按 5 星评级排序的更好方法是什么？

https://stackoverflow.com/questions/1411199

05-07-2019
|

题

我正在尝试使用 5 星级系统按客户评级对一堆产品进行排序。我设置的网站没有很多评级，并且会继续添加新产品，因此通常会有一些评级较低的产品。

我尝试使用平均星级，但当评级数量较少时，该算法会失败。

例如，具有 3x 5 星级评级的产品会比具有 100x 5 星级评级和 2x 2 星级评级的产品显示得更好。

第二个产品不应该显示得更高吗，因为它在统计上由于评级数量较多而更值得信赖？

解决方案

2015 年之前，互联网电影数据库 (IMDb) 公开列出了用于排名的公式前 250 名电影列表。去引用：

计算最受好评的 250 部作品的公式给出了 真实贝叶斯估计:
weighted rating (WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C
在哪里：

R = 电影的平均值（平均值）

v = 电影的票数

m = 进入前 250 名所需的最低票数（当前为 25000）

C = 整个报告的平均投票数（当前为 7.0）

对于前 250 名，仅考虑普通选民的投票。

这并不难理解。公式为：

rating = (v / (v + m)) * R +
         (m / (v + m)) * C;

可以在数学上简化为：

rating = (R * v + C * m) / (v + m);

变量是：

R – 项目自身的评级。R 是该项目得票的平均值。（例如，如果某个项目没有投票，则其 R 为 0。如果有人给它 5 颗星，R 就变成 5。如果其他人给它 1 星，R 就变成 3，平均值 [1, 5]. 。等等。）
C – 平均项目的评级。找出数据库中每一项（包括当前项）的 R，并取平均值；那是C。（假设数据库中有4个项目，它们的评分为 [2, 3, 5, 5]. 。C 是 3.75，这些数字的平均值。）
v – 某个项目的投票数。（再举个例子，如果有 5 个人对某个项目投票，则 v 就是 5。）
m – 可调参数。应用于评级的“平滑”量基于与 m 相关的票数 (v)。调整 m 直到结果令您满意为止。并且不要将 IMDb 对 m 的描述误解为“列出所需的最低票数”——该系统完全能够对票数少于 m 的项目进行排名。

公式所做的一切就是：在计算平均值之前添加 m 张假想票，每张票的值为 C。一开始，当没有足够的数据时（即票数大大少于 m)，这导致空白处被填充为平均数据。然而，随着选票的积累，最终假想的选票将被真实的选票淹没。

在这个系统中，投票不会导致评级大幅波动。相反，他们只是在某个方向上稍微扰乱它。

当票数为零时，仅存在虚票，且全部为 C。因此，每个项目的评级都是从 C 开始。

也可以看看：

A 演示. 。单击“解决”。
其他解释 IMDb 系统。
一个解释类似的贝叶斯星级评级系统。

其他提示

请参阅此页以获得对星的良好分析基于评级系统，这一个对于基于upvote- / downvote的系统的良好分析。

对于上下投票，您希望估计在给定评级的情况下，“真实”投票的概率。得分（如果你有无限的评分）大于一些数量（比如，你正在排序的其他项目的类似数字）。

请参阅第二篇文章的答案，但结论是您要使用Wilson的信心。本文给出了方程式和示例Ruby代码（很容易翻译成另一种语言）。

埃文·米勒展示贝叶斯方法对 5 星级评级进行排名：

在哪里

nk 是的数量 k-星级评定，
sk 是“价值”（以点为单位） k 星星,
N 是总票数
K 是最大星数（例如K=5，在五星级评级系统中）
z_alpha/2 是个 1 - alpha/2 正态分布的分位数。如果您希望实际排序标准至少与计算的排序标准一样大，有 95% 的置信度（基于贝叶斯后验分布），请选择 z_alpha/2 = 1.65.

在Python中，排序标准可以通过以下方式计算

def starsort(ns):
    """
    http://www.evanmiller.org/ranking-items-with-star-ratings.html
    """
    N = sum(ns)
    K = len(ns)
    s = list(range(K,0,-1))
    s2 = [sk**2 for sk in s]
    z = 1.65
    def f(s, ns):
        N = sum(ns)
        K = len(ns)
        return sum(sk*(nk+1) for sk, nk in zip(s,ns)) / (N+K)
    fsns = f(s, ns)
    return fsns - z*math.sqrt((f(s2, ns)- fsns**2)/(N+K+1))

例如，如果一个项目有 60 个五星级、80 个四星级、75 个三星级、20 个二星级和 25 个一星级，则其总体星级约为 3.4：

x = (60, 80, 75, 20, 25)
starsort(x)
# 3.3686975120774694

您可以使用以下命令对 5 星级评级列表进行排序

sorted([(60, 80, 75, 20, 25), (10,0,0,0,0), (5,0,0,0,0)], key=starsort, reverse=True)
# [(10, 0, 0, 0, 0), (60, 80, 75, 20, 25), (5, 0, 0, 0, 0)]

这显示了更多评级对整体星级值的影响。

您会发现，该公式倾向于给出总体评级，该评级比亚马逊，eBay或沃尔玛等网站报道的整体评级低一些，尤其是在票数很少的情况下（例如，少于300）。这反映了较少的选票所带来的较高的不确定性。随着选票数量的增加（成千上万）总体上，这些评级公式应趋于（加权）平均评级。

由于公式仅取决于项目本身的5星评级的频率分布，因此很容易结合来自多个来源的评论（或者，更新通过简单地将频率分布添加在一起，以新的票数为单位。

与IMDB公式不同，该公式不取决于所有项目的平均得分，也不取决于人为的最低票数截止值。

此外，此公式利用了全频率分布 - 不仅是恒星的平均数量和选票数。而且，应该将拥有十个5星和十个1星的物品视为具有比（因此不像高度的）具有二十三星级评级的物品更大的不确定性，这是有道理的。

In [78]: starsort((10,0,0,0,10))
Out[78]: 2.386028063783418

In [79]: starsort((0,0,20,0,0))
Out[79]: 2.795342687927806

IMDb 公式没有考虑到这一点。

您可以按中位数排序，而不是算术平均值。在这种情况下，两个示例的中位数均为5，因此两者在排序算法中的权重相同。

您可以使用模式达到同样的效果，但中位数可能是更好的主意。

如果您想为具有100个5星评级的产品分配额外的权重，您可能希望采用某种加权模式，为具有相同中位数的评级分配更多权重，但总体投票更多。

那么，根据您想要制作它的复杂程度，您可以根据该人制作的收视率以及这些收视率来对收视率进行加权。如果这个人只做了一个评级，那么它可能是一个评级，并且可能数量更少。或者如果这个人在类别a中评定了很多东西，但在类别b中评分很少，并且平均评分为1.5星的5星级，则听起来像a类别可能会被该用户的低平均分数人为压低，并且应该调整。

但足以让它变得复杂。让我们简单一点。

假设我们只使用两个值，即ReviewCount和AverageRating，对于特定项目，我认为将ReviewCount视为＆＃8220;可靠性＆＃8221;值。但是我们并不想仅仅为了低评价量项目而降低分数：单个一星评级可能与单个5星评级一样不可靠。所以我们想要做的可能是中间平均值：3。

所以，基本上，我正在考虑一个像X * AverageRating + Y * 3 =我们想要的评级等式。为了使这个值正确，我们需要X + Y等于1.此外，当ReviewCount增加时，我们需要X增加值...复审计数为0，x应为0（给出一个等式＆＃8220; 3＆＃8221;），并且无限回顾计数X应为1（这使得等式= AverageRating）。

那么什么是X和Y方程？对于X方程，当自变量接近无穷大时，希望因变量渐近逼近1。一组很好的方程式就像： Y = 1 /（因子^ RatingCount）和（利用X必须等于1-Y的事实） X = 1＆＃8211; （1 /（因子^ RatingCount）

然后我们可以调整“因子”。以适应我们正在寻找的范围。

我使用这个简单的C＃程序尝试了几个因素：

        // We can adjust this factor to adjust our curve.
        double factor = 1.5;  

        // Here's some sample data
        double RatingAverage1 = 5;
        double RatingCount1 = 1;

        double RatingAverage2 = 4.5;
        double RatingCount2 = 5;

        double RatingAverage3 = 3.5;
        double RatingCount3 = 50000; // 50000 is not infinite, but it's probably plenty to closely simulate it.

        // Do the calculations
        double modfactor = Math.Pow(factor, RatingCount1);
        double modRating1 = (3 / modfactor)
            + (RatingAverage1 * (1 - 1 / modfactor));

        double modfactor2 = Math.Pow(factor, RatingCount2);
        double modRating2 = (3 / modfactor2)
            + (RatingAverage2 * (1 - 1 / modfactor2));

        double modfactor3 = Math.Pow(factor, RatingCount3);
        double modRating3 = (3 / modfactor3)
            + (RatingAverage3 * (1 - 1 / modfactor3));

        Console.WriteLine(String.Format("RatingAverage: {0}, RatingCount: {1}, Adjusted Rating: {2:0.00}", 
            RatingAverage1, RatingCount1, modRating1));
        Console.WriteLine(String.Format("RatingAverage: {0}, RatingCount: {1}, Adjusted Rating: {2:0.00}",
            RatingAverage2, RatingCount2, modRating2));
        Console.WriteLine(String.Format("RatingAverage: {0}, RatingCount: {1}, Adjusted Rating: {2:0.00}",
            RatingAverage3, RatingCount3, modRating3));

        // Hold up for the user to read the data.
        Console.ReadLine();

所以你不打扰复制它，它会给出这个输出：

RatingAverage: 5, RatingCount: 1, Adjusted Rating: 3.67
RatingAverage: 4.5, RatingCount: 5, Adjusted Rating: 4.30
RatingAverage: 3.5, RatingCount: 50000, Adjusted Rating: 3.50

那样的东西？你显然可以调整“因子”。获得所需权重所需的价值。

如果您只需要一个快速且廉价的解决方案，并且无需使用大量计算即可正常工作，这是一个选择（假设 1-5 的评分标准）

SELECT Products.id, Products.title, avg(Ratings.score), etc
FROM
Products INNER JOIN Ratings ON Products.id=Ratings.product_id
GROUP BY 
Products.id, Products.title
ORDER BY (SUM(Ratings.score)+25.0)/(COUNT(Ratings.id)+20.0) DESC, COUNT(Ratings.id) DESC

通过添加 25 并除以总评分 + 20，您基本上将 10 个最差分数和 10 个最佳分数添加到总评分中，然后进行相应排序。

这确实存在已知问题。例如，它不公平地奖励评分很少的低分产品（如这个图表明，平均得分为 1 且只有一个评级的产品得分为 1.2，而平均得分为 1 且 1k+ 评级的产品得分接近 1.05）。你也可以说它不公平地惩罚了评分很少的高质量产品。

此图表显示了 1-1000 评分范围内的所有 5 个评分会发生什么情况：http://www.wolframalpha.com/input/?i=Plot3D%5B%2825%2Bxy%29/%2820%2Bx%29%2C%7Bx%2C1%2C1000%7D%2C%7By%2C0%2C6% 7天%5天

你可以看到最低收视率的上升，但总的来说，我认为这是一个公平的排名。你也可以这样看：

http://www.wolframalpha.com/input/?i=Plot3D%5B6-%28%2825%2Bxy%29/%2820%2Bx%29%29%2C%7Bx%2C1%2C1000%7D%2C%7By %2C0%2C6%7D%5D

如果您在此图表中的大多数位置上扔下一颗弹珠，它会自动滚动到具有更高分数和更高评级的产品。

显然，评级较低会使这个问题陷入统计障碍。从来没有......

提高综合评级质量的一个关键因素是“评估评估者”，即保持每个评级的评级标签“评估者”。提供（相对于其他人）。这允许在聚合过程中权衡他们的投票。

另一个解决方案，更多的是应对，是为最终用户提供基础项目的计票（或其范围指示）。

一个选项就像微软的TrueSkill系统，其中得分由 mean - 3 * stddev 给出，其中常量可以调整。

看了一会后，我选择了贝叶斯系统。如果有人使用Ruby，这里有一个宝石：

https://github.com/wbotelhos/rating

我强烈推荐Toby Segaran编写的集体智慧编程（OReilly）ISBN 978-0-596-52932-1，该书讨论了如何从人群行为中提取有意义的数据。示例是在Python中，但它很容易转换。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow