MySQL全文搜索分数解释

https://stackoverflow.com/questions/230129

04-07-2019
|

题

我最近一直在尝试全文搜索，并对分数值的含义感到好奇。例如，我有以下查询：

SELECT table. * ,
MATCH (
col1, col2, col3
)
AGAINST (
'+(Term1) +(Term1)'
) AS Score
FROM table
WHERE MATCH (
col1, col2, col3
) 
AGAINST (
'+(Term1) +(Term1)'
)

在得分的结果中，我看到一个查询的结果，在0.4667041301727到11.166275978088之间。我认为这是MySQL相关的想法（权重越高）。

我没有得到的是MySQL如何得出这个分数。为什么数字不作为小数或其他东西返回？

如果我运行查询“IN BOOLEAN MODE”怎么办呢？得分总是返回1或0吗？不是所有结果都是1？

希望得到一些启示。感谢。

解决方案

一般来说，相关性取决于每行与搜索词的匹配程度。确切的值取决于很多事情，但它实际上只对比较同一查询中的其他相关值。

如果你真的想要它背后的数学，你可以在内部手册。

其他提示

获取查询“word1 word2”举个例子。

BOOLEAN模式表示您的整个查询与文档匹配（例如，它包含word1和word2）。布尔模式是严格匹配。

通常使用的公式基于矢量空间搜索模型。非常简化，它确定了两个措施来确定一个单词对查询的重要程度。术语频率（文档中经常出现的术语比其他术语更重要）和逆文档频率（在许多文档中出现的术语的权重低于在少数文档中出现的术语）。这被称为 tf-idf ，用作向量空间的基础模型。这些分数构成了向量空间模型的基础，其他人可以对此进行彻底解释。：）

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow