题

今天早些时候，当我看到 Stackoverflow 中的一个令人惊讶的功能时，我正打算问一个问题。当我写下我的问题标题时，stackoverflow 向我推荐了几个相关的问题，我发现已经有两个类似的问题了。太棒了！

然后我开始思考如何实现这样的功能。我如何按相关性对问题进行排序：

这是一个简单的工作流程还是一个复杂的评分算法？也许是为了增加召回率？有没有一些库可以实现这个功能？您还会考虑哪些其他方面？也许杰夫可以自己回答！你是如何在 Stackoverflow 中实现这一点的？:)

解决方案

实现这种算法的一种方法是根据启发式函数对问题进行排名，该函数使用以下步骤分配“相关性”权重因子：

对“新”问题应用噪声过滤器，以删除大量对象中常见的单词，例如：“该”、“和”、“或”等
获取“新”问题中包含的与网站上已发布的问题集的单词相匹配的单词数。[A]
获取“新”问题中的单词与可用单词之间的标签匹配数。[乙]
根据 [A] 和 [B] 计算“相关权重”为“x[A] + y[B]”，其中 x 和 y 是权重乘数（为 [B] 分配更高的权重乘数，因为标记更相关比简单的单词搜索）
获取“相关权重”最高的前 5 个问题。

启发式方法可能需要进行调整才能获得最佳结果，但它应该有效。

其他提示

你的问题似乎类似于这个, ，其中有一些额外的答案。

抱歉，我不知道我可以在这里建议任何直接的 API 参考，而且我从未使用过 Lucene。

不过，我知道 Google 桌面使用查询 API 来对相关搜索结果进行排名和建议。有关 API 的更多信息，请参见这里.

也许其他人可以插话并指导你。

StackOverflow 不会在某个时候开源吗？如果是这样，您随时可以了解他们是如何做到的。

更新：看来他们说他们可能开源它。我希望他们这样做。

许可以下： CC-BY-SA 和归因

如何实现“相关”程度度量算法？