Twitter 的热门话题算法如何决定从推文中提取哪些单词?
题
我看见 这个问题, ,重点关注“布兰妮·斯皮尔斯”问题。但我有一个不同的问题。算法如何确定哪些单词或短语需要排名?例如,如果我发送一条推文说“迈克尔·杰克逊去世”,它如何知道提取“迈克尔·杰克逊”而不是“去世”?
或者假设亚历克·鲍德温和史蒂文·鲍德温那天出现在新闻中,因此在很多推文中都被提及。它怎么知道以不同的方式对待这两个名字而不是仅仅删除“鲍德温”?
天真地,我可以将这个问题视为 NP 完全问题(你必须将推文中的所有潜在短语与其他人的推文中的所有潜在短语进行比较)。
解决方案
这个问题的一般解决方案是 “词频、逆文档频率”(tf-idf).
这是一种统计方法,可以找到比其他单词/术语更相关的单词/术语,因为它们不经常出现。在这种情况下,与常见的英语单词“死”相比,“迈克尔·杰克逊”这个名字的频率可能非常低。
至于亚历克·鲍德温 vs.Steven Baldwin - 这些将在期间被识别为单独的 词性标注 - 它们将被标记为单独的专有名词。
其他提示
我相信它会寻找常见的单词集。另外,他们似乎正在引用 http://www.whatthetrend.com/
除此之外,可能还涉及轻微的人为控制。
不隶属于 StackOverflow