计算文本之间相似性的算法

题

我试图在社交网络的帖子之间取得相似性，但没有找到任何好的算法，想法？

我刚刚尝试了Levenshtein，Jarowinkler等，但其中一个更习惯于与文本进行比较而没有情感。在帖子中，我们可以得到一个文字，说“我真的很喜欢狗”，另一个说“我真的讨厌狗”，我们需要将这种情况分类为完全不同。

谢谢

解决方案

您可能想看看意见挖掘和情感分析让您了解任务的复杂性。

简短的答案：为此，没有“好算法”，只有平庸的算法。这是一个非常困难的问题。祝你好运。

其他提示

啊...但是“我真的爱狗”和“我真的讨厌狗”是完全相似的；），都讨论了对狗的感受。看来您错过了那里的一步：

如果您的算法根据其经验进行调整（即涉及一些学习）。请确保您对第一个分类运行单独的算法实例，以及每个子分类的新算法实例...如果您...不，您可能会发现某个组发现一些组，并且任何时候在同一组上运行算法时，结果几乎相同和/或什么都没有改变。

更新

Apache Mahout 提供许多有用的算法和例子聚类，分类，基因编程，决策森林，建议挖掘。这是Mahout的一些文本分类示例：

我不确定哪个最适合您的问题，但是也许如果您查看它们，您会弄清楚哪个最适合您的特定应用程序。

我的研究是关于情感分析的，我同意皮埃尔的观点，这是一个棘手的问题，鉴于其主观性质，不存在一般算法。我首次尝试的一种方法是将句子映射到情感空间中，并决定其关于句子与情感质心的距离的情绪。您可能会看一下：

上面的句子效果很好；）

许可以下： CC-BY-SA 和归因