我试图在社交网络的帖子之间取得相似性,但没有找到任何好的算法,想法?

我刚刚尝试了Levenshtein,Jarowinkler等,但其中一个更习惯于与文本进行比较而没有情感。在帖子中,我们可以得到一个文字,说“我真的很喜欢狗”,另一个说“我真的讨厌狗”,我们需要将这种情况分类为完全不同。

谢谢

有帮助吗?

解决方案

您可能想看看 意见挖掘和情感分析 让您了解任务的复杂性。

简短的答案:为此,没有“好算法”,只有平庸的算法。这是一个非常困难的问题。祝你好运。

其他提示

啊...但是“我真的爱狗”和“我真的讨厌狗”是完全相似的;),都讨论了对狗的感受。看来您错过了那里的一步:

  1. 运行您的算法并获得一般主题组(即“对狗的感觉”)。
  2. 再次运行您的算法,但是这次是在先前的每个“发现”组上,让您的算法进一步将它们分为子组(即“我讨厌狗”/“我爱狗”)。

如果您的算法根据其经验进行调整(即涉及一些学习)。请确保您对第一个分类运行单独的算法实例,以及每个子分类的新算法实例...如果您...不,您可能会发现某个组发现一些组,并且任何时候在同一组上运行算法时,结果几乎相同和/或什么都没有改变。

更新

Apache Mahout 提供许多有用的算法和 例子 聚类,分类,基因编程,决策森林,建议挖掘。这是Mahout的一些文本分类示例:

我不确定哪个最适合您的问题,但是也许如果您查看它们,您会弄清楚哪个最适合您的特定应用程序。

我的研究是关于情感分析的,我同意皮埃尔的观点,这是一个棘手的问题,鉴于其主观性质,不存在一般算法。我首次尝试的一种方法是将句子映射到情感空间中,并决定其关于句子与情感质心的距离的情绪。您可能会看一下:

http://dtminredis.housing.salle.url.edu:8080/emolib/

上面的句子效果很好;)

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top