我需要分析用户的帖子并将其分类。例如:我必须根据文本将每个帖子分类为“购买”帖子或“出售”帖子 - “我正在寻找 我的房子”被归类为“出售”。问题是,事情往往没那么简单——“我想卖掉我的旧房子”也需要归类为“出售”。“我在找房子”变成了“买房子”。我还想根据相关项目对这些帖子进行分类 - 例如,上面的帖子将被分类为“购买”和“房屋”。

在分析和理解用户输入时,有人可以推荐一个好的方法/好的框架/技术吗?谢谢。

有帮助吗?

解决方案

你说得对;这是一件很难做到的事情。

雅虎!有一个 术语提取 您可以使用的 API/Web 服务。这是一种对您自己的文本进行语言分析的非常好的方法,而无需您自己编写一百万行代码。我没有使用过它,所以我不知道它在类似含义下的效果如何,正如你的问题所问的那样。

其他提示

你所说的基本上是 贝叶斯过滤问题, ,也用于垃圾邮件过滤。也可以看看 这次演讲. 。这是一个相当复杂的区域。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top