有哪些好的算法可以自动标记城市/地区或来源的文字?也就是说,如果博客是关于纽约的,我怎么能以编程方式讲述。是否有声称以任何确定程度这样做的包裹/文件?

我已经看过一些基于tfidf的方法,专有名词交叉点,但到目前为止,没有引人注目的成功,我很欣赏这些想法!

更一般的问题是在给定一些主题列表的情况下将文本分配给主题。

简单/幼稚的方法优先于贝叶斯方法,但我是开放的。

有帮助吗?

解决方案

您正在寻找命名实体识别系统,或简称NER 。有几个 很好 工具包可以帮助您。特别是LingPipe有一个非常体面的教程 CAGEclass 似乎是针对地理位置名称的NER而定,但我还没有使用它。

这里很不错关于NER与地理名称的困难的博客文章。

如果你使用Java,我建议使用LingPipe NER类。 OpenNLP也有一些,但前者有更好的文档。

如果您正在寻找一些理论背景,请 Chavez et al。 (2005)构建了一个有趣的参数并记录下来。

其他提示

潜在语义映射似乎非常适合。这就像你可能找到的算法一样幼稚。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top