我正在编写一些关于红宝石通过wn命令行工具访问wordnet的实验,因为我放弃了使wordnet gem正常工作的事情。

我希望能够查找感官的频率,最终能够计算出给定单词是名词/形容词/动词/副词的概率。

我已经尝试过文档,但是它并不总是那么明确。

有可能不使用wn工具而已吗?我是否认为Wordnet包含此信息?

有帮助吗?

解决方案

据我所知,虽然在返回结果中从最高到最不频繁地排序了同义词集,但它本身并不包括频率。

您可以通过多种方式获得实际频率。也许最可靠的方法是使用像Penn TreeBank这样的带有POS标签的语料库,然后自己计算值。不幸的是,如果您不在大学里,很难获得免费的副本。另一种选择是建立自己的语料库(可能来自博客,古腾堡计划书,维基百科等),在其上运行POS标记器,然后从中计算频率。显然,这种方法将被偏斜,但是比手动标记语料库要容易得多。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top