我何时可以使用的每个?

还...是NLTK词形还原有赖于部分语音?那岂不是更准确的,如果它是什么?

有帮助吗?

解决方案

短而密: http://nlp.stanford.edu /IR-book/html/htmledition/stemming-and-lemmatization-1.html

  

两者词干和词形还原的目标是减少字尾变化形式和字的有时派生相关形式到公共碱形式。

     

但是,这两个词在其风味不同。词根通常指的是一种粗略的过程,砍掉的话正确地实现这一目标的大部分时间,而且经常的希望两端包括去除派生词缀。词形还原通常是指适当地做事与使用的词汇和词的形态分析的,通常旨在仅除去变化词尾并返回碱或字,这被称为引理的词典形式。

从NLTK文档:

  

词形还原和词干是归一化的特殊情况。他们确定规范代表对一组相关的字的形式。

其他提示

Lemmatisation 是密切相关 .不同的是 词干工作上的一个单词的不知情的情况下上下文, 因此不能有歧视之间的词语有不同的 含义取决于部分的讲话。但是,词干分析器通常是 更容易实施和运行得更快,和降低的准确度可能不会 此事对于某些应用程序。

例如:

  1. 单词"更好",有"很好"作为其引理。这一链接是错过了 因,因为它需要一字典中查找。

  2. 单词"走"是基本的形式,为单词"走",因此这个 是匹配都产生和lemmatisation.

  3. 单词"会议"既可以是基地形成的一个名词或形式 一个词("满足")根据上下文,例如,"在我们的最后一个 会议",或"我们再次举行会议的明天"。不同于遏制, lemmatisation原则上可以选择适当的理 根据上下文。

来源: https://en.wikipedia.org/wiki/Lemmatisation

目的产生和词形还原是为了减少的形态变化。这是在对比较一般的"术语混为一谈"程序,这也可能地址lexico语义、句法,或者正的变化。

真正的差值之间的产生和词形还原有三个方面:

  1. 因减少了字的形式(伪)茎,而词形还原减少了字形式语言的有效lemmas.这种差异是显而易见的语言更为复杂的形态,但也可以是无关紧要的许多IR应用程序;

  2. 词形还原仅涉及变差异,而产生,也可能处理追溯时派生方差;

  3. 在条款的执行,词形还原通常是更复杂的(尤其是对复杂的形态上的语言),并通常要求某种形式的lexica.Satisfatory遏制,另一方面,可以实现,而不是简单的规则为基础的方法。

词形还原还可以支持由一个部分的语音标注为了消除歧义同音.

有两个方面显示出他们的差异:

  1. 一个 词干 将返回该干的一个词,它不必是相同的形态根词。它通常不足,有关的词的地图一样干,甚至若干本身并不是一个有效的根,同时在 lemmatisation, 它将回报的字典中形成的一个词,这必须是一个有效的单词。

  2. lemmatisation, ,该部分的言语的一个词应该是第一个确定和正常化的规则将不同于不同的部分讲话,而 词干 工作上一个字没有知识的方面,因此不能有歧视之间的词语有不同的含义,这取决于部分的讲话。

参考 http://textminingonline.com/dive-into-nltk-part-iv-stemming-and-lemmatization

正如MYYN指出,词干是去除屈折和有时派生词缀到碱形式,所有的原始字可能与的过程。词形还原关注的是获得一个词,可以让你组在一起一堆屈折形式。这是难度比词干,因为它需要考虑的上下文考虑(以及因此词的含义),而所产生忽略上下文。

至于什么时候使用一个或另一个,这是你的应用程序如何在很大程度上取决于得到一个词的意思在上下文中正确的事。如果你正在做机器翻译,你可能想词形还原避免mistranslating一个字。如果你超过十亿的文件做信息检索与查询范围从1-3字的99%,就可以解决了制止。

至于NLTK,所述WordNetLemmatizer确实使用语音的一部分,尽管必须提供它(否则默认为名词)。它传递“鸽”和“V”产量“潜水”,而“鸽子”和“n”产量“鸽子”。

在词形还原之间和所产生的differenes一个例子驱动解释:

<强>词形还原把手的匹配“车”到“汽车”沿着 与匹配的“车”到“汽车”。

<强>词干把手的匹配“车”到“汽车” 即可。

  

词形还原意味着模糊词匹配的更宽范围即   仍然由同一子系统处理。这意味着某些技术   为低电平处理在发动机内,并且还可以反映   工程偏爱的术语。

     

[...]以FAST作为一个例子,   其词形还原引擎处理,不仅基本的文字变化像   单数复数与,而且词库运营商像有“热”   匹配“温暖”。

     

这是不是说,其他引擎不处理同义词,当然   他们这样做,但低一级的实施可以在不同的   子系统比那些把手基座而产生。

http://www.ideaeng.com/stemming-lemmatization-0601

ianacl结果 但我认为词干是一个粗略的黑客的人使用来获取所有不同形式的同一个单词到它不必是其自身点击一个合法的字基本形式 像波特施特默尔罐的东西使用简单的正则表达式来消除共同字后缀

词形还原带来了一个字到它的实际的基础形式,在不规则动词的情况下,可能看起来一点也不像输入搜索词 像图形的形态,它使用FSTS带来名词和动词其碱形式

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top