Question

i;. Ai essayé WordNet lemmatiseur, mais je trouve que certains mots comme « l'étude » ou « d'attente » ne sont pas traitées de façon appropriée

Suis-je manque quelque chose?

Était-ce utile?

La solution

Comme vous pouvez le voir sur le wordnet en ligne, étudier et attente sont aussi des noms (ainsi que gérondif des verbes) et il est donc pas surprenant qu'ils puissent se lemmatisé comme eux-mêmes .

Si vous est insatisfaisante besoin de trouver un plus lemmatiseur « agressif » (qui ignore délibérément tout à fait correct, mais « moins probable » interprétations d'un mot), ou, si vous pouvez d'abord effectuer des parties du discours de marquage basé sur l'ensemble phrases, utilisez un lemmatiseur qui peut être dit que par exemple une instance donnée de studying est un verbe plutôt qu'un nom.

Autres conseils

Par défaut, le WordNetLemmatizer dans NLTK suppose que le mot est un NOUN. voir http://nltk.org/_modules/nltk/stem/wordnet.html

Pour les verbes correctement lemmatiser, vous avez pour spécifier la pos (partie du discours)

>>> from nltk.stem.wordnet import WordNetLemmatizer
>>> wnl = WordNetLemmatizer()
>>> wnl.lemmatize('studying','v')
'study'
>>> wnl.lemmatize('studying','n')
'studying'
>>> wnl.lemmatize('studying')
'studying'
>>> wnl.lemmatize('waiting','n')
'waiting'
>>> wnl.lemmatize('waiting','v')
'wait'
Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top