question WordNet lemmatiseur
Question
i;. Ai essayé WordNet lemmatiseur, mais je trouve que certains mots comme « l'étude » ou « d'attente » ne sont pas traitées de façon appropriée
Suis-je manque quelque chose?
La solution
Comme vous pouvez le voir sur le wordnet en ligne, étudier et attente sont aussi des noms (ainsi que gérondif des verbes) et il est donc pas surprenant qu'ils puissent se lemmatisé comme eux-mêmes .
Si vous est insatisfaisante besoin de trouver un plus lemmatiseur « agressif » (qui ignore délibérément tout à fait correct, mais « moins probable » interprétations d'un mot), ou, si vous pouvez d'abord effectuer des parties du discours de marquage basé sur l'ensemble phrases, utilisez un lemmatiseur qui peut être dit que par exemple une instance donnée de studying
est un verbe plutôt qu'un nom.
Autres conseils
Par défaut, le WordNetLemmatizer
dans NLTK suppose que le mot est un NOUN
. voir http://nltk.org/_modules/nltk/stem/wordnet.html
Pour les verbes correctement lemmatiser, vous avez pour spécifier la pos
(partie du discours)
>>> from nltk.stem.wordnet import WordNetLemmatizer
>>> wnl = WordNetLemmatizer()
>>> wnl.lemmatize('studying','v')
'study'
>>> wnl.lemmatize('studying','n')
'studying'
>>> wnl.lemmatize('studying')
'studying'
>>> wnl.lemmatize('waiting','n')
'waiting'
>>> wnl.lemmatize('waiting','v')
'wait'