Pregunta con WordNet Lemmatizer
Pregunta
He probado WordNet Lemmatizer, pero descubrí que algunas palabras comunes como 'estudiar' o 'esperar' no se procesan adecuadamente.
¿Me estoy perdiendo de algo?
Solución
Como puede ver en el WordNet en línea, estudiando y esperando También son sustantivos (así como gerundios de los verbos), por lo que no es sorprendente que puedan ser lematizados como ellos mismos.
Si eso no es satisfactorio, necesita encontrar un lemmatizador más "agresivo" (uno que ignora deliberadamente las interpretaciones perfectamente correctas pero "menos probables" de una palabra), o, si primero puede realizar un etiquetado de partes de voz basada en oraciones completas, usar un lemmatizador que se le puede decir si, por ejemplo, una instancia dada de studying
es un verbo en lugar de un sustantivo.
Otros consejos
Por defecto el WordNetLemmatizer
en nltk supone que la palabra es un NOUN
. ver http://nltk.org/_modules/nltk/stem/wordnet.html
Para lemmatizar correctamente los verbos, debe especificar el pos
(Parte del discurso)
>>> from nltk.stem.wordnet import WordNetLemmatizer
>>> wnl = WordNetLemmatizer()
>>> wnl.lemmatize('studying','v')
'study'
>>> wnl.lemmatize('studying','n')
'studying'
>>> wnl.lemmatize('studying')
'studying'
>>> wnl.lemmatize('waiting','n')
'waiting'
>>> wnl.lemmatize('waiting','v')
'wait'