Pregunta

He probado WordNet Lemmatizer, pero descubrí que algunas palabras comunes como 'estudiar' o 'esperar' no se procesan adecuadamente.

¿Me estoy perdiendo de algo?

¿Fue útil?

Solución

Como puede ver en el WordNet en línea, estudiando y esperando También son sustantivos (así como gerundios de los verbos), por lo que no es sorprendente que puedan ser lematizados como ellos mismos.

Si eso no es satisfactorio, necesita encontrar un lemmatizador más "agresivo" (uno que ignora deliberadamente las interpretaciones perfectamente correctas pero "menos probables" de una palabra), o, si primero puede realizar un etiquetado de partes de voz basada en oraciones completas, usar un lemmatizador que se le puede decir si, por ejemplo, una instancia dada de studying es un verbo en lugar de un sustantivo.

Otros consejos

Por defecto el WordNetLemmatizer en nltk supone que la palabra es un NOUN. ver http://nltk.org/_modules/nltk/stem/wordnet.html

Para lemmatizar correctamente los verbos, debe especificar el pos (Parte del discurso)

>>> from nltk.stem.wordnet import WordNetLemmatizer
>>> wnl = WordNetLemmatizer()
>>> wnl.lemmatize('studying','v')
'study'
>>> wnl.lemmatize('studying','n')
'studying'
>>> wnl.lemmatize('studying')
'studying'
>>> wnl.lemmatize('waiting','n')
'waiting'
>>> wnl.lemmatize('waiting','v')
'wait'
Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top