Pregunta

¿Cuándo debo usar cada uno ?

También...es el NLTK lematización depende de las Partes de la oración?¿No sería más exacto si lo era?

¿Fue útil?

Solución

Corto y denso: http://nlp.stanford.edu /IR-book/html/htmledition/stemming-and-lemmatization-1.html

  

El objetivo de ambos derivados y lematización es reducir formas de inflexión y formas veces derivacional relacionados de una palabra a una forma de base común.

     

Sin embargo, las dos palabras difieren en su sabor. Partiendo por lo general se refiere a un proceso heurístico crudo que corta la final de las palabras, con la esperanza de lograr este objetivo correctamente la mayoría de las veces, ya menudo incluye la eliminación de los afijos derivativos. Lematización por lo general se refiere a hacer las cosas bien con el uso de un vocabulario y el análisis morfológico de las palabras, por lo general con el objetivo de eliminar desinencias solamente y para devolver la base o el diccionario de forma de una palabra, lo que se conoce como el lema.

A partir de los documentos NLTK:

  

Lematización y derivados son casos especiales de la normalización. Identifican un representante canónica para un conjunto de formas de palabras relacionadas.

Otros consejos

  

La lematización está estrechamente relacionado con derivada . La diferencia es que una   despalilladora opera en una sola palabra sin el conocimiento del contexto,   y por lo tanto no puede discriminar entre palabras que tienen diferentes   significados dependiendo de parte de la oración. Sin embargo, son típicamente lematizadores   más fácil de implementar y correr más rápido, y la exactitud reducido no podrá   la materia para algunas aplicaciones.

     

Por ejemplo:

     
      
  1. La palabra "mejor" tiene "buena" como su lema. Este enlace se pierde por   derivados, ya que requiere una consulta de diccionario.

  2.   
  3. La palabra "caminar" es la forma básica de la palabra "caminar", y por lo tanto este   se corresponde tanto en lematización despalillado y.

  4.   
  5. La palabra "reunión" puede ser o bien la forma de base de un sustantivo o una forma   de un verbo ( "para cumplir"), dependiendo del contexto, por ejemplo, "en nuestra última   cumplir" o 'Nos estamos reuniendo de nuevo mañana'. A diferencia derivada,   lematización en principio, puede seleccionar el lema apropiado   dependiendo del contexto.

  6.   

Fuente : https://en.wikipedia.org/wiki/Lemmatisation

El propósito de ambos derivados y lematización es reducir la variación morfológica.Esto está en contraste con el más general de "término fusión" de los procedimientos, que pueden también abordar lexico-semántico, sintáctico, o variaciones ortográficas.

La diferencia real entre la derivada y la lematización es triple:

  1. Derivados reduce palabra-formas de (pseudo)los tallos, mientras que la lematización reduce la palabra-formas lingüística válida lemas.Esta diferencia es evidente en las lenguas con más morfología compleja, pero puede ser irrelevante para muchos IR de aplicaciones;

  2. Lematización sólo se ocupa de inflexión de la varianza, mientras que los derivados también pueden lidiar con derivativo de la varianza;

  3. En términos de implementación, lematización es generalmente más sofisticados (especialmente para morfológicamente complejas idiomas) y por lo general requiere de algún tipo de léxico.Satisfatory derivados, por otro lado, se puede lograr con bastante simple regla de los enfoques basados en la.

Lematización también puede ser respaldada por un part-of-speech tagger con el fin de eliminar la ambigüedad de homónimos.

Hay dos aspectos para mostrar sus diferencias:

  1. despalilladora devolverá el tallo de una palabra, que no necesita ser idéntica a la raíz morfológica de la palabra. Por lo general, basta con que las palabras relacionadas se asignan a la misma raíz, incluso si la madre no es en sí mismo una raíz válida, mientras que en lematización , volverá la forma de diccionario de una palabra, que debe ser una válida palabra.

  2. En lematización , la parte del discurso de una palabra debe determinarse primero y las reglas de normalización será diferente para diferentes partes del habla, mientras que el stemmer funciona con una sola palabra sin el conocimiento del contexto, y por lo tanto no puede discriminar entre palabras que tienen significados diferentes dependiendo de parte de la oración.

Referencia http://textminingonline.com/dive-into -nltk-parte-iv despalillado-y-lematización

Como MYYN señaló, derivado es el proceso de eliminación de los afijos flexivos y derivativos a veces una forma de base de que todas las palabras originales están probablemente relacionados con. Lematización tiene que ver con la obtención de la palabra que le permite agrupar juntos un montón de formas declinadas. Esto es más difícil de detener, ya que requiere tomar en cuenta el contexto (y por lo tanto el significado de la palabra), mientras que ignora derivada contexto.

En cuanto a cuándo puede utilizar uno o el otro, se trata de una cuestión de cuánto su aplicación depende de que el significado de una palabra en su contexto correcto. Si usted está haciendo la traducción automática, es probable que desee lematización para evitar traducir mal una palabra. Si estás haciendo la recuperación de información más de mil millones de documentos con el 99% de las consultas que van desde 1-3 palabras, puede conformarse con derivados.

En cuanto a NLTK, la WordNetLemmatizer hace uso de la parte del discurso, a pesar de que tiene que proporcionarlo (de otro modo por defecto a los sustantivos). Pasando que "paloma" y los rendimientos de "v" "buceo", mientras que "paloma" y "n" rendimientos "paloma".

Un ejemplo impulsada explicación sobre los differenes entre lematización y derivados:

Lematización coincidencia de “coche” a “coches” a lo largo de con coincidencia de “coche” a “automóvil”.

Partiendo coincidencia de “coche” a “coches” .

  

Lematización implica un alcance más amplio de la palabra coincidente difusa que es   siendo manejado por los mismos subsistemas. Implica ciertas técnicas   para un bajo nivel de procesamiento dentro del motor, y también puede reflejar una   preferencia de ingeniería para la terminología.

     

[...] Tomando rápido como un ejemplo,   sus manijas del motor lematización no sólo variaciones básicas de palabras como   singular vs. plural, sino también a los operadores del tesauro como tener “caliente”   igualar “caliente”.

     

Esto no quiere decir que otros motores no manejan sinónimos, por supuesto   lo hacen, pero la implementación de bajo nivel pueden estar en una diferente   subsistema de los que deriva la base del mango.

http://www.ideaeng.com/stemming-lemmatization-0601

ianacl
pero creo que es un truco Stemming áspera gente utiliza para obtener todas las diferentes formas de la misma palabra a una forma de base que no necesita ser una palabra de fiar en su propia
Algo así como la lata Porter Stemmer utiliza expresiones regulares simples para eliminar la palabra común sufijos

Lematización trae una palabra a su forma de base real que, en el caso de los verbos irregulares, podría parecerse en nada a la palabra de entrada
Algo así como Morpha que utiliza FST para llevar nombres y verbos a su forma de base

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top