Question

Quand dois-je utiliser chacun?

Et aussi ... est le NLTK lemmatisation dépend Parties du discours? Ne serait-il plus exact si elle était?

Était-ce utile?

La solution

Court et dense: http://nlp.stanford.edu /IR-book/html/htmledition/stemming-and-lemmatization-1.html

  

L'objectif des deux éraflage et lemmatisation est de réduire les formes fléchies et les formes parfois liées derivationally d'un mot à une forme de base commune.

     

Cependant, les deux mots se distinguent par leur saveur. Découlant se réfère généralement à un processus heuristique grossière qui broie les extrémités des mots dans l'espoir d'atteindre cet objectif correctement la plupart du temps, et inclut souvent la suppression des affixes dérivatifs. Lemmatisation se réfère généralement à faire les choses correctement avec l'utilisation d'un vocabulaire et l'analyse morphologique des mots, dans le but d'éliminer normalement désinences seulement et retourner la base ou sous forme dictionnaire d'un mot, qui est connu comme le lemme.

Des NLTK docs:

  

lemmatisation et découlant sont des cas particuliers de normalisation. Ils identifient un représentant canonique pour un ensemble de formes de mots connexes.

Autres conseils

  

Lemmatisation est étroitement liée à endiguer . La différence est qu'un   égrappoir fonctionne sur un seul mot, sans connaissance du contexte,   et ne peut donc pas faire de discrimination entre les mots qui ont des   significations selon la partie du discours. Cependant, conjugaisons sont généralement   plus facile à mettre en œuvre et courir plus vite, et la précision réduite peut ne pas   matière pour certaines applications.

     

Par exemple:

     
      
  1. Le mot « meilleur » a « bon » comme lemme. Ce lien est manqué par   égrappage, car elle nécessite une consultation dictionnaire.

  2.   
  3. Le mot « promenade » est la forme de base pour mot « marche », et par conséquent ce   est adaptée à la fois résultant et lemmatisation.

  4.   
  5. Le mot « réunion » peut être la forme de base d'un nom ou une forme   d'un verbe ( « pour répondre ») en fonction du contexte, par exemple, « dans notre dernière   réunion » ou « Nous nous réunissons à nouveau demain. » Contrairement à égrappage,   lemmatisation peut en principe choisir le lemme approprié   en fonction du contexte.

  6.   

Source : https://en.wikipedia.org/wiki/Lemmatisation

Le but des deux éraflage et lemmatisation est de réduire la variation morphologique. Ceci est en contraste avec les procédures plus générales « à terme », qui Conflation peuvent également adresser des variations lexico-sémantique, syntaxique ou orthographiques.

La vraie différence entre éraflage et lemmatisation est triple:

  1. Racinisation réduit de mots de formes (pseudo) tiges, tandis que lemmatisation réduit les mots-formes de lemmes linguistiquement valides. Cette différence est apparente dans les langues avec une morphologie plus complexe, mais peut-être pas pertinent pour de nombreuses applications IR;

  2. traite lemmatisation uniquement avec la variance flexions, alors découlant peut également faire face à la variance dérivationnel;

  3. En ce qui concerne la mise en œuvre, lemmatisation est en général plus sophistiqués (en particulier pour les langues morphologiquement complexes) et nécessite généralement une sorte de lexiques. Satisfatory égrappage, d'autre part, peut être réalisé avec des approches basées sur des règles plutôt simples.

lemmatisation peut également être soutenue par une tagger partie du discours afin de lever l'ambiguïté homonymie.

Il y a deux aspects pour montrer leurs différences:

  1. égrappoir retournera la tige d'un mot, qui ne doit pas être identique à la racine morphologique du mot. Il suffit généralement que carte mots apparentés à la même tige, même si la tige est pas en soi une racine valide, alors que dans lemmatisation , il retourne la forme dictionnaire d'un mot, qui doit être valide mot.

  2. lemmatisation , la partie du discours d'un mot doit être d'abord déterminé et les règles de normalisation seront différentes pour différentes parties de la parole, alors que le égrappoir fonctionne sur un seul mot, sans connaissance du contexte, et ne peut donc pas faire de discrimination entre les mots qui ont des significations différentes selon la partie du discours.

Référence http://textminingonline.com/dive-into -nltk-partie-iv-issue-et-lemmatisation

Comme MYYN souligné, est issu le processus d'élimination affixes flexionnels et parfois dérivationnels à une forme de base que tous les mots originaux sont probablement liés à. Lemmatisation principal est d'obtenir le mot unique qui vous permet de regrouper un tas de formes fléchies. Cela est plus difficile que parce qu'elle découle nécessite de prendre en compte le contexte (et donc le sens du mot), tout en découlant ne tient pas compte le contexte.

Quant à savoir quand vous utilisez un ou l'autre, il est une question de combien votre application dépend de l'obtention de la signification d'un mot dans le contexte correct. Si vous faites la traduction automatique, vous voulez probablement lemmatisation pour éviter mistranslating un mot. Si vous faites la recherche d'information plus d'un milliard de documents avec 99% de vos requêtes allant de 1-3 mots, vous pouvez régler pour endiguer.

En ce qui concerne NLTK, le WordNetLemmatizer fait utiliser la partie de la parole, si vous devez fournir (sinon la valeur par défaut les noms). En passant, il « colombe » et « v » rendements « plongée », tandis que « colombe » et « n » rendements « colombe ».

Une explication conduit par exemple sur les differenes entre lemmatisation et issues:

lemmatisation Poignées correspondant « voiture » à « voitures » le long avec correspondance « voiture » à « automobile ».

Découlant Poignées correspondant « voiture » à « voitures » .

  

lemmatisation implique une portée plus large de correspondance floue de mot qui est   toujours gérée par les mêmes sous-systèmes. Il implique certaines techniques   pour le traitement de bas niveau dans le moteur, et peut également refléter une   la préférence de l'ingénierie pour la terminologie.

     

[...] Prendre FAST à titre d'exemple,   leur moteur de lemmatisation gère non seulement les variations de mots de base comme   singulier pluriel contre, mais aussi les opérateurs thésaurus comme ayant « chaud »   match de « chaud ».

     

Cela ne veut pas dire que les autres moteurs ne gèrent pas synonymes, bien sûr   ils le font, mais la mise en œuvre à faible niveau peuvent être dans un autre   sous-système que ceux qui traitent de base liés.

http://www.ideaeng.com/stemming-lemmatization-0601

ianacl
mais je pense que les gens Découlant est une bidouille rude utilisent pour obtenir toutes les différentes formes du même mot jusqu'à une forme de base qui ne doit pas être un mot légitime sur son propre
Quelque chose comme la boîte Porter Stemmer utilise des expressions rationnelles simples pour éliminer suffixes de mots communs

lemmatisation apporte un mot jusqu'à sa forme de base réelle qui, dans le cas des verbes irréguliers, pourrait ressembler à rien comme le mot d'entrée
Quelque chose comme Morpha qui utilise FSTs pour amener les noms et les verbes à leur forme de base

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top