was ist der wahre Unterschied zwischen Lemmatisierung vs ergeben?

https://stackoverflow.com/questions/1787110

21-09-2019
|

Frage

Wann verwende ich jeden?

Auch ... ist die NLTK Lemmatisierung abhängig Teile der Sprache? Wäre es nicht genau sein, wenn es war?

Lösung

Kurz und dicht: http://nlp.stanford.edu /IR-book/html/htmledition/stemming-and-lemmatization-1.html

Das Ziel der beiden stammen und Lemmatisierung ist Flexionsformen und manchmal derivationally verwandte Formen eines Wortes zu einem gemeinsamen Grundform zu reduzieren.

Allerdings sind die beiden Wörter unterscheiden sich in ihrem Geschmack. Stemming Regel bezieht sich auf eine grobe heuristische Verfahren, dass hackt den Enden von Wörtern in der Hoffnung auf die Erreichung dieses Ziels richtig die meiste Zeit, und oft die Entfernung von derivational Affixe enthält. Lemmatisierung Regel bezieht sich auf die Dinge richtig mit der Verwendung eines Vokabulars und morphologische Analyse von Wörtern zu tun, in der Regel Flexionsendungen nur und zurückzukehren, um die Basis oder Wörterbuchform eines Wortes zu entfernen dem Ziel, die als Lemma bekannt ist.

Von dem NLTK docs:

Lemmatisierung und ergeben sind Spezialfälle der Normalisierung. Sie identifizieren einen kanonischen Vertreter für eine Reihe verwandter Wortformen.

Andere Tipps

Lemmatisierung ist eng verbunden mit dem ergibt . Der Unterschied besteht darin, dass ein   stemmer arbeitet auf einem einzigen Wort ohne Kenntnis des Kontextes,   und kann daher nicht zwischen den Wörtern unterscheiden, die unterschiedliche haben   Bedeutungen auf Sprachteil abhängig. Allerdings ist in der Regel Abbeermaschinen   einfacher zu implementieren und schneller laufen, und die reduzierte Genauigkeit kann nicht   Rolle für einige Anwendungen.

Zum Beispiel:



Das Wort "besser" hat "gut" als Lemma. Dieser Link wird verpasste durch   ergeben, da es ein Wörterbuch Nachschau erfordert.



Das Wort „walk“ ist die Grundform für Wort „walking“ und deshalb wird diese   abgestimmt ist sowohl entwickelt wurden und Lemmatisierung.



Das Wort „Sitzung“ kann entweder die Grundform eines Substantivs oder einer Form vorliegen,   ein Verb ( „gerecht zu werden“), je nach Kontext, zum Beispiel „in unserem letzten   Treffen“oder‚Wir treffen uns morgen wieder.‘Im Gegensatz zu ergeben,   Lemmatisierung kann grundsätzlich wählen Sie die entsprechende Lemma   je nach Kontext.

Quelle : https://en.wikipedia.org/wiki/Lemmatisation

Der Zweck der beiden stammen und Lemmatisierung ist morphologische Variation zu reduzieren. Dies steht im Gegensatz zu den die allgemeinere „Begriff conflation“ -Verfahren, bei dem es sich auch Adresse lexikalisch-semantische, syntaktische oder orthographischen Varianten.

Der wirkliche Unterschied zwischen ergeben und Lemmatisierung ist dreifach:

abstammend reduziert Wortformen zu (pseudo) stammt, während die lemmatization Wortformen zu sprachlich gültigen Lemmata reduziert. Dieser Unterschied ist offensichtlich in Sprachen mit komplexeren Morphologie, kann aber für viele IR-Anwendungen irrelevant sein;
Lemmatisierung befasst sich nur mit inflectional Varianz, während stammen auch mit derivational Varianz umgehen kann;
Im Hinblick auf der Implementierung ist Lemmatisierung in der Regel anspruchsvolle (vor allem für morphologisch komplexe Sprachen) und erfordert in der Regel eine Art von Lexika. Satisfatory stammenden auf der anderen Seite kann mit recht einfachen regelbasierte Ansätze erreicht werden.

Lemmatisierung auch durch einen Teil-of-Speech-Tagger, um eindeutig zu machen Homonyme.

gesichert werden kann

Es gibt zwei Aspekte, ihre Differenzen zu zeigen:

A stemmer wird der Schaft eines Wortes zurück, die nicht auf die morphologische Wurzel des Wortes identisch zu sein braucht. Es in der Regel ausreichend, dass verwandte Wörter auf dem gleichen Stamm zuzuordnen, auch wenn der Schaft nicht in sich selbst eine gültige Wurzel ist, während in Lemmatisierung , wird die Wörterbuchform eines Wortes zurückzukehren, was ein gültig sein muss Wort.
In Lemmatisierung , sollte der Teil der Sprache eines Wort zuerst bestimmt werden, und die Normalisierungsregeln für unterschiedlichen Teil der Sprache unterschiedlich sein, während des stemmer arbeitet mit einem einzigen Wort, ohne Kenntnis des Kontextes, und daher nicht unterscheiden kann zwischen den Worten, die auf einen Teil der Sprache abhängig verschiedene Bedeutungen haben.

Referenz http://textminingonline.com/dive-into -nltk-Teil-iv-stamm-and-Lemmatisierung

Wie wies MYYN aus, ergeben ist der Prozess des Entfernens inflectional und manchmal derivational Affixe auf eine Grundform, dass alle ursprünglichen Worte sind wahrscheinlich im Zusammenhang. Lemmatisierung befasst sich mit dem einzigen Wort zu erhalten, die Sie gruppieren zusammen ein Bündel von gebeugten Formen ermöglicht. Das ist schwieriger, als stammt, weil es erfordert den Kontext zu berücksichtigen (und damit die Bedeutung des Wortes), während stamm ignoriert Kontext.

Was, wenn Sie eine oder das andere verwenden würde, dann ist es eine Frage, wie viel Ihre Anwendung hängt richtig, die Bedeutung eines Wortes in Zusammenhang zu bekommen. Wenn Sie maschinelle Übersetzung tun, möchten Sie wahrscheinlich Lemmatisierung zu vermeiden, dass ein Wort mistranslating. Wenn Sie mit 99% der Anfragen im Bereich von 1 bis 3 Wörter Information Retrieval über eine Milliarde Dokumente zu tun, können Sie sich zufrieden geben ergeben.

Wie bei NLTK, hat die WordNetLemmatizer den Teil der Sprache verwenden, wenn Sie es haben, um (sonst wird standardmäßig Substantive). Vorbei es „Taube“ und „v“ Erträge „tauchen“, während „Taube“ und „n“ Erträge „Taube“.

Eine Beispiel-driven Erklärung über die differenes zwischen Lemmatisierung und ergibt:

Lemmatisierung Griffe matching „Auto“ auf „Autos“ zusammen mit matching „Auto“ auf „Automobil“.

abstammend Griffe matching „Auto“ auf „Autos“ .

impliziert Lemmatisierung einen breiteren Anwendungsbereich von Fuzzy-Wort Matching, das ist   immer noch mit den gleichen Subsysteme behandelt. Es impliziert, bestimmte Techniken   für niedriges Niveau der Verarbeitung innerhalb des Motors und kann auch eine reflektieren   Engineering Präferenz für Terminologie.

[...] Unter FAST als Beispiel,   ihre Lemmatisierung Motor Griffe nicht nur grundlegende Wortvarianten wie   Singular vs. Plural, sondern auch Thesaurus Operatoren wie mit „heißen“   Ergebnisse „warm“.

Dies ist nicht zu sagen, dass andere Motoren Synonyme nicht behandeln, natürlich   sie tun, aber die geringe Umsetzung in einem anderen sein kann   Subsystem als diejenigen, die Griffbasis ergeben.

http://www.ideaeng.com/stemming-lemmatization-0601

ianacl
aber ich denke, abstammend ist eine grobe Hack Menschen alle die verschiedenen Formen des gleichen Wortes erhalten verwenden bis auf eine Grundform, die nicht ein legit Wort auf seine eigene
sein müssen So etwas wie das Porter Stemmer kann verwendet einfache reguläre Ausdrücke gemeinsames Wort zu beseitigen Suffixe

bringt Lemmatisierung ein Wort bis zu seiner eigentlichen Grundform, die im Fall der unregelmäßigen Verben, könnte nichts, wie das Eingangswort
aussehen So etwas wie Morpha der FST zu bringen Substantive und Verben auf ihre Grundform

verwendet

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow