qual è la vera differenza tra lemmatizzazione vs derivanti?

https://stackoverflow.com/questions/1787110

21-09-2019
|

Domanda

Quando posso utilizzare ciascuno?

Inoltre ... è la lemmatizzazione NLTK dipende parti del discorso? Non sarebbe più accurato se fosse?

Soluzione

corto e denso: http://nlp.stanford.edu /IR-book/html/htmledition/stemming-and-lemmatization-1.html

L'obiettivo di entrambi diraspatura e lemmatizzazione è quello di ridurre le forme flessive e talvolta derivationally relative forme di una parola ad una forma base comune.

Tuttavia, le due parole si differenziano per il loro sapore. Stemming di solito si riferisce a un processo euristico greggio che taglia le estremità delle parole, nella speranza di raggiungere questo obiettivo in modo corretto la maggior parte del tempo, e spesso include la rimozione di affissi derivazionali. Lemmatizzazione di solito si riferisce a fare le cose per bene con l'uso di un vocabolario e morfologica analisi di parole, di solito con l'obiettivo di rimuovere solo terminazioni flessive e di restituire la base o la forma dizionario di una parola, che è conosciuto come il lemma.

Dalla documentazione NLTK:

lemmatizzazione e derivanti sono casi particolari di normalizzazione. Identificano un rappresentante canonico per una serie di forme di parole correlate.

Altri suggerimenti

lemmatizzazione è strettamente legata alla derivante . La differenza è che un   Stemmer opera su una sola parola, senza la conoscenza del contesto,   e quindi non può discriminare tra parole che hanno differente   significati a seconda della parte del discorso. Tuttavia, stemmer sono in genere   più facile da implementare e correre più veloce, e la precisione ridotta non può   importa per alcune applicazioni.

Per esempio:



La parola "migliore" è "buono" come il suo lemma. Questo collegamento è mancato da   derivanti, in quanto richiede un dizionario look-up.



La parola "camminare" è la forma di base per la parola "camminare", e quindi questo   è abbinato sia diraspatura e lemmatizzazione.



La parola "incontro" può essere sia la forma base di un nome o una forma   di un verbo ( "per soddisfare") a seconda del contesto, ad esempio, "nel nostro ultimo   incontro" o 'Ci incontriamo di nuovo domani'. A differenza derivante,   lemmatizzazione può in linea di principio selezionare il lemma appropriata   a seconda del contesto.

sorgente : https://en.wikipedia.org/wiki/Lemmatisation

Lo scopo sia di diraspatura e lemmatizzazione è quello di ridurre la variazione morfologica. Questo è in contrasto con le "fusione termine" procedure più generali, che possono presentare semantico-lessicale, sintattica, o varianti ortografiche.

La vera differenza tra diraspatura e lemmatizzazione è triplice:

Stemming riduce forme verbali di (pseudo) steli, mentre lemmatizzazione riduce le forme verbali a lemmi linguisticamente validi. Questa differenza è evidente in lingue con più morfologia complessa, ma può essere irrilevante per molte applicazioni IR;
offerte lemmatizzazione solo con varianza flessiva, mentre derivante può anche trattare con varianza derivazionale;
In termini di attuazione, lemmatizzazione è solitamente più sofisticato (in particolare per le lingue morfologicamente complesse) e di solito richiede una sorta di lessici. Satisfatory diraspatura, d'altra parte, può essere raggiunto con piuttosto semplici approcci basati su regole.

lemmatizzazione può anche essere sostenuta da un tagger part-of-speech per disambiguare gli omonimi.

Ci sono due aspetti per mostrare le loro differenze:

Stemmer restituirà la radice di una parola, che necessita di non essere identica alla radice morfologica della parola. Di solito sufficiente che parole correlate mappati stesso stelo, anche se lo stelo non è di per sé una radice valida, mentre in lemmatizzazione , esso ritorna alla forma dizionario di una parola, che deve essere un valido parola.
Nel lemmatizzazione , la parte del discorso di una parola deve essere il primo a determinare e ai regole di normalizzazione sarà diverso per i diversi parte del discorso, mentre il Stemmer opera una singola parola senza conoscenza del contesto, e pertanto non può discriminare tra parole che hanno significati diversi a seconda della parte del discorso.

http://textminingonline.com/dive-into -nltk-parte-iv-derivante-e-lemmatizzazione

Come MYYN sottolineato, derivante è il processo di rimozione affissi flessionali e talvolta derivazionali ad una forma base che tutte le parole originali sono probabilmente legati alla. Lemmatizzazione è interessato a ottenere la sola parola che ti permette di raggruppare insieme un gruppo di forme flesse. Questo è più difficile di quanto deriva, perché richiede di prendere il contesto in considerazione (e quindi il significato della parola), mentre ignora derivanti contesto.

Per quanto riguarda quando si usa uno o l'altro, si tratta di una questione di quanto l'applicazione dipende su come ottenere il significato di una parola nel contesto corretto. Se stai facendo traduzione automatica, probabilmente si vuole lemmatizzazione per evitare traduzione sbagliata una parola. Se stai facendo il recupero delle informazioni oltre un miliardo di documenti con il 99% delle query che vanno da 1-3 parole, è possibile accontentarsi di arginare.

Per quanto riguarda NLTK, il WordNetLemmatizer fa utilizzare la parte del discorso, anche se è necessario fornire esso (altrimenti default è sostantivi). Passandogli "colomba" e "v" rendimenti "dive", mentre "colomba" e "n" rendimenti "colomba".

Una spiegazione esempio basata sui differenes tra lemmatizzazione e derivanti:

lemmatizzazione le maniglie matching “auto” a “auto” lungo con la corrispondenza “auto” per “automobile”.

Stemming le maniglie matching “auto” a “macchine” .

lemmatizzazione implica un ambito più ampio di corrispondenza parola sfocata che è   ancora gestito dagli stessi sottosistemi. Essa implica alcune tecniche   per l'elaborazione di basso livello all'interno del motore, e può anche riflettere un   preferenza di ingegneria per la terminologia.

[...] Prendendo VELOCE come esempio,   il loro motore di lemmatizzazione non solo utilizza variazioni di base di parole come   singolare vs. plurale, ma anche thesaurus operatori come avente “caldo”   partita “caldo”.

Questo non vuol dire che altri motori non gestiscono i sinonimi, naturalmente   lo fanno, ma l'implementazione a basso livello possono trovarsi in una diversa   sottosistema di quelli che gestiscono base di arginare.

http://www.ideaeng.com/stemming-lemmatization-0601

ianacl
ma penso che Stemming è un hack di massima le persone utilizzano per ottenere tutte le diverse forme della stessa parola fino ad una forma di base che non deve essere una parola legit sulla propria
Qualcosa come la lattina Porter Stemmer utilizza espressioni regolari semplici per eliminare i suffissi di parole comuni

lemmatizzazione porta una parola fino alla sua forma base reale che, nel caso di verbi irregolari, potrebbe apparire niente come la parola di ingresso
Qualcosa di simile Morpha che utilizza fsts di portare sostantivi e verbi alla loro forma di base

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow