何が真の差lemmatization vsに起因する?
-
21-09-2019 - |
質問
どのような場合に使うの?
も---ではNLTK lemmatizationに依存パーツの音声?ができるのではない正確な場合です。
解決
ショートと密: http://nlp.stanford.edu /IR-book/html/htmledition/stemming-and-lemmatization-1.htmlする
NLTKのドキュメントからは、両方のステミングと見出し語処理の目標は、共通のベースフォームに語形変化形単語の時にはderivationally関連フォームを低減することである。
しかし、二つの言葉は、彼らの味が異なります。通常、ステミングは、多くの場合、正確にほとんどの時間をこの目標を達成するための希望の単語の両端オフチョップ、とは派生接辞の除去が含まれていることを、粗ヒューリスティックプロセスを意味します。見出し語処理は、通常、一般には唯一の語形変化語尾を除去し、ベースや補題として知られている単語の辞書形式を返すことを目指し、語彙や単語の形態素解析を利用して適切なものをやってを指します。
見出し語処理とステミングは、正規化の特殊なケースです。彼らは、関連ワードフォームのセットのための正規の代表を同定
他のヒント
Lemmatisation と密接に関連 に起因する.その違いは、 stemmer社の単語の知識がなくてコンテキストの できな差別を単語と単語の間に異なる 意味によっては一部英語面接に自信がない---。しかし、stemmersは、通常、 く実装および実行が速くなり、精度のない場合 物ができます。
たとえば、次のようになります。
のよりよい"を"うまい"としてその補題.このリンクを見る 背景には、が必要とされる辞書で探す
の"歩く"の拠点形成のための言葉"歩く"とこ には両方に起因するとlemmatisation.
り、"会議"でなければならないと規定されて、ベース形式名詞や形 の動詞("え")コンテクストによって、例えば、"最後の 会"または"まで再会します。とに起因する, lemmatisationで原則として選択し、適切な補題 によって、コンテキスト
目の両方に起因するとlemmatizationが削減への形態変化による。これとは対照的に、より一般的な"期conflation"の手続き、住所lexico-意味、構文、または垂バリエーションがあります。
の違いに起因するとlemmatizationは傾:
に起因する減word形式(擬似)茎はlemmatizationのword形式言語学的に有効なlemmas.この差は明らかである言語でより複雑な形態でもよいが、無関係のために多くの赤外域での用途;
Lemmatizationだけを取り扱っているので屈折の差異が生じる場合にも対応derivational分散;
の実施、lemmatizationは通常、より洗練された(特に形態学的に複雑な言語)は、通常、何らかのlexica.Satisfatoryを背景には、達成できるという簡単なルールに基づくアプローチ。
Lemmatizationもバックアップを取ることにより品詞taggerにするためdisambiguate漢.
には二つの側面がありその違い:
A stemmer 戻り、幹の言葉を把握しないのと同様の形態学的根の言葉です。で通常は十分である関連語地図と同じ幹ある場合でも、幹ていないそのものを有効なルートを lemmatisation, では辞書の単語なので、有効な言葉です。
に lemmatisation, の部分の音声の単語は初の決定を正常化ルールが異なるための別の部分の音声が、 stemmer 社の単語を知らなくても、コンテキストできな差別を単語と単語の間に異なる意味によっては一部英語面接に自信がない---。
参考 http://textminingonline.com/dive-into-nltk-part-iv-stemming-and-lemmatization
としてMYYNは、元の単語の全てを多分に関連していること塩基形態に語形変化、時には派生接辞を除去する工程で生じる、と指摘しました。見出し語処理は、あなたが一緒にグループに活用形の束を可能にする単一の単語を取得すると懸念しています。これは、考慮にコンテキストを取る必要があるため生じるよりも硬い(したがって、単語の意味)、無視コンテキストを生じる一方でます。
あなたはどちらか一方を使用するときのためとして、それはあなたのアプリケーションが正しい文脈で単語の意味を得ることに依存してどのくらいの問題です。あなたは機械翻訳をやっている場合は、おそらく見出し語処理は、単語をmistranslating避けたいです。あなたは1-3の言葉に至るまで、クエリの99%と十億のドキュメントを介して情報検索をやっている場合は、語幹のために解決することができます。
NLTKについては、WordNetLemmatizerは、あなたがそれ(名詞にそうでなければデフォルト)を提供しなければならないものの、音声の一部を使用しません。 「鳩」と「V」利回り「ダイブ」それを渡す「鳩」と「N」利回り「鳩」ながらます。
例駆動の説明のdifferenes間lemmatizationとに起因する:
Lemmatization 取り扱う マッチング"車"を"車"に沿って とのマッチング"車"を"自動車".
に起因する 取り扱う マッチング"車"を"自動車" .
Lemmatizationということでより広い範囲のファジィ単語のマッチングとは まだ取り扱う同独自のシステムです。では特定の技術 のための低レベルの加工のエンジンにも反映して、 工学志用しています。
[...]を高速例として そのlemmatizationエンジンの取り扱いの基本単語の変動のよう 特異前複数の、シソーラス事業者などを"温泉" 試合は"温かい".
ということではないその他のエンジンな対応、さらに同義語のコース いが、低レベルの実装が異なる サブシステムのような場合であっても、対応ベースに起因する.
ianacl
しかし、私は人々が独自の
に合法的言葉である必要はありません塩基形態まで同じ単語のすべての異なる形を取得するために使用ステミングが粗いハックだと思います
ポーターステマーような何かが共通の言葉を排除するために、単純な正規表現を使用することができサフィックス
見出し語処理は、不規則動詞の場合には、入力された単語
のようなものを見ていないかもしれませんが、その実際のベースフォームに単語をダウンさせます
その塩基形態に名詞と動詞をもたらす