سؤال

متى أستخدم كل منها؟

أيضا ... هل يعتمد NLTK lemmatization على أجزاء من الكلام؟ ألن يكون أكثر دقة إذا كان؟

هل كانت مفيدة؟

المحلول

قصير وكثيف: http://nlp.stanford.edu/ir-book/html/htmledition/stemming-and-lemmatization-1.html

الهدف من كل من التنقيب والتطوير هو تقليل الأشكال الانتقالية وأحيانًا أشكال ذات صلة بالاشتقاق للكلمة إلى شكل أساسي مشترك.

ومع ذلك ، تختلف الكلمتان في نكهتهما. يشير النزول عادة إلى عملية إرشادية خام تقطع نهايات الكلمات على أمل تحقيق هذا الهدف بشكل صحيح معظم الوقت ، وغالبًا ما تتضمن إزالة اللوصفات المشتقة. يشير الإرهاق عادة إلى القيام بالأشياء بشكل صحيح مع استخدام المفردات والتحليل المورفولوجي للكلمات ، ويهدف عادة إلى إزالة النهايات المنتظمة فقط وإعادة شكل القاعدة أو القاموس للكلمة ، والتي تعرف باسم Lemma.

من مستندات NLTK:

التعقيد والانتقال هي حالات خاصة للتطبيع. يحددون ممثلًا قانونيًا لمجموعة من أشكال الكلمات ذات الصلة.

نصائح أخرى

الإرهاق يرتبط ارتباطًا وثيقًا بـ تنبع. الفرق هو أن الجذعية تعمل على كلمة واحدة دون معرفة السياق ، وبالتالي لا يمكن التمييز بين الكلمات التي لها معاني مختلفة اعتمادا على جزء من الكلام. ومع ذلك ، عادة ما يكون التنفيذ وتشغيل أجهزة الجذعية أسهل في التنفيذ وتشغيلها بشكل أسرع ، وقد لا تهم الدقة المنخفضة لبعض التطبيقات.

على سبيل المثال:

  1. كلمة "أفضل" لها "جيد" مثل ليما. يتم تفويت هذا الرابط من خلال النشر ، لأنه يتطلب البحث عن القاموس.

  2. كلمة "Walk" هي النموذج الأساسي لكلمة "المشي" ، وبالتالي يتم مطابقة هذا في كل من التنقيب والترويج.

  3. يمكن أن تكون كلمة "الاجتماع" إما الشكل الأساسي للاسم أو شكل من أشكال الفعل ("للقاء") اعتمادًا على السياق ، على سبيل المثال ، "في اجتماعنا الأخير" أو "نلتقي مرة أخرى غدًا". على عكس التنقيب ، يمكن للاختراق من حيث المبدأ تحديد Lemma المناسب اعتمادًا على السياق.

مصدر: https://en.wikipedia.org/wiki/Lemmatisation

الغرض من كل من التنقيب والتخليص هو تقليل التباين المورفولوجي. هذا على عكس إجراءات "الخلط" الأكثر عمومية ، والتي قد تتناول أيضًا الاختلافات في المعجم والمنتظمة الأمريكية أو النحوية أو الهجائية.

الفرق الحقيقي بين التنقيب والتخليص هو ثلاثة أضعاف:

  1. يقلل التنقيات من أشكال الكلمات إلى (pseudo) ، في حين أن lemmatization يقلل من أشكال الكلمة إلى الليماس الصالحة لغوي. هذا الاختلاف واضح في اللغات ذات التشكل الأكثر تعقيدًا ، ولكن قد يكون غير ذي صلة بالعديد من تطبيقات IR ؛

  2. يتعامل التعقيد فقط مع التباين في الانعطاف ، في حين أن التنقيب قد يتعامل أيضًا مع التباين المشتق ؛

  3. فيما يتعلق بالتنفيذ ، عادة ما يكون التمييز أكثر تطوراً (خاصة بالنسبة للغات المعقدة المورفولوجية) وعادة ما يتطلب نوعًا من المعجم. من ناحية أخرى ، يمكن تحقيق النزول الإضافي مع الأساليب القائمة على القواعد البسيطة إلى حد ما.

قد يتم نسخ الإرشاد أيضًا بواسطة tagger جزء من الكلام من أجل إزالة الغموض.

هناك جانبان لإظهار خلافاتهما:

  1. أ STEMMER سيعود جذع الكلمة ، والتي لا تحتاج إلى أن تكون متطابقة مع الجذر المورفولوجي للكلمة. عادة ما يكون ذلك كافياً أن الكلمات ذات الصلة خريطة الجذع نفسه ، حتى لو لم يكن الساق في حد ذاته جذرًا صالحًا ، بينما في الإرهاق, ، سوف يعيد شكل القاموس للكلمة ، والتي يجب أن تكون كلمة صالحة.

  2. في الإرهاق, ، يجب تحديد جزء خطاب كلمة ما أولاً وستكون قواعد التطبيع مختلفة لجزء مختلف من الكلام ، بينما STEMMER يعمل على كلمة واحدة دون معرفة السياق ، وبالتالي لا يمكن التمييز بين الكلمات التي لها معاني مختلفة اعتمادًا على جزء من الكلام.

المرجعي http://textminingonline.com/dive-into-nltk-part-iv-stemming-and-lemmatization

كما أشار Myyn ، فإن التنقيب هو عملية إزالة اللوائح الالتهابية وأحيانًا مشتقًا إلى شكل أساسي ترتبط به جميع الكلمات الأصلية. تهتم lemmatization بالحصول على الكلمة الواحدة التي تتيح لك تجميع مجموعة من الأشكال المنقولة. هذا أصعب من النزول لأنه يتطلب أخذ السياق في الاعتبار (وبالتالي معنى الكلمة) ، بينما يتجاهل الانتقال السياق.

بالنسبة إلى متى ستستخدم واحدة أو أخرى ، فإن الأمر يتعلق بمقدار ما يعتمد تطبيقك على الحصول على معنى الكلمة في السياق بشكل صحيح. إذا كنت تقوم بالترجمة الآلية ، فربما تريد أن تتجنب الإسهال الذي يسيطر على كلمة. إذا كنت تقوم باسترجاع المعلومات أكثر من مليار وثيقة مع 99 ٪ من استفساراتك تتراوح بين 1-3 كلمات ، فيمكنك التسوية للانتقال.

أما بالنسبة لـ NLTK ، فإن WordNetleMatizer يستخدم جزء الكلام ، على الرغم من أنه يتعين عليك توفيره (وإلا فإنه الافتراضيات للأسماء). تمريره "الحمامة" و "V" غوص "الغوص" بينما "Dove" و "N" غلة "Dove".

شرح يحركه مثال على الاختلافات بين الضيق والنزافة:

lemmatization مقابض مطابقة "السيارة" مع "السيارات" جنبا إلى جنب مع مطابقة "السيارة" مع "السيارات".

تنبع مقابض مطابقة "السيارة" مع "السيارات" .

يعني lemmatization نطاقًا أوسع لمطابقة الكلمات الغامضة التي لا يزال يتعامل معها نفس الأنظمة الفرعية. إنه ينطوي على بعض التقنيات للمعالجة ذات المستوى المنخفض داخل المحرك ، وقد يعكس أيضًا تفضيلًا هندسيًا للمصطلحات.

...] أخذ سريعًا كمثال ، لا يتعامل محرك التمييز الخاص بهم على اختلافات الكلمات الأساسية فقط مثل المفرد مقابل الجمع ، ولكن أيضًا لمشغلي هذه المرادفات مثل مطابقة "دافئة" "دافئة".

هذا لا يعني أن المحركات الأخرى لا تتعامل مع المرادفات ، بالطبع أنها تفعل ذلك ، ولكن قد يكون التنفيذ المنخفض المستوى في نظام فرعي مختلف عن تلك التي تعامل القاعدة.

http://www.ideaeng.com/stemming-lemmatization-0601

إياناكل
لكنني أعتقد أن التنقيب هو الاختراق الخشن الذي يستخدمه الأشخاص للحصول على جميع الأشكال المختلفة لنفس الكلمة إلى شكل أساسي لا يجب أن تكون كلمة شرعية بمفردها
يمكن أن يستخدم شيء مثل STEMMER Porter regexes بسيطة للتخلص من لاحقة الكلمات الشائعة

يجلب lemmatization كلمة وصولاً إلى شكلها الأساسي الفعلي والتي ، في حالة الأفعال غير المنتظمة ، قد لا تبدو مثل كلمة الإدخال
شيء مثل Morpha الذي يستخدم FSTS لجلب الأسماء والأفعال إلى شكلها الأساسي

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top