كيفية تضمين الكلمات كميزة رقمية في التصنيف

https://stackoverflow.com/questions/4207057

25-09-2019
|

سؤال

ما هي أفضل طريقة لاستخدام الكلمات نفسها كميزات في أي خوارزمية تعلم الآلة؟

المشكلة التي يجب علي استخراج الميزة المتعلقة بالكلمة من فقرة معينة. هل يجب علي استخدام الفهرس في القاموس كميزة رقمية؟ إذا كان الأمر كذلك ، كيف سأقوم بتطبيع هذه؟

بشكل عام ، كيف يتم استخدام الكلمات نفسها كميزات في NLP؟

المحلول

هناك العديد من التقنيات التقليدية التي من خلالها كلمات يتم تعيينها ل الميزات (الأعمدة في مصفوفة بيانات ثنائية الأبعاد تكون فيها الصفوف هي متجهات البيانات الفردية) لإدخال نماذج التعلم الآلي.تصنيف:

أ منطقية الحقل الذي يشفر وجود أو عدم وجود تلك الكلمة في وثيقة معينة ؛
أ الرسم البياني التردد من مجموعة محددة مسبقًا من الكلمات ، غالبًا ما تكون الكلمات الأكثر شيوعًا من بين جميع المستندات التي تضم بيانات التدريب (المزيد عن هذه واحدة في الفقرة الأخيرة من هذه الإجابة) ؛
ال تجاور من بين كلمتين أو أكثر (على سبيل المثال ، "البديل" و "نمط الحياة" بترتيب متتالي لهما معنى لا يرتبط إما كلمة مكون) ؛ يمكن إما التقاط هذا التقريب في نموذج البيانات نفسه ، على سبيل المثال ، ميزة منطقية تمثل وجود أو عدم وجود كلمتين معينتين متاخمة مباشرة لبعضهما البعض في وثيقة ، أو يمكن استغلال هذه العلاقة في تقنية ML ، باعتبارها ساذجة سيفعل مصنف بايزي في هذه الحالةكتابة بارزة;
كلمات مثل الخام البيانات لاستخراج الميزات الكامنة, ، على سبيل المثال ، LSA أو التحليل الدلالي الكامن (يسمى أحيانًا LSI للفهرسة الدلالية الكامنة). LSA هي تقنية قائمة على تحلل المصفوفة والتي تستمد المتغيرات الكامنة من النص غير واضح من كلمات النص نفسه.

تتألف مجموعة بيانات مرجعية شائعة في التعلم الآلي من ترددات من 50 أو نحو ذلك من الكلمات الأكثر شيوعًا ، ويعرف أيضًا باسم "كلمات التوقف" (على سبيل المثال ، أ, و, من, و, ال, هناك, لو) للأعمال المنشورة لشكسبير ولندن وأوستن وميلتون. يمكن أن تفصل مجموعة البيانات الأساسية المتعددة الطبقات مع طبقة مخفية واحدة هذه مجموعة البيانات بدقة 100 ٪. تتوفر مجموعة البيانات والتغيرات الموجودة عليها على نطاق واسع في مستودعات بيانات ML و الأوراق الأكاديمية تقديم نتائج التصنيف شائعة بالمثل.

نصائح أخرى

النهج القياسي هو تمثيل "حقيبة الكلمات" حيث يكون لديك ميزة واحدة لكل كلمة ، وإعطاء "1" إذا حدثت الكلمة في المستند و "0" إذا لم تحدث.

هذا يعطي الكثير من الميزات ، ولكن إذا كان لديك متعلم بسيط مثل ساذج بايز ، فلا يزال ذلك جيدًا.

"الفهرس في القاموس" هو ميزة عديمة الفائدة ، لن أستخدمها.

TF-IDF هي طريقة قياسية جميلة لتحويل الكلمات إلى ميزات رقمية.

تحتاج إلى أن تتذكر استخدام خوارزمية التعلم التي تدعم المبارزة الرقمية ، مثل SVM. لا يدعم ساذج بايز الميزات الرقمية.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow