هي الكامنة الفهرسة الدلالي (LSI) خوارزمية التصنيف الإحصائي؟

https://stackoverflow.com/questions/1634073

06-07-2019
|

سؤال

هل الكامنة الفهرسة الدلالي (LSI) خوارزمية تصنيف الإحصائية؟ لما و لما لا؟

والأساس، وأنا أحاول معرفة لماذا صفحة ويكيبيديا عن التصنيف الإحصائي لا لم يذكر LSI. أنا مجرد الدخول في هذه الأشياء وأنا أحاول أن نرى كيف أن كل المناهج المختلفة لتصنيف شيء تتصل مع بعضها البعض.

المحلول

لا، انهم يست هي نفسها تماما. ويهدف التصنيف الإحصائي لفصل العناصر في فئات على النحو نظيفة ممكن - لاتخاذ قرار حول ما إذا كان البند نظيفة X هو أشبه العناصر الموجودة في المجموعة (أ) أو المجموعة (ب)، على سبيل المثال

والمقصود LSI لإظهار مدى البنود متشابهة أو مختلفة، في المقام الأول، والعثور على البنود التي تظهر قدرا من التشابه إلى عنصر المحدد. في حين أن هذا هو مماثلة ، انها ليست تماما نفس الشيء.

نصائح أخرى

وLSI / LSA هو في نهاية المطاف تقنية ل<القوي> تخفيض الأبعاد و عادة ما يقترن مع أقرب خوارزمية جار لجعلها في نظام التصنيف. وبالتالي في حد ذاته، لها مجرد وسيلة من "الفهرسة" البيانات في أقل بعدا باستخدام SVD.

هل قرأت عن LSI على ويكيبيديا ؟ وتقول انها تستخدم التعميل مصفوفة ( SVD )، والذي بدوره يستخدم أحيانا في التصنيف.

والفرق الأساسي في تعلم الآلة هو بين "أشرف" والنمذجة "غير خاضعة للرقابة".

وعادة عبارة "التصنيف الإحصائي" تشير إلى نماذج أشرف، ولكن ليس دائما.

ومع أساليب تحت إشراف مجموعة التدريب يحتوي على تسمية "الحقائق على الأرض" التي قمت بناء نموذج للتنبؤ. عند تقييم النموذج، والهدف من ذلك هو التنبؤ أفضل تخمين في (أو التوزيع الاحتمالي ل) التسمية الحقيقية، والتي سوف لا يكون لديك في وقت التقييم. في كثير من الأحيان هناك مقياس الأداء وأنه من الواضح تماما ما الحق مقابل إجابة خاطئة هو.
محاولة
وأساليب تصنيف غير خاضعة للرقابة لتجميع عدد كبير من نقاط البيانات التي قد تظهر تختلف بطرق معقدة في عدد أقل من الفئات "مماثلة". البيانات في كل فئة ينبغي له أن يكون مماثلا في نوع من "مثيرة للاهتمام" أو "عميقة" الطريقة. حيث لا يوجد "الحقيقة على الارض" لا يمكن تقييم "صواب أو خطأ، ولكن 'أكثر' مقابل 'أقل' مثيرة للاهتمام أو مفيدة.

وبالمثل الوقت تقييم يمكنك وضع أمثلة جديدة في يحتمل أن تكون واحدة من مجموعات (تصنيف هش) أو إعطاء نوع من الترجيح قياس كيف تبدو مماثلة أو مختلفة مثل "ركبه" من الكتلة.

وحتى في بعض النواحي أشرف ويمكن لنماذج غير خاضعة للرقابة تسفر عن شيء وهو "التنبؤ"، التنبؤ تسمية الطبقة / العنقودية، ولكنها مختلفة في جوهرها.

وغالبا ما يكون الهدف من نموذج غير خاضعة للرقابة هو توفير مدخلات أكثر ذكاء ومدمجة بقوة لنموذج تحت إشراف لاحق.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow