ساذج بايزي للكشف عن الموضوع باستخدام نهج "حقيبة الكلمات"

StackOverflow https://stackoverflow.com/questions/2781752

سؤال

أحاول تنفيذ نهج بايسي ساذج للعثور على موضوع وثيقة أو دفق من الكلمات. هل هناك نهج بايزي ساذج قد أكون قادرًا على البحث عن هذا؟

أيضا ، أحاول تحسين القاموس الخاص بي وأنا أذهب. في البداية ، لدي مجموعة من الكلمات التي تخطط لموضوعات (مشفرة صلبة). اعتمادًا على حدوث الكلمات الأخرى غير تلك التي تم تعيينها بالفعل. واعتمادًا على حدوث هذه الكلمات ، أريد إضافتها إلى التعيينات ، وبالتالي تحسين والتعلم عن الكلمات الجديدة التي تخطط للموضوع. وكذلك تغيير احتمالات الكلمات.

كيف يجب أن أفعل هذا؟ هل مقاربي هو الصحيح؟

ما هي لغة البرمجة التي ستكون أكثر ملاءمة للتنفيذ؟

هل كانت مفيدة؟

المحلول

التطبيقات الحالية ل Bayes الساذجة

من المحتمل أن تكون أفضل حالًا فقط باستخدام إحدى الحزم الحالية التي تدعم تصنيف المستندات باستخدام Bayes Safy ، على سبيل المثال:

بيثون - للقيام بذلك باستخدام Python على أساس مجموعة أدوات اللغة الطبيعية (NLTK), ، انظر تصنيف المستند القسم في المتاحة بحرية كتاب NLTK.

روبي - إذا كان روبي أكثر من شيءك ، فيمكنك استخدام مصنف جوهرة. فيما يلي رمز العينة الذي يكتشف ما إذا كانت عائلة عائلة اقتباسات مضحكة أم غير مشتركة.

بيرل - بيرل لديه الخوارزمية :: naivebayes الوحدة النمطية ، كاملة مع مقتطف استخدام العينة في الحزمة ملخص.

ج# - يمكن للمبرمجين C# استخدام nbayes. تحتوي الصفحة الرئيسية للمشروع على رمز عينة لمصنف البريد العشوائي البسيط/غير العشوائي.

جافا - جافا الناس لديهم Classifier4j. يمكنك رؤية مقتطف رمز التدريب والتسجيل هنا.

تصنيف bootstrapping من الكلمات الرئيسية

يبدو أنك تريد أن تبدأ بمجموعة من الكلمات الرئيسية معروف باسم بعض الموضوعات ثم استخدم تلك الكلمات الرئيسية bootstrap مصنف.

هذه فكرة ذكية بشكل معقول. ألق نظرة على الورقة كلاسيات النص عن طريق التمهيد مع الكلمات الرئيسية ، EM والانكماش بواسطة McCallum و Nigam (1999). باتباع هذا النهج ، تمكنوا من تحسين دقة التصنيف من 45 ٪ الذين حصلوا عليها باستخدام الكلمات الرئيسية المصممة المتشددة وحدها إلى 66 ٪ باستخدام مصنف Bayes الساذج. بالنسبة لبياناتهم ، فإن هذا الأخير قريب من المستويات البشرية للاتفاق ، حيث اتفق الناس مع بعضهم البعض على ملصقات المستندات 72 ٪ من الوقت.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top