سؤال

هدفي هو [نصف] تعيين النصوص تلقائيًا لفئات مختلفة. هناك مجموعة من الفئات المحددة للمستخدم ومجموعة من النصوص لكل فئة. يجب أن تكون الخوارزمية المثالية قادرة على التعلم من تصنيف محدد من قبل الإنسان ومن ثم تصنيف نصوص جديدة تلقائيًا. هل يمكن لأي شخص أن يقترح مثل هذه الخوارزمية وربما مكتبة .NET التي تنفذ؟

هل كانت مفيدة؟

المحلول

القيام بذلك ليس تافها. من الواضح أنه يمكنك إنشاء قاموس يقوم بتعيين كلمات رئيسية معينة للفئات. مجرد العثور على كلمة رئيسية من شأنه أن يشير إلى فئة معينة.

ومع ذلك ، في نص اللغة الطبيعية ، لن تكون الكلمات الرئيسية عادةً في شكل ساقها. ستحتاج إلى بعض أدوات التشكل للعثور على نموذج STEM واستخدامه على القاموس.

ولكن بعد ذلك يمكن لشخص ما كتابة شيء مثل: "هذا المقال لا يتعلق ...". هذا من شأنه أن يقدم الحاجة إلى بناء الجملة والتحليل الدلالي.

وبعد ذلك ستجد أنه يمكن استخدام بعض الكلمات الرئيسية في عدة فئات: "الفرقة" يمكن استخدامها في الموسيقى أو التقنيات أو حتى العمل الحرف اليدوية. لذلك ستحتاج إلى أنطولوجيا وإحصائيات أو غيرها من الطرق لوزن احتمال الفئة لاختيار إذا لم تكن محددة.

قد لا يكون بعض الكلمات الرئيسية سهلة التوافق مع الأنطولوجيا: هل عالم الرياضيات أقرب إلى المبرمج أو البستاني؟ لكنك قلت في سؤالك أن الفئات التي صممها الرجال ، حتى يتمكنوا أيضًا من المساعدة في بناء الأنطولوجيا.

ألقِ نظرة اللغويات الحاسوبية هنا وفي ويكيبيديا لمزيد من الدراسات.

الآن ، كلما زادت ضيقة الحقل ، كلما كانت نصوصها أكثر تنظيماً ، وكلما كانت المفردات أصغر ، كلما أصبحت المشكلة أسهل.

مرة أخرى بعض الكلمات الرئيسية لمزيد من الدراسات: التشكل ، تحليل بناء الجملة ، الدلالات ، الأنطولوجيا ، اللغويات الحسابية ، الفهرسة ، الكلمات الرئيسية

نصائح أخرى

هناك طرق متعددة لتصنيف النص التلقائي. من المحتمل أن يكون مصنف بايز الساذج أبسطها. آخر هو جار K-Nearest الذي يمكنك استخدامه. هذا الإجابة على Google تصنيف النص قد يساعدك.

شاهد سلسلة الفيديو الخاصة بي حول هذا الموضوع بالضبط.

http://vancouverdata.blogspot.com/2010/11/text-analytics-with-rapidminer-loading.html

التصنيف في الفيديو 5 ، ولكن قد تساعدك مقاطع الفيديو الأخرى على الوصول إلى السرعة.

كل ذلك يعتمد على برنامج FOSS RapidMiner.

دعم شاحنات النقل. الجميع يحب آلات المتجهات الدعم. ستحتاج إلى القيام بالكثير من القراءة ، وربما حتى شراء كتاب. لكن يمكنك أن تبدأ بالقراءة ورقة لمعرفة ما إذا كنت تحب الفكرة.

الدفع هذا المثال من Scikit Learn. هناك مجموعة كاملة من الخوارزميات المختلفة المطبقة في المثال حتى تتمكن من مقارنة النتائج.

المصطلح العام لهذه الطرق هو "الطرق متعددة المتغيرات". هذا مع البحث عن "تصنيف النص" أو "تصنيف النص" يجب أن يظهر بعض العملاء المتوقعين المفيدين. حظا طيبا وفقك الله !

لقد كنت أبحث عن إجابة هذا السؤال لفترة طويلة. اليوم وجدت إجابتي.

يوجد برنامج مفتوح المصدر يسمى "DBACL" يقوم بذلك. يصنف المستندات في العديد من الفئات كما تريد (بحد أقصى معين).

الإجابات الأخرى التي تقول أشياء مثل "غير تافهة" كلها صحيحة ، ولكن وجود حزمة سهلة الاستخدام تقوم بالأشياء الصعبة يساعد كثيرًا على جعلها قابلة للإدارة.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top