خوارزمية لتصنيف قائمة المنتجات؟ خذ 2

https://stackoverflow.com/questions/744801

09-09-2019
|

سؤال

سألت أ سؤال متشابه لهذا واحد قبل أسبوعين، لكنني لم أسأل السؤال بشكل صحيح. لذلك أنا أعيد طرح السؤال هنا مع مزيد من التفاصيل وأرغب في الحصول على إجابة موجهة نحو منظمة العفو الدولية.

لدي قائمة تمثل المنتجات التي هي نفسها أكثر أو أقل. على سبيل المثال، في القائمة أدناه، فهي جميع محركات الأقراص الصلبة Seagate.

سيجيت القرص الصلب 500GO
سيجيت القرص الصلب 120go للكمبيوتر المحمول
سيجيت باراكودا 7200.12 ST3500418AS 500GB 7200 RPM SATA 3.0GB / S القرص الصلب
القرص الصلب الجديد و Shinny 500GO من سيجيت
سيجيت باراكودا 7200.12.
سيجيت FreeAgent Desk 500GB محرك أقراص صلب خارجي فضة 7200 دورة في الدقيقة USB2.0 التجزئة
GE Spacememaker Laudry.
Mazda3 2010.
Mazda3 2009 2.3L

بالنسبة للإنسان، فإن محركات الأقراص الصلبة 3 و 5 هي نفسها. يمكننا أن نذهب أكثر قليلا ونفترض أن المنتجات 1 و 3 و 4 و 5 هي نفسها ووضعها في فئات أخرى المنتج 2 و 6.

في سؤلي السابق، اقترحني شخص ما لاستخراج ميزة. يعمل بشكل جيد للغاية عندما يكون لدينا مجموعة بيانات صغيرة من الأوصاف المحددة مسبقا (جميع محركات الأقراص الصلبة)، ولكن ماذا عن كل هذا النوع الآخر من الوصف؟ لا أريد أن أبدأ في كتابة مستخرجات الميزة المستندة إلى Regex لجميع الأوصاف التي يمكن أن يواجهها طلبي، فهذا لا يتجادل. هل هناك أي خوارزمية لتعلم الآلات التي يمكن أن تساعدني في تحقيق ذلك؟ نطاق الوصف الذي يمكنني الحصول عليه هو واسع جدا، على الخط 1، يمكن أن يكون الثلاجة، ثم في السطر التالي، محرك أقراص ثابت. يجب أن أحاول أخذ مسار الشبكة العصبية؟ ماذا يجب أن يكون مدخلاتي؟

شكرا للمساعدة!

المحلول

أود أن أنظر إلى بعض تصنيف البيئي طرق. ستنطوي على تدريب المصنف للتعرف على كلمات معينة على أنها تشير إلى احتمال أن المنتج ينتمي إلى أحد فصولك. على سبيل المثال، بعد تدريب، قد يتعرف ذلك على أنه إذا كان وصف المنتج لديه "سيجيت" في ذلك، فهناك فرصة بنسبة 99٪ أنها محرك أقراص ثابت، بينما إذا كان لديه "مازدا" هناك فرصة بنسبة 97٪ وهي سيارة. من المحتمل أن تنتهي كلمة مثل "NEW" غير المساهمة بالكثير إلى أي تصنيف، وهي الطريقة التي تريدها أن تعمل بها.

الجانب السلبي لهذا هو أنه يتطلب عادة من بيانات تدريبية كبيرة إلى حد ما قبل أن تبدأ في العمل بشكل جيد، ولكن يمكنك إعداده حتى يواصل تعديل نسبتها أثناء الإنتاج (إذا لاحظت أنه يصنف شيئا بشكل غير صحيح )، وسوف تصبح في نهاية المطاف فعالة جدا.

تستخدم تقنيات Bayesian بشدة مؤخرا تطبيقات تصفية البريد العشوائي, ، لذلك قد يكون من الجيد القيام ببعض القراءة بطرق تم استخدامها هناك.

نصائح أخرى

يجب أن تنظر إلى كليهما تجمع و تصنيف. وبعد تبدو فئاتك مفتوحة العضوية وبالتالي تشير إلى أن التجميع قد يصلح للمشكلة أفضل. أما بالنسبة لتمثيل المدخلات، يمكنك تجربة حظك في استخراج الكلمة والشخصية n غرام. وبعد قد يكون مقياس التشابه الخاص بك هو عدد N-Grams المشترك أو شيء أكثر تطورا. وبعد قد تحتاج إلى تسمية المجموعات الناتجة يدويا.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow