سؤال

لا أحد يعرف خوارزمية جيدة عن أداء المجموعات على حد سواء المنفصلة والمتصلة السمات ؟ أنا أعمل على مشكلة تحديد مجموعة مشابهة من العملاء كل العملاء سواء المنفصلة والمتصلة سمات (اعتقد نوع من الزبائن مبلغ الإيرادات التي تم إنشاؤها بواسطة هذا العميل والموقع الجغرافي وغيرها..)

تقليديا مثل خوارزمية K-means أو م العمل المستمر الصفات ، ماذا لو كان لدينا مزيج من المستمر والمتقطع السمات ؟

هل كانت مفيدة؟

المحلول

إذا كنت أتذكر بشكل صحيح ، ثم بيت العنكبوت خوارزمية يمكن أن تعمل مع سمات منفصلة.

و يمكنك أيضا القيام المختلفة 'الحيل' المنفصلة سمات من أجل خلق معنى المسافة المقاييس.

هل يمكن أن جوجل لتجميع القاطع/سمات منفصلة ، واحدة من أولى الزيارات: روك:قوي خوارزمية التجميع القاطع سمات.

نصائح أخرى

وR هو أداة عظيمة لتجميع - إن نهج موحد يكون لحساب مصفوفة الاختلاف في البيانات المختلطة باستخدام <لأ href = "http://stat.ethz.ch/R-manual/R-devel/library /cluster/html/daisy.html "يختلط =" نوفولو noreferrer "> daisy ، ثم تجمع مع أن مصفوفة باستخدام <لأ href =" http://stat.ethz.ch/R-manual/R-devel /library/cluster/html/agnes.html "يختلط =" نوفولو noreferrer "> agnes .

cba الوحدة على كرا تشمل وظيفة ل الكتلة على تنبؤات الثنائية على أساس ROCK.

ويمكنك أيضا أن ننظر في تقارب نشر كحل ممكن. ولكن للتغلب على المستمرة / معضلة منفصلة تحتاج إلى تعريف وظيفة التي تعلي من شأن دول منفصلة.

وأود أن أزواج الحالية في الواقع من سمات منفصلة للمستخدمين ونطلب منهم لتحديد قربها. هل تقديمها مع نطاق الوصول من [synonym..very الأجنبية] أو ما شابه ذلك. وجود كثير من الناس القيام بذلك سوف ينتهي بك الأمر مع وظيفة القرب مقبولة على نطاق واسع لقيم السمة غير الخطية.

وماذا عن تحويل كل من سمات القاطع الخاص بك إلى سلسلة من N-1 سمات مؤشر الثنائية (حيث N هو عدد فئات)؟ يجب أن لا تخافوا من الأبعاد عالية، والتمثيل متناثر (مثل SequentialAccessSparseVector محوت يمكن استخدامها). مرة كنت تفعل ذلك، يمكنك استخدام الفصحى-وسائل K أو أيا كان القياسية رقمية فقط تجميع الخوارزمية.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top