سؤال

ولدي للقيام ببعض الأعمال مع Q التعلم، عن الرجل الذي لديه لنقل الأثاث حول منزل (انها في الاساس ذلك). إذا كان المنزل هو ما يكفي صغيرة، ويمكن أن يكون مجرد مصفوفة تمثل الإجراءات / المكافآت، ولكن كحجم منزل ينمو أكبر ذلك لن يكون كافيا. لذلك لا بد لي من تستخدم نوعا من وظيفة التعميم لذلك، بدلا من ذلك. وتشير أستاذي أنا لا تستخدم واحدة فقط، ولكن العديد منها، لذلك يمكن مقارنتها وهلم جرا. ما يا رفاق يوصي؟

وسمعت أن لهذا الوضع من الناس يستخدمون أجهزة المتجهات الإعتمادية، وأيضا الشبكات العصبية. أنا لست حقا داخل الميدان حتى لا استطيع ان اقول. كان لي في الماضي بعض الخبرة في الشبكات العصبية، ولكن SVM يبدو أصعب بكثير تخضع لفهم. هل هناك أي وسائل أخرى بأنني يجب أن ننظر لل؟ وأنا أعلم يجب أن يكون هناك مثل زليون منهم، ولكن أنا بحاجة الى شيء لمجرد أن تبدأ.

والشكر

هل كانت مفيدة؟

المحلول

وكما لتجديد المصطلحات، في Q-التعلم، وكنت تحاول تعلم وظائف Q، التي تعتمد على عمل الدولة و:

Q(S,A) = ????

والإصدار القياسي من Q-التعلم كما يدرس في معظم فئات يخبرك بأنك لكل S و A، كنت بحاجة لمعرفة قيمة منفصلة في جدول ويخبرك كيفية إجراء التحديثات المنادي من أجل تلتقي جميعها في نقطة الأمثل القيم.

والآن، يتيح القول أنه بدلا من الجدول استخدام دالة مقراب مختلفة. على سبيل المثال، دعونا نحاول ظائف الخطية. خذ (S، A) زوج والتفكير في مجموعة من الميزات التي يمكن استخراج منها. وأحد الأمثلة على ميزة هو "هل أنا بجوار جدار"، وآخر هو "هل مكان العمل الكائن بجوار جدار"، وغيرها عدد هذه الميزات F1 (S، A)، F2 (S، A). ..

والآن، في محاولة لمعرفة وظيفة Q كدالة خطية من تلك الميزات

Q(S,A) = w1 * f1(S,A) + w2*f2(S,A) ... + wN*fN(S,A)

وكيف يجب أن تعلم الأوزان ث؟ حسنا، لأن هذا هو الواجب المنزلي، سوف تتيح كنت تفكر في ذلك بنفسك.

ولكن، وكما تلميحا، يتيح القول أن لديك K الحالات الممكنة وM الإجراءات التي يمكن اتخاذها في كل ولاية. دعونا نقول لكم تحديد K * M يتميز كل منها هو مؤشر على ما إذا كنت في حالة معينة، وذاهب الى اتخاذ إجراء معين. لذلك

Q(S,A) = w11 * (S==1 && A == 1) + w12 * (S == 1 && A == 2) + w21 * (S==2 && A==3) ...

والآن، لاحظ أن أي زوج الدولة / العمل، وميزة واحدة فقط سوف يكون 1 والباقي سوف يكون 0، لذلك Q (S، A) سيكون مساويا لالمقابلة ث وكنت أساسا تعلم الجدول. لذلك، يمكنك التفكير في المعيار، الجدول Q-التعلم كحالة خاصة من التعلم مع هذه الوظائف الخطية. لذلك، والتفكير في ما تقوم خوارزمية للتعلم Q العادية، وما يجب عليك القيام به.

ونأمل يمكنك أن تجد أساس الصغيرة من الميزات، أقل بكثير من K * M، التي من شأنها أن تسمح لك لتمثيل الفضاء بشكل جيد.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top