ما هي الاستخدامات المتكررة الشبكات العصبية عند استخدامها مع تعزيز التعلم ؟

https://stackoverflow.com/questions/1783389

21-09-2019
|

سؤال

أنا أعرف أن feedforward متعدد الطبقات الشبكات العصبية مع backprop تستخدم مع تعزيز التعلم للمساعدة على تعميم الإجراءات وكيل لدينا لا.هذا هو, إذا كان لدينا دولة كبيرة المساحة ، يمكننا القيام ببعض الإجراءات ، وأنها سوف تساعد التعميم على كامل مساحة الدولة.

ماذا المتكررة الشبكات العصبية فعله بدلا من ذلك ؟ ما هي المهام التي تستخدم عموما ؟

المحلول

الشبكات العصبية المتكررة ، RNN لفترة قصيرة (على الرغم من احذر ذلك rnn غالبًا ما يستخدم في الأدب لتعيينه الشبكات العصبية العشوائية, ، والتي هي بشكل فعال هي حالة خاصة من NN المتكررة) ، تأتي في "نكهات" مختلفة تمامًا والتي تجعلهم يظهرون سلوكيات وخصائص مختلفة. بشكل عام ، ومع ذلك ، فإن هذه الظلال العديدة من السلوكيات والخصائص متجذر في توفر مدخلات [ردود الفعل] للخلايا العصبية الفردية. تأتي هذه التعليقات من أجزاء أخرى من الشبكة ، سواء كانت محلية أو بعيدة ، من نفس الطبقة (بما في ذلك في بعض الحالات "الذات") ، أو حتى على طبقات مختلفة (*). معلومات التغذية المرتدة التي تعاملت معها على أنها "طبيعية" تدخل الخلايا العصبية ويمكن أن تؤثر ، على الأقل جزئيًا ، على ناتجها.

على عكس انتشار الظهر الذي يستخدم خلال مرحلة التعلم من شبكة التغذية إلى الأمام لغرض صياغة الأوزان النسبية لمختلف اتصالات [Feedfoward-فقط] ، تشكل التعليقات في RNNs مدخلات حقيقية إلى الخلايا العصبية التي تتصل بها.

أحد استخدامات التعليقات لجعل الشبكة أكثر مرونة للضوضاء وغيرها من العيوب في الإدخال (بمعنى آخر إدخال إلى الشبكة ككل). والسبب في ذلك هو أنه بالإضافة إلى المدخلات "مباشرة" المتعلقة بإدخال الشبكة (أنواع المدخلات التي كانت موجودة في شبكة تغذية) ، فإن الخلايا العصبية لديها معلومات حول ما هي الخلايا العصبية الأخرى "التفكير". هذه المعلومات الإضافية تؤدي إلى التعلم Hebbian, ، أي فكرة أن الخلايا العصبية التي [عادة] يجب أن تطلق "تشجع" بعضها البعض على إطلاق النار. من الناحية العملية ، قد تدفع هذه المدخلات الإضافية من الخلايا العصبية الجار "المتشابهة" (أو الجيران المحظوظون) إلى إطلاق خلية عصبية على الرغم من أن مدخلاتها غير المرتبطة بها قد تكون لدرجة أنها لم تطلق (أو تم إطلاقها بقوة أقل ، اعتمادا على نوع الشبكة).

مثال على هذه المرونة في عيوب الإدخال مع الذاكرة الترابطية, ، توظيف مشترك من RNNs. الفكرة هي استخدام معلومات FEERBACK إلى "ملء الفراغات".

هناك استخدام آخر متميز للتعليقات مع إشارات مثبطة, ، حيث قد تتعلم خلية عصبية معينة أنه على الرغم من أن جميع مدخلاتها الأخرى ستطالب بإطلاق النار ، فإن إدخال تعليقات معين من جزء آخر من الشبكة يدل عادة على أن المدخلات الأخرى لا يمكن الوثوق بها (في هذا السياق بالذات).

استخدام آخر مهم للغاية للتعليقات ، هو أنه في بعض البنى يمكن أن تقديم عنصر زمني للنظام. قد لا يوجه مدخلات [ردود فعل] معينة إلى الخلية العصبية لما "يفكر" به كانت الدول الفرعية) "X". مثل هذه القدرة على "تذكر" الماضي [عادة] الماضي هو عامل آخر من المرونة للضوضاء في المدخلات ، ولكن اهتمامه الرئيسي قد يكون في إدخال "التنبؤ" في عملية التعلم. قد يُنظر إلى هذه المدخلات التي يتم تأجيلها الزمني على أنها تنبؤات من أجزاء أخرى من الشبكة: "لقد سمعت خطوات في الردهة ، وأتوقع أن أسمع جرس الباب [أو Keys Shuffling].

(*) راجع للشغل مثل هذه الحرية الواسعة في "القواعد" التي تملي الاتصالات المسموح بها ، سواء كانت ردود الفعل أو التغذية إلى الأمام ، تشرح لماذا هناك العديد من بنيات RNN المختلفة والتغيرات منها). سبب آخر لهذه البنى المختلفة المختلفة هو أن إحدى خصائص RNN هي أنها ليست قابلة للمعارضة ، رياضيا أو غير ذلك ، مقارنة بنموذج التغذية. ونتيجة لذلك ، مدفوعة برؤية رياضية أو نهج التجريبي والخطأ العادي ، يتم تجربة العديد من الاحتمالات المختلفة.

هذا لا يعني أن شبكة التعليقات هي صناديق سوداء إجمالية ، في الواقع بعض RNNs مثل شبكات هوبفيلد مفهومة جيدا. إنه مجرد أن الرياضيات عادة ما تكون أكثر تعقيدًا (على الأقل بالنسبة لي ؛-))

أعتقد ما سبق ، بشكل عام (عمومًا أيضًا!) ، التهمت إليسيومأسئلة (OP) عن "ماذا تفعل RNN بدلاً من ذلك"، و ال "المهام العامة التي تستخدم ل"بالنسبة للكثيرين ، يكملون هذه المعلومات ، إليك مسح غير مكتمل وغير رسمي لتطبيقات RNNs. الصعوبات في جمع مثل هذه القائمة متعددة:

تداخل التطبيقات بين شبكات التغذية إلى الأمام و RNNs (ونتيجة لذلك ، يخفي هذا خصوصية RNNs)
الطبيعة المتخصصة في كثير من الأحيان للتطبيقات (إما أن نبقى مع مفاهيم بورا للغاية مثل "التصنيف" أو نغوص في "التنبؤ بتحولات الكربون في سلسلة من البنزين المشبعة" ؛-))
غالبًا ما يرتبط الضجيج بالشبكات العصبية ، عند وصفه في نصوص المبتذلة

على أي حال ، ها هي القائمة

النمذجة ، لا سيما تعلم أنظمة ديناميكية [غير خطية
التصنيف (الآن ، يتم استخدام شبكة FF أيضًا لذلك ...)
كومبيناتوريال الأمثل

هناك أيضًا الكثير من التطبيقات المرتبطة بالبعد الزمني لـ RNNs (منطقة أخرى لا يمكن فيها العثور على شبكات FF عادة)

اكتشاف الحركة
التنبؤ بالتحميل (كما هو الحال مع المرافق أو الخدمات: التنبؤ بالحمل على المدى القصير)
معالجة الإشارة: التصفية والتحكم

نصائح أخرى

هناك افتراض الأساسية تعزيز التعلم إطار الدولة/العمل/مكافأة تسلسل هو ماركوف عملية اتخاذ القرار.هذا يعني أنك لا تحتاج إلى تذكر أي معلومات عن الدول السابقة من هذه الحلقة في اتخاذ القرارات.

ولكن من الواضح أن هذا ليس صحيحا بالنسبة لجميع المشاكل.في بعض الأحيان كنت بحاجة إلى أن نتذكر بعض الأشياء الأخيرة إلى اتخاذ قرارات مستنيرة.في بعض الأحيان يمكنك صراحة بناء الأشياء التي تحتاج إلى أن نتذكر في الدولة الإشارة ، ولكن بشكل عام نحن نرغب فى معرفة ما يحتاج إلى تذكر.وهذا ما يسمى جزئيا يمكن ملاحظتها ماركوف عملية اتخاذ القرار (POMDP) ، وهناك مجموعة متنوعة من الأساليب المستخدمة للتعامل معها.واحد ربما الحل هو استخدام الشبكة العصبية المتكررة ، حيث أنها تتضمن تفاصيل من المرة السابقة الخطوات في هذا القرار.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow