مجموعات البيانات لتدريب الشبكة العصبية [مغلقة

StackOverflow https://stackoverflow.com/questions/963041

  •  12-09-2019
  •  | 
  •  

سؤال

أنا أبحث عن بعض مجموعات بيانات بسيطة نسبيا لاختبار ومقارنة أساليب التدريب المختلفة للشبكات العصبية الاصطناعية. أود أن تأخذ البيانات التي لن تأخذ الكثير من المعالجة مسبقا لتحويلها إلى تنسيق الإدخال الخاص بي لقائمة المدخلات والمخرجات (تطبيعها إلى 0-1). أي روابط موضع تقدير.

هل كانت مفيدة؟

المحلول

لماذا لا تجرب شيئا بسيطا مثل وظيفة الخطيئة كبيانات تدريبية؟ نظرا لأنك تقارن أساليب التدريب ولا تهتم حقا بما تقوم بتدريب الشبكة عليه، فينبغي أن يعمل وسهل عليك إنشاء بيانات التدريب.

قم بتدريب الشبكة باستخدام SIN (X) حيث X هو الإدخال والإخراج هو قيمة الوظيفة. فائدة إضافية في قضيتك هي أن القيمة المطلقة للنتيجة موجودة بالفعل في النطاق 0-1. انها تعمل بنفس القدر مع وظائف رياضية أخرى.

نصائح أخرى

https://archive.ics.uci.edu/ml. هي مستودع جامعة كاليفورنيا IRVINE من مجموعات بيانات التعلم الآلي. إنه مورد رائع حقا، وأعتقد أنهم جميعا في ملفات CSV.

بعض الموارد

  • وظيفة sinc.

           +----
           |   sin(x)
           |  -------        when x != 0
           |     x
    sinC = |
           |
           |     1           otherwise
           +----
    
  • ال sin(x) وظيفة كما قال Adrianbanks.

  • لاختبار بعض التعديل الجديد لبعض الخوارزمية اختبارات التكافؤ القديمة الجيدة.

  • مجموعة بيانات IRIS DataSet، Semion Hand Direct Digit مجموعة إلخ، أي وظائف أخرى وأكثر من ذلك بكثير.

  • مستودع التعلم آلة UCI: الأرشيف.ics.uci.edu/ml/datasets.html.

  • هنا مورد آخر لديه العديد من مجموعات بيانات الانحدار: www.dcc.fc.up.pt/~ltorgo//regression/datasets.html. وبعد سوف تحصل على العديد من هذه من مستودع UCI ML.
  • يمكنك الحصول على مجموعات البيانات من https://www.kaggle.com/ لمجموعات البيانات العملية المختلفة.

لا أعتقد أنك تحتاج إلى الكثير من المعالجة المسبقة مع هذه. مثل للمتغيرات الفئوية، يمكنك استبدالها ب Binary باستخدام محرر نصي GUI بسرعة. على سبيل المثال أذن البحر تحتوي DataSet على سمة واحدة قشرة، والجنس، والتي لديها ثلاثة قيم "م" للذكور، "F" للإناث، "أنا" للرضيع. يمكنك الضغط على Ctrl + R في محرر النصوص واستبدال جميع تكرارات "M" مع 1,0,0, ، كل حدوث "F" مع 0,1,0 وكل حدوث "أنا" مع 0,0,1 (بالنظر إلى الملف في تنسيق CSV). سيؤدي ذلك بدائل سريعة للمتغيرات الفئوية.

إذا كنت في رديئة, ، ثم يمكنك استخدام normalizeData وظيفة التي تأتي مع حزمة rsnns لتوسيع نطاق بياناتك وتطبيعها في 0 و 1.

إذا كنت في بيئة أخرى مثل اوكتاف أو matlab., ، يمكنك فقط استثمار بعض الوقت لكتابة الكود الخاص بك. أنا لست على علم بالوظائف المتاحة في هذه البيئات، يمكنني استخدام التعليمات البرمجية الخاصة بي لتوسيع نطاق البيانات و / أو تطبيعها.

عند استخدام الوظائف، أصبح عملك أسهل بكثير، وبمجرد إعداد البيانات، احفظ البيانات المعدلة في ملف.

تذكر شيئا واحدا، هدف تدريب الشبكة العصبية ليس فقط تدريب الشبكة بطريقة بحيث تعمل بشكل جيد في مجموعة تدريبية معينة. الهدف الرئيسي هو تدريب الشبكة بحيث يكون لديه خطأ في البيانات الجديدة التي لم ترها الشبكة (بشكل مباشر أو غير مباشر).

http://neuroff.sourceforge.net/sample_projects.html.هناك العديد من مشاريع العينات والبيانات الشهيرة.

فيما يلي بعض خطوط اليد وخط قواعد البيانات الأخرى لأغراض التدريب.

http://www.cs.nyu.edu/~roweis/data.html.

كملاحظة جانبية مثيرة للاهتمام، ارتكب رويس الانتحار في عام 2010 بعد القتال مع زوجته: http://www.huffingtonpost.com/01/14/sam-roweis-nyu-professor-_n_421500.html..

لقد تعلمت Anns كمرحلة جامعية عن طريق استخدامها لأداء OCR (التعرف على الأحرف البصرية). أعتقد أن هذه هي حالة استخدام لطيفة.

المسح في صفحتين من النص، استخراج الرسائل وتشكيل مجموعات بيانات التدريب / الاختبار (مثل 8x8 بكسل يؤدي إلى 64 عقدة مدخلات)، قم بتسمية البيانات. تدريب آن واحصل على درجة باستخدام DataSet اختبار. تغيير طوبولوجيا الشبكة / المعلمات وضبط الشبكة للحصول على أفضل درجة.

يمكنك العثور على بعض مجموعات البيانات المثيرة للاهتمام من NLP، NER إلى تصنيف الصورة، المحيط هنا:https:/dataturks.com/projects/rending.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top