سؤال

هل تعرف أي مجموعة بيانات كبيرة لتجربة Hadoop وهي التكلفة المجانية/منخفضة؟ يتم تقدير أي مؤشرات/روابط ذات صلة.

التفضيل:

  • واحد على الأقل من البيانات من البيانات.

  • بيانات سجل الإنتاج من خادم الويب.

قليل منهم وجدته حتى الآن:

  1. ويكيبيديا تفريغ

  2. http://wiki.freebase.com/wiki/data_dumps

  3. http://aws.amazon.com/publicdatasets/

هل يمكننا أيضًا تشغيل الزاحف الخاص بنا لجمع البيانات من المواقع مثل ويكيبيديا؟ أي مؤشرات حول كيفية القيام بذلك موضع تقدير أيضًا.

هل كانت مفيدة؟

المحلول

بعض النقاط حول سؤالك فيما يتعلق بالزحف والويكيبيديا.

لقد ارتبطت بـ مقالب بيانات ويكيبيديا ويمكنك استخدام سحابة 9 مشروع من UMD للعمل مع هذه البيانات في Hadoop.

لديهم صفحة على هذا: العمل مع ويكيبيديا

مصدر بيانات آخر لإضافته إلى القائمة هو:

  • Clueweb09 - 1 مليار صفحة ويب تم جمعها بين يناير و 0 فبراير. 5TB مضغوط.

يجب نشر استخدام زاحف لإنشاء بيانات في سؤال منفصل عن واحد حول Hadoop/MapReduce أود أن أقول.

نصائح أخرى

مصدر واحد واضح: مكدس التفاقم ثلاثية ملفات DUMPS. هذه متوفرة بحرية بموجب ترخيص المشاع الإبداعي.

هذه مجموعة تضم 189 مجموعة بيانات للتعلم الآلي (والتي تعد واحدة من أجمل التطبيقات لـ Hadoop ز): http://archive.ics.uci.edu/ml/datasets.html

لا يوجد ملف سجل ولكن ربما يمكنك استخدام ملف الكوكب من OpenStreetMap: http://wiki.openstreetmap.org/wiki/planet.osm

رخصة CC ، حوالي 160 جيجابايت (غير معبأة)

هناك أيضًا ملفات أصغر لكل قارة: http://wiki.openstreetmap.org/wiki/world

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top