مجموعات بيانات كبيرة مجانية لتجربة Hadoop

سؤال

هل تعرف أي مجموعة بيانات كبيرة لتجربة Hadoop وهي التكلفة المجانية/منخفضة؟ يتم تقدير أي مؤشرات/روابط ذات صلة.

التفضيل:

قليل منهم وجدته حتى الآن:

هل يمكننا أيضًا تشغيل الزاحف الخاص بنا لجمع البيانات من المواقع مثل ويكيبيديا؟ أي مؤشرات حول كيفية القيام بذلك موضع تقدير أيضًا.

المحلول

بعض النقاط حول سؤالك فيما يتعلق بالزحف والويكيبيديا.

لقد ارتبطت بـ مقالب بيانات ويكيبيديا ويمكنك استخدام سحابة 9 مشروع من UMD للعمل مع هذه البيانات في Hadoop.

لديهم صفحة على هذا: العمل مع ويكيبيديا

مصدر بيانات آخر لإضافته إلى القائمة هو:

يجب نشر استخدام زاحف لإنشاء بيانات في سؤال منفصل عن واحد حول Hadoop/MapReduce أود أن أقول.

نصائح أخرى

مصدر واحد واضح: مكدس التفاقم ثلاثية ملفات DUMPS. هذه متوفرة بحرية بموجب ترخيص المشاع الإبداعي.

هذه مجموعة تضم 189 مجموعة بيانات للتعلم الآلي (والتي تعد واحدة من أجمل التطبيقات لـ Hadoop ز): http://archive.ics.uci.edu/ml/datasets.html

لا يوجد ملف سجل ولكن ربما يمكنك استخدام ملف الكوكب من OpenStreetMap: http://wiki.openstreetmap.org/wiki/planet.osm

رخصة CC ، حوالي 160 جيجابايت (غير معبأة)

هناك أيضًا ملفات أصغر لكل قارة: http://wiki.openstreetmap.org/wiki/world

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow