سؤال

أبحث دائمًا عن مجموعات بيانات كبيرة لاختبار أنواع مختلفة من البرامج عليها.هل يوجد لدى احد أي اقتراحات؟

هل كانت مفيدة؟

المحلول

تفحص ال مسابقة نيتفليكس.أعتقد أنهم كشفوا عن قاعدة بياناتهم، أو مجموعة فرعية كبيرة، لتسهيل المسابقة.

تحديث: الأسئلة الشائعة الخاصة بهم يقول أن لديهم 100 مليون إدخال في المجموعة الفرعية التي يمكنك تنزيلها.

نصائح أخرى

قد ترغب في إلقاء نظرة على بيانات الجمعية الإحصائية الأمريكية معرض البيانات - إنها تفاصيل الرحلات الجوية لجميع الرحلات الجوية التجارية في الولايات المتحدة على مدار العشرين عامًا الماضية - 120 مليون سجل، و11 جيجا من البيانات.

لقد قمت ببعض الأعمال مع ويكيميديا مجموعات التنزيل، وهي عبارة عن ملفات XML ضخمة.لسوء الحظ، يبدو أن خادم التنزيل الخاص بهم يواجه حاليًا مشكلات في مساحة القرص، لذا فإن العديد من مجموعات البيانات غير متوفرة.ولكن عندما تكون متاحة، فإن مجموعة بيانات ويكيبيديا الإنجليزية بأكملها مع السجل الكامل تبلغ 2.8 تيرابايت (18 جيجابايت مضغوطة).

عدد من لذيذ يضع المستخدمون (بما فيهم أنا) علامة على الصفحات التي تحتوي على بيانات عامة باستخدام علامة "البيانات العامة".يمكنك العثور على هذا الأرشيف هنا والاشتراك في موجز RSS لهذه العلامة هنا.اشترك في الخلاصة وسترى دفقًا مستمرًا من مجموعات البيانات المثيرة للاهتمام التي تظهر على الويب.

ليست كل مجموعات البيانات هذه كبيرة، لكنها غالبًا ما تكون مثيرة للاهتمام.

قد ترغب في النظر في إنشاء بيانات عشوائية لـ اختبار الزغب.وهذا من شأنه أن يمنحك كمية غير محدودة تقريبًا من بيانات الاختبار، ومن المرجح أن تصل إلى الحالات المتطورة.

ربما مزيد من المعلومات حول نوع بيانات الاختبار التي تريدها، وما التنسيق، ولأي أنواع من التطبيقات؟

لا أعرف ما هو النظام الأساسي الذي تستهدفه، ولكن إذا كنت تقوم بالتطوير وفقًا لقاعدة بيانات MSSQL، فراجع ذلك Visual Studio لمحترفي قواعد البيانات.يحتوي على ميزة رائعة جدًا حيث يمكنه إنشاء بيانات لمخططك باستخدام خطة بيانات يمكنك تحديدها.

يحتوي Redgate أيضًا على أداة لتوليد البيانات، لكنني لم أستخدمها.

وتتمثل الميزة في أنه يمكنك إنشاء خطة لإنشاء البيانات واستخدامها لملء قاعدة البيانات الخاصة بك بكميات كبيرة ومتسقة من البيانات التي يمكن ضبطها لاختبار مناطق معينة من مخططك.

قد ترغب أيضًا في التحقق من ذلك com.theinfo بواسطة آرون سوارتز.

من الموقع

هذا موقع لمجموعات البيانات الكبيرة والأشخاص الذين يحبونها:الكاشطات والزحف الذين يجمعونهم ، والأكاديميين والمهوسون الذين يعالجونهم ، والمصممين والفنانين الذين يتصورونهم.إنه مكان يمكنهم فيه تبادل النصائح والحيل ، وتطوير ومشاركة الأدوات معًا ، والبدء في دمج مشاريعهم الخاصة.

إذا كنت مهتمًا بتخصيص نوع البيانات التي تحصل عليها، فراجع ذلك مختبرات الكيمونو.إنه برنامج لتخريب الويب يمكنك استخدامه لكشط أي موقع تقريبًا مجانًا دون أي حد لإرجاع الصفوف.ما عليك سوى إعداد واجهة برمجة التطبيقات (API) عليها (يمكنك استخدام منشئ عناوين URL الخاص بهم لاستخراج مجموعة من عناوين URL مرة واحدة) ثم استخدام مجموعة البيانات الشخصية الخاصة بك مثل JSON أو CSV أو RSS.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top