أي قواعد بيانات اسم جيدة؟

https://stackoverflow.com/questions/6332119

27-10-2019
|

سؤال

أتطلع إلى إنشاء بعض بيانات اختبار قاعدة البيانات ، وتحديدًا أعمدة الجدول التي تحتوي على أسماء الأشخاص.من أجل الحصول على مؤشر جيد حول كيفية عمل الفهرسة بشكل جيد فيما يتعلق بعمليات البحث القائمة على الاسم ، أريد الاقتراب قدر الإمكان من أسماء العالم الحقيقي وتوزيع تردداتها الحقيقي ، على سبيل المثالالكثير من الأسماء المختلفة بترددات موزعة على بعض توزيعات قانون السلطة.

من الناحية المثالية ، أبحث عن ملف بيانات متاح مجانًا بأسماء متبوعة بقيمة تردد واحدة (أو احتمال مكافئ) لكل اسم.

الأسماء المستندة إلى الأنجلو ساكسون جيدة ، على الرغم من أن الأسماء من الثقافات الأخرى ستكون مفيدة أيضًا.

المحلول

لقد عثرت على بعض بيانات التعداد السكاني في الولايات المتحدة والتي تلائم المتطلبات.التحذير الوحيد هو أنه يسرد فقط الأسماء التي تحدث 100 مرة على الأقل ...

تم العثور عليه عبر إدخال المدونة هذا والذي يعرض أيضًا منحنى توزيع قانون السلطة

منحنى قانون القوة في الأسماء (إدخال مدونة)

علاوة على ذلك ، يمكنك أخذ عينة من القائمة باستخدام اختيار عجلة الروليت ، على سبيل المثال(لم يتم اختباره) Genacodicetagpre

نصائح أخرى

توفر جامعة أكسفورد قوائم الكلمات على موقع FTP العام كملفات مضغوطة .gz على ftp://ftp.ox.ac.uk/pub/wordlists/names/ .

يمكنك أيضًا الاطلاع على مشروع jFairy.إنه مكتوب بلغة Java وينتج بيانات مزيفة (مثل الأسماء على سبيل المثال). http://codearte.github.io/jfairy/

Genacodicetagpre

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow