سؤال

أتطلع إلى القيام ببعض القياس على فهارس البحث النصية الكاملة في PostgreSQL و SQLServer و Lucene.

أي أفكار حول مكان العثور على قاعدة بيانات عينة كبيرة جيدة لإجراء الاستعلامات ضد؟

شكرا جزيلا مقدما.

هل كانت مفيدة؟

المحلول

أعتقد أن المصدر العظيم سيكون تفريغ قاعدة بيانات ويكيبيديا ، لأنها تحتوي على كمية كبيرة من النص. وهي متوفرة هنا: http://dumps.wikimedia.org/

يمكنك أيضًا تجربة أرشيف Usenet ، ولكن من الصعب اختيار اللغة المستهدفة ، كما أن جودة اللغة المستخدمة أقل أيضًا.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top