نموذج قاعدة بيانات للبحث عن النص الكامل
-
01-10-2019 - |
سؤال
أتطلع إلى القيام ببعض القياس على فهارس البحث النصية الكاملة في PostgreSQL و SQLServer و Lucene.
أي أفكار حول مكان العثور على قاعدة بيانات عينة كبيرة جيدة لإجراء الاستعلامات ضد؟
شكرا جزيلا مقدما.
المحلول
أعتقد أن المصدر العظيم سيكون تفريغ قاعدة بيانات ويكيبيديا ، لأنها تحتوي على كمية كبيرة من النص. وهي متوفرة هنا: http://dumps.wikimedia.org/
يمكنك أيضًا تجربة أرشيف Usenet ، ولكن من الصعب اختيار اللغة المستهدفة ، كما أن جودة اللغة المستخدمة أقل أيضًا.
لا تنتمي إلى StackOverflow