Образец базы данных для полного поиска текста
-
01-10-2019 - |
Вопрос
Я хочу сделать некоторую бенчмаркинг на полноцельных индексах поиска текста в PostgreSQL, SQLSERVER и Lucene.
Любые идеи, на которых можно найти хорошую базу данных образцов для выполнения запросов против?
Заранее большое спасибо.
Решение
Я думаю, что великий источник будет дампа базы данных Wikipedia, поскольку они содержат действительно большое количество текста. Они доступны здесь: http://dumps.wikimedia.org/
Вы также можете попробовать архив Usenet, но сложнее выбрать целевой язык, а качество используемого языка также ниже.
Не связан с StackOverflow