Образец базы данных для полного поиска текста

https://stackoverflow.com/questions/3664531

01-10-2019
|

Вопрос

Я хочу сделать некоторую бенчмаркинг на полноцельных индексах поиска текста в PostgreSQL, SQLSERVER и Lucene.

Любые идеи, на которых можно найти хорошую базу данных образцов для выполнения запросов против?

Заранее большое спасибо.

Решение

Я думаю, что великий источник будет дампа базы данных Wikipedia, поскольку они содержат действительно большое количество текста. Они доступны здесь: http://dumps.wikimedia.org/

Вы также можете попробовать архив Usenet, но сложнее выбрать целевой язык, а качество используемого языка также ниже.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow