Вопрос

Я хочу сделать некоторую бенчмаркинг на полноцельных индексах поиска текста в PostgreSQL, SQLSERVER и Lucene.

Любые идеи, на которых можно найти хорошую базу данных образцов для выполнения запросов против?

Заранее большое спасибо.

Это было полезно?

Решение

Я думаю, что великий источник будет дампа базы данных Wikipedia, поскольку они содержат действительно большое количество текста. Они доступны здесь: http://dumps.wikimedia.org/

Вы также можете попробовать архив Usenet, но сложнее выбрать целевой язык, а качество используемого языка также ниже.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top