Какую бесплатную систему баз данных лучше всего хранить и вычислять/анализировать большие текстовые сравнения, из которых база данных сможет получить полезную стk
-
03-07-2019 - |
Вопрос
Мне нужно было создать скрипт, который бы сравнивал тысячи больших текстов (друг с другом).И мне интересно, является ли MySQL лучшим решением для этого.Есть ли другая бесплатная система баз данных, которую я мог бы использовать для выполнения простых, но трудоемких вычислений?
Пожалуйста, бросьте меня в омут своих знаний!
Редактировать:Характер документов - документы на 500-7000 символов -> сравнение документов, если текст совпадает с другим документом (плагиат) и статистика -> % совпадения любого предложения, найденного с такими хорошими настройками. Я хотел бы установить, сколько символов в другом строка может отличаться, чтобы ее можно было считать совпадением.
Технология должна быть серверной, меня больше интересует БД, а затем я бы выбрал подходящий язык для ее написания сценариев.
Больше спецификации:Размер БД должен быть неограниченным.
Решение
Вам следует рассмотреть возможность использования Lucene.Он позволяет хранить большие объемы текста и очень быстро запрашивать их.С хорошим соответствием релевантности.
Другие советы
Вы не упоминаете технологию, которую будете использовать;размер текстовых записей или характер сравнений.Однако я основал база данных h2 быть отличным.Это родная Java, и ее можно использовать как базу данных в памяти, что упрощает настройку.
PostgreSql — это бесплатный движок базы данных, который хорошо масштабируется и широко используется, помимо MySQL.
SQL-сервер Экспресс
Я бы порекомендовал MySQL.Он имеет множество встроенных функций обработки строк.
потому что вы не указываете, почему бы и нет SQL Server 2008, экспресс-выпуск?
Все функции поиска в старшем брате SQL Server 2008 с единственной проблемой: вы не можете превышать 4 ГБ базы данных.