Que sistema de banco de dados livre é melhor para armazenar e computação / analisar grandes comparações de texto a partir do qual o banco de dados faria estatísticas utilizáveis? [fechadas]

https://stackoverflow.com/questions/202715

03-07-2019
|

Pergunta

Eu tenho que criar script que iria comparar milhares de grandes textos (uns aos outros). E eu estou querendo saber se MySQL é a melhor solução para isso. Existe algum outro sistema databse livre eu poderia usar para fazer simples - mas processador demorada computação

Por favor, me jogar na piscina do seu conhecimento!

Edit: Natureza de documentos - 500-7000 documentos de caráter, -> comparar os documentos se o texto corresponde ao outro documento (plágio) e estatísticas ->% jogo de qualquer frase encontrada com configurações interessantes como que eu gostaria de conjunto quantos caracteres a outra corda poderia ser diferente para ainda ser considerada como um jogo ..

A tecnologia deve ser baseada em servidor, eu sou mais interestedin DB e, em seguida, eu escolheria linguagem apropriada para o script com ele.

Mais especificações:. O tamanho da DB deve ser ilimitada

Solução

Você deve considerar o uso Lucene. Ele permite que você armazenar grandes quantidades de texto e consultá-los muito rápido. Com boa relevância de harmonização demasiado.

Outras dicas

Você não mencionam a tecnologia que será utilizado; tamanho das entradas de texto ou natureza das comparações. No entanto, tenho fundada h2 banco de dados para ser excelente. É java nativo e pode ser usado como um banco de dados in-memory, que torna a configuração trivial.

O PostgreSQL é um motor de banco de dados livre que é bem escalável e amplamente utilizado, além de MySQL.

Sql Server Express

Eu recomendaria MySQL. Tem um monte de built-in funções de manipulação de strings.

porque você não especificar, por que não SQL Server 2008 Express Edition ?

Todos os recursos de pesquisa com o irmão mais velho do SQL Server 2008 com o único problema que você não pode exceder 4Gb de banco de dados.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow