Quale sistema di database gratuito è meglio archiviare e calcolare / analizzare grandi confronti di testo con i quali il database renderebbe statistiche utilizzabili? [chiuso]

StackOverflow https://stackoverflow.com/questions/202715

  •  03-07-2019
  •  | 
  •  

Domanda

Devo creare uno script che paragona migliaia di grandi testi (tra loro). E mi chiedo se MySQL sia la soluzione migliore per questo. Esiste un altro sistema di database gratuito che potrei usare per eseguire elaborazioni semplici, ma che richiedono molto tempo per il processore?

Per favore, buttami nel pool delle tue conoscenze!

Modifica: natura dei documenti - documenti di 500-7000 caratteri, - > confrontando i documenti se il testo corrisponde all'altro documento (plagio) e statistiche - > % di corrispondenza di qualsiasi frase trovata con configurazioni piacevoli come quella Mi piacerebbe impostare quanti caratteri l'altra stringa potrebbe essere diversa per essere ancora considerata come una corrispondenza ..

La tecnologia dovrebbe essere basata su server, sono più interessato al DB e quindi sceglierei il linguaggio appropriato con cui scriverlo.

Altre specifiche: la dimensione del DB deve essere illimitata.

È stato utile?

Soluzione

Dovresti considerare l'utilizzo di Lucene. Ti consente di archiviare grandi quantità di testo e di interrogarli molto velocemente. Con buona corrispondenza anche della pertinenza.

Altri suggerimenti

Non menzioni la tecnologia che utilizzerai; dimensione delle voci di testo o natura dei confronti. Tuttavia, ho trovato database h2 per essere eccellente. È java nativo e può essere utilizzato come database in memoria che rende l'installazione banale.

PostgreSql è un motore di database gratuito che è ben scalabile e ampiamente utilizzato, oltre a MySQL.

Sql Server Express

Consiglierei MySQL. Ha molte funzioni di gestione delle stringhe integrate.

causa non specificata, perché non SQL Server 2008 Express Edition

Tutte le funzionalità di ricerca con il fratello maggiore SQL Server 2008 con l'unico problema di non poter superare i 4 GB di database.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top