Domanda

Sono in esecuzione un piccolo test / POC qui.

Ho bisogno di caricare un paio di milioni di righe ogni giorno in un database. E non è registrare i dati dei file, ho delimitati da virgole righe (di colonne) che misura esattamente un database relazionale.

Dopo il caricamento, ho bisogno di permettere una ricerca veloce meccanismo. Guardando un po 'alla implementazione di Google di BigTable e la struttura intorno ad esso, ho inizialmente pensato di utilizzare alveare integrato con HBase. Hive causa delle sue capacità di interrogazione. Il carico funziona bene, meglio di quanto RDBMS perf. Tuttavia, il collo di bottiglia di interrogazione, che è stato il motivo di cercare alternative ai RDBMS, in primo luogo, continua con alveare troppo.

Test alveare per l'interrogazione non è realmente prestazioni eccezionali. Forse ho bisogno di cercare alternative ..

C'è qualcos'altro? qualsiasi altro strumento / soluzione / libreria che posso mettere in cima HBase? o anche senza HBase? (Ho guardato HBase come alternativa al RDBMS, in movimento verso il calcolo dist)

suggerimento per favore ...

È stato utile?

Soluzione

Se si desidera utilizzare funzionalità di ricerca generale si consiglia di guardare soluzioni come Solr o elasticsearch . HBase funziona bene se si prepara i dati per le query è necessario (progettazione chiave) non per la ricerca generale. Inoltre si può guardare Lily che unisce Solr e HBase

Altri suggerimenti

Il problema che ho è che corre alveare la maggior parte delle sue domande come programmi MapReduce, che sono intrinsecamente lento.

Se si scrive il proprio programma da eseguire scansioni appropriati e poi di gruppo da soli, HBase può essere molto veloce. Se si desidera un linguaggio di query anche se attualmente non ci sono soluzioni sono a conoscenza.

E 'difficile dire di più come la vostra descrizione dei dati e il tipo di query che si desidera eseguire su di esso è molto generico.

Non si può pensare di utilizzare MySQL per questo numero di righe. Si potrebbe provare con alcuni dati di prova e vedere se è possibile ottenere farla franca.

Avete guardato un solr o una soluzione di tipo Lucene? Non si tratta di una soluzione SQL, ma il linguaggio di query è abbastanza flessibile per alcuni tipi di usi, ed è estremamente veloce. Ci sono anche modi di distribuendolo su un cluster di server per migliorare le prestazioni, scalabilità sia la dimensione dell'indice, o il numero di query in grado di gestire, o entrambi.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top