Domanda

Attualmente stiamo affrontando un problema di come memorizzare e recuperare i dati da molto grandi insiemi di dati (in miliardi) in modo efficace. Abbiamo usato mysql e ottimizzato il sistema, sistema operativo, RAID, query, indici, ecc, e ora stiamo cercando di andare avanti.

ho bisogno di prendere una decisione informata su ciò che la tecnologia a perseguire per risolvere i nostri problemi di dati. Ho indagato mappa / ridurre con HDFS, ma hanno anche sentito cose buone su HBase. Io non posso fare a meno che ci siano altre opzioni pure. C'è un buon confronto delle tecnologie disponibili e ciò che il trade-off di ciascuno sono?

Se si dispone di collegamenti a quota su ogni, apprezzerei che pure.

È stato utile?

Soluzione

E 'ampia questione. Cercherò di dare indicazioni, e per ognuno si può cercare o chiedere ulteriori informazioni. In primo luogo si sono ... DB convenzionali. Se i dati è abbastanza prezioso che si può avere incursioni e buon server - Oracle potrebbe essere buono, pipistrello soluzione costosa. TPC-H è un punto di riferimento standard per le query di supporto alle decisioni: http: //www.tpc .org / tpch / risultati / tpch_perf_results.asp ed è un link al risultato superiore prestazioni. Come si può vedere - RDBMS può scalare fino a terabyte di dati.
In secondo luogo è Hadoop in forma di HDFS + Map / Reduce + Hive. Hive è datawarehousing soluzione in cima MapReduce. È possibile ottenere alcuni vantaggi aggiuntivi come la capacità di memorizzare i dati in formato originale e la scala lineare. Una delle cose che si guarda - l'indicizzazione e l'esecuzione di query molto complesse.
Terzo uno sono MPP - database di elaborazione parralel massicce. Sono scalabile da decine a centinaia di nodi e hanno ricca supporto SQL. Esempi sono Netezza, Greenplum, Asterdata, Vertica. Selezione tra di loro non è un compito semplice, ma con requisiti più precisi può anche essere fatto.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top