Cassandra o Hadoop Hive o MySQL?
Domanda
Sto sviluppando un Web Crawler, che è buono per la memorizzazione dei dati? Cassandra o Hadoop Hive o MySQL? E perché? Sto avendo 1 TB di dati da ultimi 6 mesi nel mio DB MySQL, ho bisogno di indice di loro e ho bisogno di ottenere il mettere fuori nella mia ricerca ASAP, e come credo, sarà memorizzare più quantità di dati, come 10 Peta bye come il mio crawler stanno lavorando velocemente, ho bisogno di ottenere l'/ operazione di lettura scrittura veloce, ho bisogno di integrare nel mio php app
Soluzione
Dipende dettagli della vostra, ma credo che nel tuo caso HBase sarebbe l'opzione migliore.
Utilizzando HBase come un database web-crawler è ben documentato e il suo uso di HBase che è descritto nella BigTable whitepaper.
Altri suggerimenti
siete alla ricerca di qualcosa che è destinata per la ricerca di documenti in base al loro contenuto - dovrebbe essere basato su un indice invertito. Penso che la misura più naturale sarebbe Lucene .
Vedi anche questo articolo a proposito di una pila Hadoop-Lucene per l'interrogazione terabyte di documenti.
Dipende dalle vostre esigenze, Usa HBase in caso di analisi in tempo reale veloce di streaming di dati. Cassandra è più adatto per gli scenari di scrittura veloce, come la sua lettura è lento rispetto a HBase.
Hive è anche una buona alternativa. Per un migliore utilizzo delle prestazioni alveare Impala.