Domanda

Sto sviluppando un Web Crawler, che è buono per la memorizzazione dei dati? Cassandra o Hadoop Hive o MySQL? E perché? Sto avendo 1 TB di dati da ultimi 6 mesi nel mio DB MySQL, ho bisogno di indice di loro e ho bisogno di ottenere il mettere fuori nella mia ricerca ASAP, e come credo, sarà memorizzare più quantità di dati, come 10 Peta bye come il mio crawler stanno lavorando velocemente, ho bisogno di ottenere l'/ operazione di lettura scrittura veloce, ho bisogno di integrare nel mio php app

È stato utile?

Soluzione

Dipende dettagli della vostra, ma credo che nel tuo caso HBase sarebbe l'opzione migliore.
Utilizzando HBase come un database web-crawler è ben documentato e il suo uso di HBase che è descritto nella BigTable whitepaper.

Altri suggerimenti

siete alla ricerca di qualcosa che è destinata per la ricerca di documenti in base al loro contenuto - dovrebbe essere basato su un indice invertito. Penso che la misura più naturale sarebbe Lucene .

Vedi anche questo articolo a proposito di una pila Hadoop-Lucene per l'interrogazione terabyte di documenti.

Dipende dalle vostre esigenze, Usa HBase in caso di analisi in tempo reale veloce di streaming di dati. Cassandra è più adatto per gli scenari di scrittura veloce, come la sua lettura è lento rispetto a HBase.

Hive è anche una buona alternativa. Per un migliore utilizzo delle prestazioni alveare Impala.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top