Domanda

Sto cercando di costruire un po 'di warehousing / interrogazione di infrastrutture, in questo momento in cima Map / Reduce soluzioni come Hadoop.

Tuttavia, mi sembra che tutto il lavoro M / R è solo ripetendo quello che i ragazzi hanno risolto RDBMS per gli ultimi 20 anni con database SQL parallele. Parallel scala le implementazioni di SQL legge e scrive su nodi, proprio come M / R, ma in aggiunta contiene già le sottigliezze da database regolari (SQL, le librerie di integrazione esistenti, ecc).

Il problema è: che non sembrano trovare i clienti di quelle imprese che distaccano molto in linea. Così, qualcuno qui ha esperienza con questo tipo di soluzioni, e mi può dare una certa comprensione e / o link?

È stato utile?

Soluzione

Ho usato Netezza e Hadoop. E avere una conoscenza di seconda mano di Infobright, una banca dati di colonna.

Netezza è un vero e proprio database e implementa proprietà ACID, che ha sia un costo e un beneficio. Netezza si sta muovendo verso consentendo codice più M / R per eseguire sui suoi dati di tabella con la nuova architettura di TwinFin. Nella versione precedente dell'apparecchio hanno sostenuto funzioni definite dall'utente e aggregazioni. Nella nuova versione, che gira Linux sul SPU e utilizza processori Intel, la porta si apre per fare di più codice personalizzato vicino ai dati. La mia esperienza con Netezza è stata molto positiva -. Sia la tecnologia e la società

Hadoop è puro mappa-ridurre computing. Essa non comporta il costo di proprietà del database ACID. Quindi, è davvero una bestia diversa da Netezza. A seconda del tipo di impiego può essere meglio e sicuramente più economico rispetto Netezza. Hadoop aveva supporta HBase e Hive che può dare la comodità di query avete bisogno a un costo inferiore.

Un altro sviluppatore nel nostro team ha valutato Infobright, quindi questo è di seconda mano, e ha trovato le prestazioni di carico di essere poveri e alcune delle aggregazioni ad essere lenta. Ha alcuni paralleli con Netezza (cartine di zona per esempio sono utilizzati in Netezza per aiutare ambito della scansione stretto). Infobright è open source sia una comunità e di un enterprise edition supportato.

C'è molto di più che si può dire nel contesto del problema particolare - probabilmente oltre la portata di questo forum. Spero che questo aiuti.

Altri suggerimenti

Non è stato specificato quali domande si sta cercando di rispondere con le vostre domande, o come i dati è strutturata. Prima di scegliere quale soluzione da utilizzare probabilmente bisogno di pensare a queste due cose.

Hai ragione: i principali fornitori RDBMS offrono soluzioni di clustering; sia per l'elaborazione parallela e alta disponibilità. Hanno avuto questa tecnologia per un po 'e ogni impresa con un sacco di dati probabilmente sta usando esso. Quando si acquista ($$$) il prodotto che vi darà un sacco di documentazione e aiutare lo si imposta (più $$$) se lo può permettere.

RDBMS sono buone per le transazioni online (OLTP); rispondendo alle domande circa righe specifiche (da dove viene Mary vive?); rispondendo ad alcune domande di riepilogo di tipo (quanto abbiamo vendiamo nel primo trimestre, etc.) Anche se può essere fatto per eseguire domande riepilogo dettagliato (Quanto ha vendiamo nel primo trimestre, suddivisi per prodotto, addetto alle vendite, mese, e regione?), si sta di solito a partire di tassare i propri limiti (qualsiasi richiesta che deve visitare tutte le righe sta per essere lento).

Per questi tipi di query maggior parte delle aziende hanno un data warehouse che struttura i dati in multi-dimensionali "cubi". (Vedere Cognos, Hyperion, altri). Questo può essere appropriato per quello che stai cercando di fare.

Non ho alcuna esperienza con MapReduce ma ho letto la sezione di Wikipedia su Usi e così se quello che stai cercando di fare rientra in queste categorie mi piacerebbe continuare con esso.

Se siete in un'organizzazione in crescita veloce, è necessario utilizzare Teradata. Abbiamo davvero una buona esperienza con Teradata. Ti dà la scalabilità che non può essere dato da qualsiasi altro fornitore. Una volta che ci si abitua al suo SQL e lo stile di lavoro si sarà davvero apprezzare il design e l'architettura di Teradata.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top