Question

Je cherche à construire une entreposage de données / infrastructure interrogation, maintenant au-dessus de Map / Reduce Des solutions telles que Hadoop.

Cependant, il me semble que tous les M / travail R est simplement répéter ce que les gars de SGBDR ont résolu depuis les 20 dernières années avec des bases de données SQL parallèles. échelle parallèle implémentations SQL lit et écrit sur les nœuds, tout comme M / R, mais contient en outre déjà les bases de données de politesses régulières (SQL, les bibliothèques d'intégration existantes, etc.).

Le problème est: vous ne semblez pas trouver les clients de ces entreprises affichant beaucoup en ligne. Alors, est-ce que quelqu'un ici ont de l'expérience avec ce genre de solutions, et peut me donner un aperçu et / ou des liens?

Était-ce utile?

La solution

Je l'ai utilisé Netezza et Hadoop. Et avoir connaissance de seconde main de Infobright, une base de données de la colonne.

Netezza est une véritable base de données et met en œuvre des propriétés ACID, qui a à la fois un coût et un avantage. Netezza se déplace vers permettant plus M / code R à exécuter sur les données de la table avec la nouvelle architecture de TwinFin. Dans la version précédente de l'appareil, ils pris en charge les fonctions définies par l'utilisateur et agrégations. Dans la nouvelle version, qui fonctionne sous Linux sur le SPU et utilise des processeurs Intel, la porte ouvre faire un code plus personnalisé proche des données. Mon expérience avec Netezza a été très positive -. La technologie et la société

Hadoop est pur calcul de la carte-réduction. Il ne subit pas le coût des propriétés de base de données ACID. Donc, il est vraiment une bête différente de Netezza. En fonction du mode d'utilisation, il peut être mieux et certainement moins cher que Netezza. Hadoop a Hbase soutient et Hive qui peuvent vous donner la commodité de requête dont vous avez besoin à un moindre coût.

Un autre développeur sur notre équipe a évalué Infobright, donc c'est la deuxième main, et a trouvé la performance charge et être pauvre quelques-uns des agrégations lents. Il a quelques similitudes avec Netezza (par exemple des cartes de zone sont utilisés dans Netezza pour aider zone d'analyse étroite). Infobright est open source à la fois une communauté et une édition d'entreprise pris en charge.

Il y a beaucoup plus que l'on peut dire dans le contexte de votre problème particulier - probablement au-delà de la portée de ce forum. Espérons que cela aide.

Autres conseils

Vous n'avez pas spécifié quelles questions vous essayez de répondre à vos questions, ou comment vos données sont structurées. Avant de choisir quelle solution à utiliser, vous avez probablement besoin de penser à ces deux choses.

Vous avez raison: les principaux fournisseurs de SGBDR offrent des solutions de regroupement; à la fois pour le traitement parallèle et une grande disponibilité. Ils ont eu cette technologie pendant un certain temps et toute entreprise avec beaucoup de données utilise probablement. Lorsque vous achetez ($$$) le produit qu'ils vous donneront beaucoup de documentation et vous aider à le configurer (plus $$$) si vous pouvez vous le permettre.

SGBDR sont bonnes pour les transactions en ligne (OLTP); répondre à des questions sur des lignes spécifiques (où ne vit Marie?); répondant à quelques questions de type sommaire (combien avons-nous vendu au premier trimestre, etc.) Bien qu'ils puissent être faits pour effectuer des questions de synthèse détaillée (combien avons-nous vendu au premier trimestre, ventilées par produit, vendeur, mois, et la région?), vous commencez généralement à imposer leurs limites (toute question qui doit visiter toutes les lignes va être lente).

Pour ces types de requêtes la plupart des entreprises ont un entrepôt de données qui structure les données en plusieurs dimensions « cubes ». (Voir Cognos, Hyperion, etc.). Cela peut convenir à ce que vous essayez de faire.

Je n'ai aucune expérience avec MapReduce mais j'ai lu la section sur wikipedia utilisations et donc si ce que vous essayez de faire entre dans ces catégories je continue avec elle.

Si vous êtes dans une organisation de plus en plus rapide, vous devez utiliser Teradata. Nous avons vraiment une bonne expérience avec Teradata. Il vous donne l'évolutivité qui ne peut être donnée par tout autre fournisseur. Une fois habitué à son style SQL et de travail vous vraiment apprécier le design et l'architecture de Teradata.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top