Frage

Ich suche eine Data Warehousing / Abfrage-Infrastruktur auf dem Aufbau, gerade jetzt auf der Map / Reduce-Lösungen wie Hadoop.

Allerdings scheint es mir, dass alle M / R Arbeit nur wiederholt, was die RDBMS Jungs in den letzten 20 Jahren parallel SQL-Datenbanken gelöst haben. Parallel SQL-Implementierungen Skala liest und schreibt über den Knoten, so wie M / R, aber zusätzlich enthält bereits die Feinheiten von regulären Datenbanken (SQL, bestehenden Integrationsbibliotheken usw.).

Das Problem ist: Sie scheinen nicht die Kunden dieser Unternehmen zu finden, viel Online-Buchung. Also, hat hier jemand Erfahrung mit dieser Art von Lösungen, und kann mir einen kleinen Einblick geben und / oder Links?

War es hilfreich?

Lösung

Ich habe Netezza und Hadoop verwendet. Und hat aus zweiter Hand Kenntnis von Infobright, eine Säule Datenbank.

Netezza ist eine echte Datenbank und implementiert ACID-Eigenschaften, die sowohl mit Kosten verbunden ist und einen Nutzen. Netezza bewegt sich in Richtung so dass mehr M / R-Code auf seine Tabellendaten mit der neuen Architektur von TwinFin auszuführen. In der vorherigen Version des Gerätes unterstützt sie benutzerdefinierte Funktionen und Aggregationen. In der neuen Version, die Linux auf dem SPU läuft und verwendet Intel-Prozessoren, öffnet sich die Tür mehr benutzerdefinierten Code der Nähe der Daten zu tun. Meine Erfahrung mit Netezza war sehr positiv -. Sowohl die Technologie und das Unternehmen

Hadoop ist reine map-reduce zu berechnen. Es fällt nicht an den Kosten der ACID-Datenbankeigenschaften. Also, es ist wirklich ein anderes Tier als Netezza. Je nach Verwendungsmuster kann es besser sein, und sicherlich billiger als Netezza. Hadoop hatte unterstützt Hbase und Hive, dass Ihnen die Abfrage Bequemlichkeit, die Sie zu einem niedrigen Preis benötigen geben.

Ein weiterer Entwickler in unserem Team ausgewertet Infobright, so dass diese aus zweiter Hand ist, und fand die Last Leistung schlecht und einige der Aggregationen zu sein, langsam zu sein. Es hat einige Parallelen mit Netezza (zum Beispiel Zonenpläne in Netezza, um Hilfe verengen Untersuchungsbereich verwendet werden). Infobright ist Open Source sowohl mit einer Gemeinschaft und einer unterstützten Enterprise Edition.

Es gibt viel mehr, die in Zusammenhang mit Ihrem speziellen Problem kann gesagt werden - wahrscheinlich über den Rahmen dieses Forum. Hoffe, das hilft.

Andere Tipps

Sie haben nicht angegeben, welche Fragen Sie Ihre Fragen zu beantworten versuchen, oder wie Sie Ihre Daten strukturiert ist. Bevor Sie sich entscheiden über diese beiden Dinge, was Lösung zu verwenden, müssen Sie wahrscheinlich denken.

Sie haben recht: die großen RDBMS-Hersteller bieten Clustering-Lösungen; sowohl für die parallele Verarbeitung und eine hohe Verfügbarkeit. Sie haben diese Technologie für eine Weile haben und jedes Unternehmen mit vielen Daten wahrscheinlich es zu benutzen. Wenn Sie kaufen ($$$), um das Produkt, das sie geben Ihnen viel Dokumentation und Hilfe Sie es einrichten (mehr $$$), wenn Sie es sich leisten können.

RDBMS sind gut für Online-Transaktionen (OLTP); die Beantwortung von Fragen zu bestimmten Zeilen (wo kommt Mary lebt?); einige Zusammenfassung Typ Fragen zu beantworten (wie viel haben wir im ersten Quartal usw. verkaufen) Obwohl sie ausführliche Zusammenfassung Fragen gestellt werden kann, durchzuführen (wie viel haben wir im ersten Quartal zu verkaufen, nach Produkt, Verkäufern, Monat aufgeschlüsselt, und Region?), sind Sie in der Regel beginnen, ihre Grenzen (jede Abfrage zu besteuern, dass der Bedarf alle Zeilen besuchen wird langsam) sein.

Für die Art von Anfragen der meisten Unternehmen haben einen Data Warehouse, dass Strukturen die Daten in multidimensionalen „Würfel“. (Siehe Cognos, Hyperion, andere). Das kann sinnvoll sein, für das, was Sie versuchen zu tun.

Ich habe keine Erfahrung mit MapReduce aber ich habe die wikipedia Abschnitt lesen Sie Uses und wenn ja, was Sie versuchen fällt in diese Kategorien zu tun, würde ich mit ihm weiter.

Wenn Sie in einer schnelllebigen wachsenden Organisation sind, sollten Sie Teradata verwenden. Wir haben wirklich eine gute Erfahrung mit Teradata. Es gibt Ihnen die Skalierbarkeit, die von keinem anderen Anbieter gegeben werden. Sobald du mit seiner SQL und Arbeitsstil zu gewöhnen werden Sie schätzen das Design und die Architektur von Teradata wirklich.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top