Gibt es Data-Warehouse-Frameworks?

https://stackoverflow.com/questions/158775

03-07-2019
|

Frage

Ich habe eine Menge von MySQL-Daten, die ich brauche, um die Erstellung von Berichten aus. Es ist vor allem historische Daten, so dass es nicht viel zu ändern, aber es wiegt 20-30 Gigabyte leicht in und wird voraussichtlich wachsen. Im Moment habe ich eine Sammlung von PHP-Skripte, die einige komplexen Abfragen und Ausgabe CSV- und Excel-Dateien tun. Ich benutze phpMyAdmin auch mit Lesezeichen versehenen Abfragen. Ich bearbeiten sie manuell die Parameter zu ändern. Die Datenmenge wächst und die Zahl der Menschen, die Zugriff darauf müssen auch wächst, so mache ich die Zeit, um diese Situation zu verbessern.

begann ich, über Lesen von Daten den anderen Tag Lagerhaltung und es scheint, dass dies ein Bereich, der erzählt, was ich tun muss. Ich habe einige gut Artikel und sogar auf einem Buch ist warten. Ich glaube, ich bin immer einen Griff auf das, was diese Art von Systemen zu tun und was möglich ist.

ein Meldesystem für meine Daten erstellen hat auf einer ToDo-Liste immer gewesen, aber bis vor kurzem dachte ich, es ist ein sehr Nische programing Venture wäre. Da ich jetzt weiß, Data Warehousing eine gemeinsame Sache ist, Figur, die ich muß es irgendeine Art von Berichterstattung / Lagerrahmen zur Verfügung steht in der Entwicklung zu erleichtern. Ich würde gerne überspringen Schnittstellen und das Schreiben von Skripts Beziehungen planen und E-Mail-Berichte und dergleichen und halten Sie sich an das Schreiben von Abfragen und Einrichten.

Ich habe meistens eine Lampe Kerl gewesen, aber ich bin nicht über Sprachen oder Plattformen wechseln. Ich brauche nur eine robustere Lösung als meine one off Skripte nicht gut skalieren.

Also, wo ist ein guter Ort, um zu beginnen?

Lösung

Ich werde da draußen ein paar Punkte auf dem {Budget, Business-Utility-Funktion, Zeitrahmen} Spektrum diskutieren. Der Einfachheit halber wollen wir die Architektur Konzeptualisierung Sie auf

verknüpft folgen

WikipediaDataWarehouseArticle

Operative Datenbankschicht , Die Quelldaten für die Data Warehouse - Normalized für die Datenpflege nur an einer Stelle
Datenzugriffsschicht
Die Transformation der Quelldaten in die Informationszugriffsschicht.
ETL-Tools zum Extrahieren, Transformieren, Laden von Daten in das Lager fallen in diese Schicht.
Informationszugriffsschicht
• Bericht erleichternde Datenstruktur
Die Daten werden hier nicht gepflegt. Es ist lediglich ein Spiegelbild Ihrer Quelldaten
Daher denormalisierte Strukturen (enthaltend doppelte, sondern systematisch Daten abgeleitet) Was ist in der Regel am effektivsten hier
• Reporting-Tools
Wie können Sie tatsächlich Ihre Benutzer auf die Daten zugreifen
• Pre-Konserven Berichte (einfach)
• dynamische Slice-and-Dice-Zugriffsmethoden

Die abgerufenen Daten für das Reporting und die Analyse und die Werkzeuge für Reporting und Datenanalyse
fallen in diese Schicht. Und die Inmon-Kimball Unterschiede über Design-Methodik,
später in Wikipedia-Artikel diskutiert wird, haben mit dieser Schicht zu tun.

Metadaten-Schicht (erleichtert die Automatisierung, Organisation, etc.)

Bewegen Sie Ihr eigenes (Low-End)
Für sehr wenig out-of-pocket Kosten, sondern nur die Notwendigkeit, dass die normalisierte Strukturen erkennen können diejenigen kaufen, die es nicht einige Wirkungsgrade werden mit

Get in Ballspiel (einige Ausgaben erforderlich)
Sie brauchen nicht alle Funktionen der Plattform zu nutzen, rechts von der Fledermaus.
IMO, aber wollen Sie auf einer Plattform sein, dass Sie wachsen wissen, und in der hart umkämpften und BI-Umgebung zu konsolidieren, das scheint eine der vier Unternehmen Mega-Vendors (meiner Meinung nach)

zu sein

Microsoft (die Plattform unserer 110 Mitarbeiter fest)
SAP
Oracle
IBM

BiMarketStateArticle

Meine Firma ist in diesem Stadium, bot einige der ETL-Fähigkeit verwenden von SQL Server Integration Services (SSIS) und einige alternative Nutzung des Open Source, sondern in Lizenz Praxis erfordert Talend Produkt in der „Data Access Layer“, eine denormalisierter Berichtsstruktur (vollständig in der Grunde SQL Server-Datenbank implementiert), und SQL Server Reporting Services (SSRS) zu automatisieren weitgehend (basierend auf Ihren Fähigkeiten), die Produktion von vorgegebenen Berichten. Beachten Sie, dass ein SSRS „Bericht“ ist lediglich eine (skalierbare) XML-Konfiguration / Spezifikation, die zur Laufzeit über das SSRS-Engine gerendert wird. Entscheidungen wie der Export in eine Excel-Datei sind einfache Optionen.

ernsthafte Verpflichtung (einige erhebliche personelle Engagement erforderlich)
Hinweis oben, dass wir noch haben das Data-Mining / dynamischer Slicing / Zerteilen zu nutzen Funktionen von SQL Server Analysis Services. Wir arbeiten auf, dass, aber jetzt konzentriert sich auf die Qualität unserer Datenbereinigung in der „Data Access Layer“ zu verbessern.

Ich hoffe, das hilft Ihnen, ein Gefühl dafür zu bekommen, wo zu Beginn der Suche.

Andere Tipps

Pentaho hat zusammen eine ziemlich umfassende Palette von Produkten. Die Produkte sind „frei“, sondern auch für den üblichen schweren Verkauf vorbereitet werden, sobald Sie über Ihre identifizierende Informationen gabeln.

Ich habe noch keine Gelegenheit hatte wirklich um sie zu strecken, wie wir ein Microsoft-Shop von einem traurigen Ende zum anderen sind.

Ich glaube, Sie sollten zuerst Kimball und Inmon überprüfen und sehen, ob Sie Ihren Data Warehouse in einer bestimmten Art und Weise nähern wollen. Kimball, insbesondere einen sehr guten Rahmen für die Modellierung und den Bau des Lagers legt.

Es gibt eine Reihe von Tools, die versuchen, den Prozess des Entwerfens zu machen, Implementierung und Verwaltung / Betrieb eines Data Warehouse und sie haben jeweils ihre Stärken und Schwächen und oft sehr unterschiedlichen Preisklassen. Unter den Abdeckungen werden Sie immer am besten ab, wenn Sie eine gute Kenntnis der warsehousing Prinzipien aus der Kimball und / oder Inmon Lagern.

Neben Tools wie Kalido und Wherescape RED (die auf sehr verschiedene Weise ähnliche Sache tun), haben viele der ETL-Plattformen jetzt gut in-integrierte Unterstützung für die Esel Arbeit der Umsetzung -. SCD Komponenten usw. und Linienverfolgung

Best obwohl all diese als Werkzeuge zu betrachten, in den Händen von Ihnen verwendet werden, der Handwerker, machen sie bestimmte einfache Dinge noch einfacher (oder sogar trivial), einige harte Dinge einfacher, aber einige Dinge, die sie bekommen nur in sie, wie von IMHO;) Lernen Sie die Methoden und Prinzipien erste und ein gutes Verständnis davon bekommen und dann werden Sie wissen, welche Werkzeuge von Ihrem Seesack anzuwenden und wenn ...

Es wurde eine Zeit lang nicht aktualisiert, aber es ist eine schöne Data Warehousing / ETL Ruby-Paket namens ActiveWarehouse .

Aber ich würde überprüfen Sie die Pentaho Produkte wie Nick in einer anderen Antwort erwähnt. Es sollte leicht das Datenvolumen verarbeiten Sie haben und können Sie mit mehr Möglichkeiten bieten, in Scheiben schneiden und Ihre Daten in Würfel schneiden, als Sie jemals hätte vorstellen können.

Der beste Rahmen für die Sie derzeit bekommen kann ist Anchor Modellierung .
Es könnte sehr komplex aussehen, weil es allgemeine Struktur ist und eingebaute Fähigkeit, Daten historisieren.
Auch Modellierungstechnik ist ganz anders als ERD.
Aber Sie Ende-up mit SQL-Code alle db-Objekte, einschließlich 3NF Ansichten zu erzeugen, und:

insert / update durch Trigger behandelt
Abfrage jeden Punkt / Bereich in der Geschichte
Sie Anwendungsentwickler werden sehen, nicht 6NF Anker Modell zugrunde liegt.

Die Technologie ist Open Source und ist im Moment unschlagbar.

Wenn Sie AM Frage würden Sie können an diesem Tag fragen wollen Anker-Modellierung .

Kimball ist die einfachere Methode für Data Warehousing.

Wir verwenden Informatica für Daten um zu bewegen, aber es DW nicht Dinge tun, wie die Indizierung standardmäßig.
Ich mag die Idee von Wherescape RED, als DW-Tool und MS SQL Gekettelter Server mit der Notwendigkeit eines ETL-Tool zu vermeiden.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow