Enterprise-Grade-Datenbanken, die große RDF Datensätze verarbeiten kann?

https://stackoverflow.com/questions/1676512

16-09-2019
|

Frage

Gibt es irgendwelche Enterprise-Klasse Datenbank-Engines (Oracle, MS SQL ... etc), die große RDF Datensätze verarbeiten kann (320 Millionen) und SPARQL-Abfragen? Ich denke, meine Frage ist auch: ist SPARQL / RDF / OWL bereit für ein Unternehmen große realen Datenlager dient? Wenn nicht, gibt es wirksame Mechanismen zur Anpassung SPARQL / RDF gegen ein typisches Data Warehouse-Star-Schema.

Danke!

Lösung

Virtuoso - ist der Datenspeicher von Bio2RDF und DBPedia

Andere Tipps

von Kaarel Vorschlag Nach einer der Einträge in diesem Jahr bei ISWC präsentiert verwendet 4Speichern, die so weit skaliert wenn der Konkurrent es gesetzt in einigen seltsamen Konfiguration auf, die der CTO von Gralik (wer entwickeln 4Speichern) mir beschrieben und Kollegen als ' verrückt‘, aber 4Speichern würde diese Größenordnung fähig sein - http://4store.org

Auch Virtuoso unterstützt speichert in diesem Maßstab, haben sie eine Live-Anwendung, die Sie SPARQL Query über die Mehrheit der großen LOD (Linked Open Data) Datenquellen, die rund 9 Mrd. Triples insgesamt nutzen

Virtuoso - http://virtuoso.openlinksw.com
LOD Anwendung - http://lod.openlinksw.com/sparql

Ich halte diese Liste des großen triplestores auf dem W3C-Wiki:
http://esw.w3.org/topic/LargeTripleStores

Es gibt 7 sieben triplestores, die eine Milliarde Tripel halten über sind bekannt zu können. Vier von ihnen sind Open Source. Bitte aktualisieren Sie die oben genannten Wiki-Seite, wenn Sie mehr Informationen haben.

Offensichtlich Leistung hängt davon ab, was Sie es für verwenden. Früher habe ich Virtuoso in einem industriellen Großprojekt, und es ist ziemlich schnell.

Neo4j Griffe um 1+ Milliarden Tripel aus der Box, SAIL API hier , während immer noch die ganze graph erweiterte Sachen mit Dingen wie Gremlin oder SPARQL.

Disclaimer: Ich bin Teil des Neo4j Teams

Intellidimension bietet eine Lösung namens

4Speichern sieht eine gute Lösung zu sein, aber die Dokumentation zu dieser Zeit ziemlich spärlich ist, und wenn ich das letzte Mal sah es gab es keine Möglichkeit, eine individuelle triple aus dem Diagramm zu löschen.

Ich würde auch einen Blick auf BigData

Hier ist ein Zitat aus der Haupt-Seite zusammenfassen ihr Angebot.

BigData (R) ist ein Open-Source-scale-out Speicher- und Rechenstoff optional Transaktionen unterstützen, sehr hohe Parallelität, und eine sehr hohe Gesamt IO Raten. Bigdata wurde von Grund auf als eine verteilte Datenbank-Architektur für sehr hohe Gesamt IO Raten optimiert über Cluster von 100s laufen 1000s von Maschinen, sondern kann auch in einem Single-Server-Modus ausgeführt werden. Bigdata bietet ein verteiltes Dateisystem, ähnlich das Dateisystem Google, sondern auch nützlich für die Workflow-Warteschlangen, ein Datum erweiterbaren spärlichen Reihe zu speichern, ähnlich wie Googles weithin anerkannt BigTable Projekt, und Map / Reduce-Verarbeitung für die intensiven Workflows über eine Cluster-Daten zu parallelisieren.

BigData (R) ist mit einem sehr leistungsfähigen RDF Speicher unterstützt RDF (S) und OWL Lite-Inferenz verpackt. Der BigData RDF-Speicher ist derzeit die einzige RDF Datenbank, die mit dynamischer Schlüsselbereichspartitionierung von Indizes auf einen Cluster verteilt arbeiten. Der BigData RDF Shop wurde in sehr großem Maßstab semantische Ausrichtung und Bund speziell erfüllen Anforderungen. RDF ist eine semantische Web-Technologie besonders gut geeignet für die Modellierung Graph förmigen Daten und Metadaten, wie zum Beispiel ein assoziatives entity-Verbindungsmodell, wobei Akteure miteinander in einer ad-hoc Art und Weise im Zusammenhang mit einer sich entwickelnden Ontologie von Begriffen verknüpft sind, für Entitätstypen und Linktypen zu einem bestimmten Problembereich zusammen. Die BigData RDF Store ist operativ in Datensammelsystemen verwendet, um Mashups von strukturierten, semi-strukturierte und unstrukturierte Daten aus den vielfältigsten Quellen in einem Schema-flexibel zu erstellen.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow