Frage

Ich entwickle eine Web-Crawler, die eine gute für die Speicherung von Daten? Cassandra oder Hadoop Hive oder MySQL? Und warum? Ich habe 1 TB Daten aus dem vergangenen 6 Monaten in meiner MySQL-DB, ich brauche zu indizieren und ich brauchen das aus Put in meiner Suche so schnell wie möglich zu bekommen, und, wie ich denke, es wird speichern mehr Menge an Daten, wie 10 Peta Byes wie mein Crawler schnell arbeiten, muss ich schnell die Lese- / Schreib-Operation erhalten, muss ich es in meinem PHP-Anwendung integrieren

War es hilfreich?

Lösung

Das hängt von Details Ihrer Anforderungen, aber ich denke, dass in Ihrem Fall HBase die beste Option wäre.
Mit HBase als Web-Crawler-Datenbank ist gut dokumentiert und es ist HBase die Nutzung, die in BigTable White Paper beschrieben wird.

Andere Tipps

Sie suchen nach etwas, das für die Suche nach Dokumenten auf der Grundlage ihrer Inhalte gemeint ist - es sollte auf einem invertierten Index basieren. Ich denke, dass die natürlichste fit wäre Lucene .

Siehe auch dieser Artikel über einen Hadoop-Lucene-Stack für Terabytes von Dokumenten abgefragt wird.

Es hängt von Ihren Anforderungen, Nutzung Hbase bei Echtzeit schneller Analyse von Streaming-Daten. Cassandra ist am besten geeignet für schnelle Schreib Szenarien, wie die Lese langsam Hbase verglichen wird.

Hive ist auch eine gute Alternative. Für eine verbesserte Leistung hive Verwendung Impala.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top