Erfahrung mit Hadoop?

https://stackoverflow.com/questions/17721

09-06-2019
|

Frage

Haben Sie versucht, Hadoop?Kann es verwendet werden, ohne die verteilte Dateisysteme, die mit ihm geht, in einem Share-nothing-Architektur?Würde dass Sinn machen?

Ich bin auch interessiert in jede performance-Ergebnisse, die Sie haben...

Lösung

Ja, Sie können verwenden Sie Hadoop auf einem lokalen Dateisystem mithilfe von Datei-URIs anstelle von hdfs-URIs in verschiedenen Orten.Ich denke, viele der Beispiele, die mit Hadoop tun.

Dies ist wahrscheinlich in Ordnung, wenn Sie nur wollen, um zu erfahren, wie Hadoop funktioniert und die grundlegenden map-reduce-Paradigma, aber Sie müssen für mehrere Maschinen und ein verteiltes Dateisystem, um die wirklichen Vorteile der Skalierbarkeit, die in der Architektur.

Andere Tipps

Hadoop MapReduce ausgeführt werden können ontop der eine beliebige Anzahl von Datei-Systeme oder, noch abstrakter Datenquellen wie Datenbanken.In der Tat gibt es ein paar eingebaute Klassen für nicht-HDFS-Dateisystem-Unterstützung, wie S3 und FTP.Sie konnte einfach bauen Sie Ihre eigenen input-format sowie durch eine Erweiterung des basic - InputFormat Klasse.

Mit HDFS bringt bestimmte Vorteile, aber.Der stärkste Vorteil ist, dass das MapReduce-job-scheduler versucht, führen maps und reduziert die auf den physischen Maschinen speichern die Datensätze in der Notwendigkeit der Verarbeitung.Das bringt einen performance-Schub, wie Daten geladen werden können direkt von der lokalen Festplatte anstatt über das Netzwerk übertragen, was je nach Verbindung kann es sich um Größenordnungen langsamer.

Wie Joe sagte, Sie können tatsächlich verwenden Sie Hadoop ohne HDFS.Aber der Durchsatz hängt von der cluster-Fähigkeit, um die Berechnung in der Nähe, wo die Daten gespeichert werden.Mit HDFS hat 2 Hauptvorteile IMHO 1) die Berechnung ist verteilt mehr gleichmäßig auf die cluster (Verringerung der Menge an inter-node-Kommunikation) und 2) den cluster als ganzes ist mehr beständig gegen Ausfall aufgrund von Daten, Nichtverfügbarkeit.

Wenn Ihre Daten bereits partitioniert oder trivial teilbaren, möchten Sie vielleicht zu schauen in die Versorgung Ihrer eigenen Partitionierungs-Funktion für Ihren map-reduce-task.

Der beste Weg, um Ihren Kopf herum wickeln Hadoop ist, laden Sie es herunter und erkunden Sie die schließen Beispiele.Verwenden Sie eine Linux-box/VM und Ihre Einrichtung viel einfacher als Mac oder Windows.Sobald Sie sich wohl fühlen mit die Muster und Konzepte, dann starten, um zu sehen, wie Ihr problem Raum anzeigen in den Rahmen.

Ein paar Ressourcen, die Sie vielleicht nützlich finden weitere Informationen auf Hadoop:

Hadoop-Gipfel Videos und Präsentationen

Hadoop:The Definitive Guide:Rohschnitt-Version - Dies ist einer der wenigen (nur?) Bücher zur Verfügung auf Hadoop an dieser Stelle.Ich würde sagen, es ist den Preis Wert der elektronische download-option, auch an diesen Punkt ( das Buch ist ~40% abgeschlossen ).

Hadoop: The Definitive Guide: Rough Cuts Version

Parallel/ Distributed computing GESCHWINDIGKEIT = << Hadoop macht dies wirklich einfach und Billig, da kann man einfach ein Bündel von commodity-Maschinen!!!

Im Laufe der Jahre disk-storage-Kapazitäten Massiv erhöht aber die Geschwindigkeit, bei der Sie die Daten gelesen haben, nicht Schritt gehalten.Je mehr Daten auf einer Festplatte ist, desto langsamer ist die sucht.

Hadoop ist eine clevere Variante der Aufteilung eines erobern Ansatz zur Problemlösung.Sie im Grunde brechen, das problem in kleinere Stücke und ordnen Sie die Abschnitte in mehreren verschiedenen Computern auf die Verarbeitung parallel zu Dinge beschleunigen anstatt überlastung einer Maschine.Jede Maschine verarbeitet seine eigene Teilmenge der Daten, und das Ergebnis ist kombiniert in die Ende.Hadoop auf einem einzelnen Knoten ist nicht zu geben Ihnen die Geschwindigkeit, die zählt.

Um den nutzen von hadoop, sollten Sie über einen cluster mit mindestens 4 - 8 Rohstoff-Maschinen (je nach Größe der Daten) auf die gleichen rack.

Sie müssen nicht mehr auf ein super genius parallele Systeme Ingenieur um die Vorteile von distributed computing.Nur wissen, hadoop mit Hive und Ihr gut zu gehen.

ja, hadoop kann sehr gut ohne HDFS.HDFS ist nur ein Standard-Speicher für Hadoop.Sie können ersetzen HDFS mit anderen Speicher wie Datenbanken.HadoopDB ist eine Brustvergrößerung über hadoop verwendet Datenbanken anstelle von HDFS als Daten-Quelle.Google es, du wirst es leicht zu bekommen.

Wenn Sie nur Ihre Füße nass, beginnen Sie mit dem herunterladen CDH4 & es läuft.Sie können die Installation in einer lokalen Virtuellen Maschine und führen Sie in "pseudo-distributed-Modus", die eng imitiert, wie es laufen würde in einem echten cluster.

Ja, Sie können lokale Datei-system über file://, während die Angabe der Eingabedatei etc. und dies würde die Arbeit auch mit kleinen Datensätzen.Aber die tatsächliche Leistung von hadoop basiert auf verteilten und sharing-Mechanismus.Aber Hadoop ist für die Verarbeitung großer Datenmengen.Diese Menge an Daten kann nicht verarbeitet werden, durch einen einzelnen lokalen Computer oder auch wenn es tut, es wird nehmen Sie viel Zeit, um den job zu beenden.Da Ihr input-Datei an einem freigegebenen Speicherort(HDFS) mehrere Mapper können Lesen es gleichzeitig und reduziert die Zeit, den job zu beenden.In Kürze können Sie es verwenden, mit lokalen Dateisystem, sondern um zu erfüllen die business-Anforderung sollte es mit shared file system.

Großen theoretischen Antworten.

Ändern Sie Ihr hadoop-Dateisystem, um lokale, können Sie ändern es in "core-site.xml" Konfiguration Datei wie unten für hadoop-Versionen 2.x.x.

 <property>
    <name>fs.defaultFS</name>
    <value>file:///</value>
  </property>

für hadoop-Versionen 1.x.x.

 <property>
    <name>fs.default.name</name>
    <value>file:///</value>
  </property>

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow