Frage

Also, ich habe unter Hadoop mit großen Interesse , und um ehrlich zu sein ich bin fasziniert nicht, werden die Dinge viel kühler.

Mein einziges kleines Problem ist, ich bin ein C # -Entwickler und es ist in Java.

Es ist nicht, dass ich nicht verstehen, die Java so viel wie ich für das Hadoop.net oder NHadoop oder .NET Projekt bin auf der Suche, das die Google MapReduce Ansatz. Kennt jemand ein?

War es hilfreich?

Lösung

Haben Sie sich Hadoop Streaming-auf mit?

Ich benutze es in Python die ganze Zeit: -).

Ich fange an zu sehen, dass der heterogene Ansatz ist oft die beste und es sieht aus wie andere Leute das gleiche tun.

Wenn Sie an Projekten aussehen wie Protokoll-Puffer oder Facebook thrift Sie sehen, dass manchmal ist es einfach am besten eine App in einer anderen Sprache geschrieben zu verwenden und den Klebstoff in der Sprache Ihrer Wahl zu bauen.

Andere Tipps

Vor kurzem hat MySpace ihre .NET MapReduce Framework, Qizmt , wie Open Source, so dies ist auch ein potentieller Anwärter in diesem Raum.

, antwortete ich Ihre Frage in meiner Frage hier

Um es hier in der Quelle:

Microsoft Dryad ) zugunsten Hadoop. Im nächsten Jahr werden sie lösen MS SQL Server 2012 mit Hadoop-Integration. Azure und Windows Sever Unterstützung wird entwickelt, wie wir sprechen.

Es wird in der ersten Hälfte 2012 verfügbar sein.

Hadoop ist die # 1 BigData Plattform und wird von Open Source und proprietärer unterstützt werden Quelle (Java, .NET, Python, ...) auch Oracle ist die Annahme.

Wenn Sie etwas wurden entwickeln, sollten Sie warten, wenn Sie auf der .NET-Plattform sind.

Weitere Informationen über das, was möglich ist verfügbar hier sein

Ich würde sagen, dass DryadLinq die nächste Sache ist, dass wir .NET Folk zu Hadoop hat. Aber es hängt was Sie hadoop für verwenden möchten. Wenn Sie für die optimierte Selbst suchen verteilte Datei (DFS) System beibehalten wird dann DryadLINQ ist nicht das, was Sie suchen. Es verfügt über einen Analog-DFS, aber Sie müssen manuell die Partitionen erstellen und jede Partition verteilen.

Dass gesagt wird, wenn sie die verteilte Ausführung Aspekt von Hadoop, die Sie suchen als DryadLINQ ist wirklich wunderbar (und nein, ich bin nicht mit MS verbundenen). Solange Sie einen Microsoft HPC Cluster-Setup haben, als sich mit DryadLINQ gehen ist wirklich einfach.

Der Code, den Sie schreiben, ist wirklich nur gerade LINQ-Code, mit der Ausnahme, anstatt die LINQ der Ausführung auf IEnumerable<T> Sie haben es auf PartitionedTable<T> auszuführen (die Eigenbau verteilte Datenstruktur).

Was ist wirklich cool gewesen über DryadLINQ ist die schnelle Umdrehung um Zeit (versuchen Sie, zu testen, anzupassen, wiederholen), wenn Algorithmen zu entwickeln. Sie schreiben nur LINQ Code Ihre Berechnungen zu tun und DryadLINQ wird der gesamte verteilte Ausführung Teil kümmern. Es ist die natürlichste analoge I über die gekommen sind, für die verteilte Verarbeitung Schreiben von Code macht genau wie Code für einzelne Prozessverarbeitung zu schreiben.

Sie können etwas schauen in wie RavenDB es für MapReduce für eine ziemlich große Größe der Daten sehr anständig unterstützt. wie es in .Net so ein richtigen LINQ-Client-API ist verfügbar gebaut wird.

http://ravendb.net/

Um Ihnen den Einstieg können Sie meine Blog entery.

Es kann besser sein Apache Hadoop und Streaming zu verwenden, da Apache Hadoop aktiv von großen Riesen in der Industrie wie Yahoo und Facebook entwickelt und gepflegt wird. So kann es tun, was Sie es tun erwarten.

Wenn Sie eine Lösung in .NET benötigen Sie bitte auf Myspace Implementierung @ MySpace Qizmt - MySpace Open Source MapReduce-Framework

Microsoft Research hat Projekt Daytona http://research.microsoft.com/en-us/projects/daytona/

Sie können es herunterladen. Es gibt eine Wordcount Probe in C #.

Sie können jetzt Hadoop verwenden, um direkt von .NET Microsoft Release verfügt über ein SDK zu tun.

https://hadoopsdk.codeplex.com/

Natürlich bedeutet dies, die Java verwenden basierten Hadoop-Netzwerk. Aber ist es gleichgültig, ob der Server in Java ausgeführt wird? Ich bin sicher, dass jemand es zu portieren kann versuchen, aber ich glaube nicht, dass es eine gute Idee, da die Unternehmen bereits die Java-Version unterstützen und ich glaube nicht, der .NET-Port wird die gleiche Aufmerksamkeit erhalten.

Haben Sie einen Blick auf:

http://www.windowsazure.com/en-us/services/hdinsight /

Es ist eine Implementierung von Hadoop für Azure und Sie können es .NET verwenden für den Zugriff.

Intern Microsoft wurden mit Cosmos. Dies wurde außerhalb Microsoft durch Azure zur Verfügung gestellt. Es ist benannt Azure Daten See Analytics und Azure Daten See Shop . Azure Daten See Analytik ist eine Art von Garn als Service und Azure Daten See Shop WebHDFS als Dienstleistung an. Die erste Version von Azure Daten See Analytics nur Gastgeber U-SQL eine Sprache basierend auf Transact-SQL + C #.

Es ist eine ziemlich nette MapReduce-Implementierung für .NET an: http://mapsharp.codeplex.com/

Dryade / Linq wird productized und wird in Kürze freigegeben werden: http: / /blogs.technet.com/b/windowshpc/archive/2011/07/07/announcing-linq-to-hpc-beta-2.aspx Verwendung in Verbindung mit Microsoft HPC für eine leistungsfähige, Cluster-basierte Lösung für Quering unstrukturierten Daten

Wie andere erwähnt haben, DryadLINQ ist eine Programmierumgebung, die es Entwicklern ermöglicht, LINQ-Abfragen zu schreiben und sie auf einem Cluster, in ähnlicher Weise wie MapReduce auszuführen. Das DryadLINQ Projekt wurde vor kurzem unter der Apache-Lizenz auf GitHub freigegeben worden ist, und die Version enthält Unterstützung für das Ausführen auf GARN Cluster (einschließlich Azure HDInsight Cluster).

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top