質問

それで、私は見てきました ハドゥープ 強い関心を持っていますし、正直に言うと私も魅了されていますが、状況はそれほどクールではありません。

私の唯一の小さな問題は、私が C# 開発者であり、それが Java であることです。

私が Java を理解していないわけではなく、Hadoop.net や NHadoop、あるいは Java を採用する .NET プロジェクトを探しているのと同じくらいです。 Google MapReduce アプローチ。誰か知っていますか?

役に立ちましたか?

解決

Hadoopのストリーミングの使用を見ましたか

常にPythonで使用しています:-)。

ヘテロジニアスなアプローチがしばしば最良であり、他の人々が同じことをしているように見えることがわかり始めています。

プロトコルバッファやfacebookの節約などのプロジェクトを見ると、別の言語で記述されたアプリを使用して、好みの言語で接着剤を作成することが最善の場合があることがわかります。

他のヒント

最近、MySpaceは.NET MapReduceフレームワーク Qizmt をオープンソースとしてリリースしたため、これもこの分野の潜在的な候補です。

質問こちら

で質問に回答しました

ソースでここに言うには:

Microsoft Dryad ) Hadoop。 来年、Hadoop統合を備えたMS SQL Server 2012をリリースします。 AzureとWindows Severのサポートは、私たちが話すように開発されています。

2012年上半期に利用可能になります。

Hadoopは、#1 BigData プラットフォームであり、オープンソースおよびプロプライエタリでサポートされる予定です。ソース(Java、.Net、Pythonなど)もOracleが採用しています。

何かを開発している場合、.Netプラットフォームを使用している場合は待つ必要があります。

可能なことの詳細については、こちら

をご覧ください。

DryadLinqは、.NETの人々がHadoopに最も近いものだと思います。ただし、hadoopの使用目的によって異なります。最適化された自己維持分散ファイル(DFS)システムを探している場合は、 DryadLINQ はあなたが探しているものではありません。 DFSに類似していますが、パーティションを手動で構築し、各パーティションを配布する必要があります。

そうは言っても、もしあなたが探しているHadoopの分散実行の側面がDryadLINQよりも本当に素晴らしいなら(そしていや、私はMSと提携していません)。 Microsoft HPC クラスターのセットアップがある限り、DryadLINQを使用するのは本当に簡単です。

記述するコードは実際には単なるLINQコードですが、IEnumerable<T>でLINQを実行する代わりに、PartitionedTable<T>(自己構築分散データ構造)で実行する必要があります。

DryadLINQで本当に素晴らしいのは、アルゴリズムを開発する際の高速なターンアラウンドタイム(試行、テスト、調整、繰り返し)です。計算を行うLINQコードを記述するだけで、DryadLINQが分散実行部分全体を処理します。私が出会った中で最も自然なアナログであり、単一プロセス処理のコードを書くのと同じように、分散処理のコードを書くことができます。

RavenDb のようなものを調べると、かなり大きなサイズのデータ​​に対する MapReduce の非常に適切なサポートが提供されます。.Net に組み込まれているため、適切な LINQ クライアント API が利用可能です。

http://ravendb.net/

始めるには、私の記事を読んでください ブログ 入りやすい。

Apache Hadoopは、YahooやFacebookなどの業界の大企業によって積極的に開発および保守されているため、Apache Hadoopとストリーミングを使用する方が適切な場合があります。そのため、期待どおりのことができます。

.NETでソリューションが必要な場合は、Myspaceの実装を確認してください@ MySpace Qizmt-MySpace <!>#8217; sオープンソースMapreduceフレームワーク

Microsoftは、 HDInsight 。<!> quot; 100%Apache互換Hadoopディストリビューションとして請求されます。<!> quot;

Windows ServerとWindows Azureサービスの両方で利用可能です。

Microsoft ResearchにはプロジェクトDaytonaがあります http://research.microsoft.com/en-us/projects/daytona/

ダウンロードできます。 C#にはWordCountサンプルがあります。

.NETからHadoopを直接使用できるようになりました。MicrosoftはそのためのSDKをリリースしています。

https://hadoopsdk.codeplex.com/

もちろん、これはJavaベースのHadoopネットワークを使用することを意味します。しかし、サーバーがJavaで実行されている場合は問題になりますか?誰かがそれを移植しようとするかもしれないと確信していますが、企業がすでにJavaバージョンをサポートしているので、それは良い考えではないと思います。.NETポートが同じ注意を引くとは思いません。

ご覧ください:

http://www.windowsazure.com/en-us/services/hdinsight /

Hadoop for Azureの実装であり、アクセスには.NETを使用できます。

内部では、MicrosoftはCosmosを使用しています。これは、Azureを通じてMicrosoftの外部で利用可能になりました。 Azure Data Lake Analytics および Azure Data Lake Store 。 Azure Data Lakeアナリティクスは、サービスとしての一種のヤーンであり、サービスとしてのAzure Data Lake Store WebHDFSです。 Azure Data Lake Analyticsの最初のバージョンは、Transact-SQL + C#に基づく言語のU-SQLのみをホストします。

dryad/linq は製品化されており、間もなくリリースされる予定です。http://blogs.technet.com/b/windowshpc/archive/2011/07/07/payment-linq-to-hpc-beta-2.aspxMicrosoft HPC と組み合わせて使用​​すると、非構造化データをクエリするための強力なクラスターベースのソリューションが実現します。

他の人が述べたように、 DryadLINQ は、開発者を可能にするプログラミングフレームワークです。 MapReduceと同様の方法で、LINQクエリを作成してクラスター上で実行します。 DryadLINQプロジェクトは、最近 GitHub のApacheライセンスの下でリリースされました。 YARNクラスター(Azure HDInsightクラスターを含む)。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top