문제

그래서, 나는보고 있었다 Hadoop 열렬한 관심과 솔직히 말해서, 나는 매혹적입니다.

나의 유일한 사소한 문제는 내가 C# 개발자이고 Java에 있다는 것입니다.

내가 hadoop.net 또는 nhadoop 또는 .net 프로젝트를 찾는 것만 큼 Java를 이해하지 못하는 것은 아닙니다. Google Mapreduce 접근하다. 누구를 아는 사람이 있습니까?

도움이 되었습니까?

해결책

사용을 보셨습니까? Hadoop의 스트리밍?

나는 항상 파이썬으로 사용합니다 :-).

나는 이기종 접근법이 종종 최고이며 다른 사람들이 똑같이하는 것처럼 보입니다.

프로토콜 버퍼 또는 Facebook의 중고품과 같은 프로젝트를 보면 때로는 다른 언어로 작성된 앱을 사용하고 선호도의 언어로 접착제를 구축하는 것이 가장 좋습니다.

다른 팁

최근 MySpace는 .NET MapReduce 프레임 워크를 출시했습니다. qizmt, 오픈 소스로서, 이것은 또한이 공간에서 잠재적 인 경쟁자이기도합니다.

내 질문에 당신의 질문에 대답했습니다 여기

여기서 소스에서 말하기 위해 :

마이크로 소프트 떨어졌다 대안 (Dryad) Hadoop에 찬성합니다. 내년에 그들은 Hadoop 통합으로 MS SQL Server 2012를 출시 할 예정입니다. Azure 및 Windows Sever 지원은 우리가 말하는 것처럼 개발되고 있습니다.

2012 년 상반기에 제공 될 예정입니다.

Hadoop은 #1입니다 빅 데이터 플랫폼 및 OpenSource 및 독점 소스 (Java, .NET, Python, ...)에 의해 지원 될 예정입니다. Oracle도 채택하고 있습니다.

무언가를 개발하고 있다면 .NET 플랫폼에 있다면 기다려야합니다.

가능한 내용에 대한 자세한 정보는 제공됩니다 여기

나는 DryAdlinq가 우리 .net 사람들이 Hadoop 해야하는 가장 가까운 것이라고 말할 것입니다. 그러나 Hadoop을 사용하려는 것에 달려 있습니다. 최적화 된 자체 유지 관리 분산 파일 (DFS) 시스템을 찾고 있다면 Dryadlinq 당신이 찾고있는 것이 아닙니다. DFS와 아날로그가 있지만 파티션을 수동으로 구축하고 각 파티션을 배포해야합니다.

즉, Dryadlinq보다 당신이 찾고있는 Hadoop의 분산 실행 측면이 정말 훌륭하다면 (아니, 나는 MS와 제휴하지 않습니다). 당신이있는 한 Microsoft HPC DryAdlinQ로가는 것보다 클러스터 설정은 정말 쉽습니다.

당신이 쓴 코드는 LINQ를 실행하는 것을 제외하고는 실제로 직선 LINQ 코드입니다. IEnumerable<T> 당신은 그것을 실행해야합니다 PartitionedTable<T> (셀프 빌드 분산 데이터 구조).

DryadlinQ에서 정말 멋진 점은 알고리즘을 개발할 때 빠른 시간 (시도, 테스트, 조정, 반복)입니다. 계산을 수행하기 위해 LINQ 코드를 작성하면 DryAdlinQ가 전체 분산 실행 부분을 처리합니다. 단일 프로세스 처리를위한 코드 작성과 같이 분산 처리를위한 쓰기 코드를 만드는 것이 가장 자연스러운 아날로그입니다.

RavendB와 같은 것을 조사 할 수 있습니다. 그것은 상당히 큰 규모의 데이터에 대해 MapReduce를 매우 적절하게 지원합니다. .NET로 내장되어 있으므로 적절한 LINQ 클라이언트 API를 사용할 수 있습니다.

http://ravendb.net/

당신을 시작하려면 내 읽을 수 있습니다 블로그 엔터리.

Apache Hadoop이 Yahoo 및 Facebook과 같은 업계의 Big Giants가 적극적으로 개발하고 유지 관리하고 있기 때문에 Apache Hadoop 및 Streaming을 사용하는 것이 좋습니다. 그래서 그것은 당신이 기대하는 것을 할 수 있습니다.

.NET에 솔루션이 필요한 경우 MySpace 구현을 확인하십시오 @ MySpace Qizmt- MySpace의 오픈 소스 MapReduce 프레임 워크

Microsoft는 출시 중입니다 hdinsight, "100% Apache 호환 Hadoop 배포"로 청구됩니다.

Windows Server와 Windows Azure Service에서 사용할 수 있습니다.

Microsoft Research에는 Project Daytona가 있습니다http://research.microsoft.com/en-us/projects/daytona/

다운로드 할 수 있습니다. C#에는 WordCount 샘플이 있습니다.

이제 .NET Microsoft에서 직접 Hadoop을 사용할 수 있습니다.

https://hadoopsdk.codeplex.com/

물론 이것은 Java 기반 Hadoop 네트워크를 사용하는 것을 의미합니다. 그러나 서버가 Java로 실행중인 경우 중요합니까? 나는 누군가가 포트를 시도 할 수 있다고 확신하지만 기업이 이미 Java 버전을 뒷받침하고 .net 포트가 같은 관심을 끌 것이라고 생각하지 않기 때문에 좋은 생각은 없을 것이라고 생각합니다.

살펴보세요 :

http://www.windowsazure.com/en-us/services/hdinsight/

Azure 용 Hadoop의 구현이며 액세스하기 위해 .NET을 사용할 수 있습니다.

내부적으로 Microsoft는 우주를 사용하고 있습니다. 이것은 Azure를 통해 Microsoft 외부에서 제공되었습니다. 이름이 지정되었습니다 Azure Data Lake Analytics 그리고 Azure Data Lake Store. Azure Data Lake Analytics는 서비스로서의 원사이며 Azure Data Lake Store webhdfs는 서비스로서입니다. Azure Data Lake Analytics의 첫 번째 버전은 Transact-SQL + C#을 기반으로 U-SQL 언어 만 호스팅합니다.

.NET에 대한 꽤 귀여운 MapReduce 구현이 있습니다. http://mapsharp.codeplex.com/

DryAD/LINQ는 생산물이 제작되어 곧 출시 될 예정입니다.http://blogs.technet.com/b/windowshpc/archive/2011/07/07/announcing-linq-to-hpc-2.aspx구조화되지 않은 데이터 쿼리를위한 강력한 클러스터 기반 솔루션을 위해 Microsoft HPC와 함께 사용

다른 사람들이 언급했듯이 Dryadlinq 개발자가 LINQ 쿼리를 작성하고 MapReduce와 유사한 방식으로 클러스터에서 실행할 수있는 프로그래밍 프레임 워크입니다. DryadlinQ 프로젝트는 최근 Apache 라이센스에 따라 출시되었습니다. github, 및 릴리스에는 원사 클러스터 (Azure Hdinsight 클러스터 포함)에서의 실행 지원이 포함됩니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top