문제

우리 회사는 MS BI Stack (SQL Server Reporting Services, -analysis Services 및 -integration Services)에 많은 투자를하고 있지만, 오픈 소스 대안 Pentaho에 대해 가장 많이 이야기 한 것을 살펴보고 싶습니다.

나는 버전을 설치했고, 그것을 고통스럽게 만들고 실행했습니다. 그래서 좋습니다. 그러나 나는 실제로 패키지를 철저히 이해하기 위해 실제 작업을 위해 그것을 사용할 시간이 없었습니다.

Pentaho vs MS Bi의 장단점 또는 그러한 비교에 대한 링크에 대한 통찰력을 얻었습니까?

매우 감사!

도움이 되었습니까?

해결책

비즈니스 객체에서 벗어나기 위해 길을 따라 여러 BI 스택을 검토했습니다. 내 의견 중 많은 것이 선호합니다. 두 도구 세트 모두 우수합니다. 어떤 것들은 평범한 초콜릿보다 초콜릿 퍼지 브라우니 아이스크림을 선호하는 방법입니다.

Pentaho는 그들과 함께 일하는 정말 똑똑한 사람들을 가지고 있지만 Microsoft는 자금을 지원하고 잘 계획된 길을 가고 있습니다. MS는 여전히 데이터베이스 시장의 약자임을 명심하십시오. 오라클은 여기 왕입니다. 경쟁력을 갖기 위해 MS는 데이터베이스를 구입할 때 많은 음식을 제공하고 있으며 플랫폼을 몇 번 재창조해야했습니다. 나는 이것이 데이터베이스에 관한 것이 아니라는 것을 알고 있지만 DB 전투는 MS가 스택에 가치를 더하기 위해 많은 것을 제공하게 만들었습니다.

1.) 플랫폼
SQL Server는 UNIX 또는 Linux에서 실행되지 않으므로이 시장에서 자동으로 제외됩니다. Windows는 일부 버전이나 Unix와 거의 같은 가격입니다. Windows는 꽤 싸고 이제 실패합니다. 그것은 Linux만큼 많은 문제에 대해 나에게 제공합니다.

2.) Olap
분석 서비스는 2005 년 (현재 IS 2008)에 2000 버전에 걸쳐 재창조되었습니다. 그것은 2000 년 이상 더 강력한 Magnatude의 순서입니다. Pentaho (Mondrian)는 일단 커지면 빠르지 않습니다. 또한 기능이 거의 없습니다. 꽤 좋지만 도구 방식에는 적습니다. 둘 다 Excel을 Esscential 플랫폼으로 지원합니다. MS 버전이 더 강력합니다.

3.) ETL
MS -DTS는 SSI로 대체되었습니다. 다시 말하지만, 속도, 전력 및 능력의 Magnatude의 순서. 모든 데이터 이동 또는 프로그램 제어를 제어합니다. 그렇게 할 수 없다면 PowerShell에 스크립트를 쓸 수 있습니다. 2008 년 릴리스에서 Informatica와 동등합니다. Pentaho- 예전보다 훨씬 낫습니다. 내가 원하는만큼 빠르지는 않지만 내가하고 싶은 모든 일에 대해 할 수 있습니다.

4.) 대시 보드
Pentaho는 이것을 개선했습니다. 발전하는 것은 불편하고 비우호적이지만 실제로 MS에게는 실제적인 것이 아닙니다.

5.) 보고서
MS 보고서는 실제로 강력하지만 사용하기 어렵지는 않습니다. 나는 지금 그것을 좋아하지만 조금 더 잘 알게 될 때까지 처음에는 미워했다. 나는 Crystal Reports를 사용하고 있었고 MS Report Builder는 훨씬 더 강력합니다. MS에서 어려운 일을하기는 쉽지만 쉬운 일을하기가 조금 더 어렵습니다. Pentaho는 약간 서투른 것입니다. 나는 그것을 전혀 좋아하지 않았지만 당신은 할 수 있습니다. 나는 그것이 지나치게 복잡하다는 것을 알았습니다. 나는 그것이 Crystal Report Builder 또는 MS Report Builder와 비슷했으면 좋겠지 만 재스퍼와 같은 것입니다. 나는 힘들다는 것을 알았다. 그것은 선호도 일 수 있습니다.

6.) 임시
MS- 이것은 저에게 진짜 승자였습니다. MS 사용자 보고서 빌더와 즉시 사랑하는 사용자와 함께 테스트했습니다. 차이를 만든 것은 사용하기 쉬운 것뿐만 아니라 생산적인 방법이었습니다. Pentaho- 좋지만 꽤 오래된 학교입니다. 보다 일반적인 마법사 기반 모델을 사용하고 강력한 도구가 있지만 싫어합니다. 그것은 그것이 무엇인지에 대한 훌륭한 도구이지만, 우리는이 스타일에서 벗어 났으며 아무도 돌아가고 싶어하지 않습니다. logixml에서와 같은 문제가 있습니다. 인터페이스는 그것이 무엇인지에 대해 잘 작동했지만 실제로 우리가 12 년 동안 사용한 것과는 별다른 변화는 아닙니다.http://wiki.pentaho.com/display/presalesportal/methods++interactive+ reporting

Pentaho를 실제로 잘 운영 할 수있는 경험 많은 사람들이 있습니다. 방금 MS 스위트가 더 생산적이라는 것을 알았습니다.

다른 팁

경고 - SSIS와의 수많은 결함, 버그 및 성가심을 나열하는 수많은 사이트가 있습니다. 왜 SSI가 게시물과 함께 나왔는지 확실하지 않지만 프로젝트에 베팅하기 전에 사람들이 블로그에서 무엇을 말해야하는지 살펴보십시오. 내 경험에 따르면 약 20 : 1은 끔찍한 SSI가 얼마나 끔찍한 일을 해야하는지에 대해 열광합니다. 저는 현재 대안을 찾고있는 동의 할 수 있습니다.

여기에 훌륭한 정보? 나는 Pentaho를 시도하지 않았지만 그것을 확인할 계획입니다. 저는 1998 년부터 노련한 MS BI 컨설턴트입니다. SSIS는 매우 빠르고 매우 강력하지만 비판은 발견되었습니다. SSIS에서 다음과 같은 문제를 발견했습니다.

(1) 디버그하기가 어렵습니다. 문제가 실제로 무엇인지, 어디에 있는지에 대한 힌트를 줄 수없는 암호 오류가 발생합니다.

(2) 사전 의견에 따르면, 그것은 가장 시끄러운 개발 환경입니다! 나는 그들이 무엇을 생각하고 있는지 전혀 알지 못한다.

(a) 100 개 이상의 열이있는 테이블을 만들고 합병 조인을 넣습니다. 이제 다시 들어가서 Merge Join에 대한 업데이트를 시도하십시오 (새 열을 Pull a Pull a Pull a Pull). 합병 조인을 클릭 한 후에도 가장 빠른 기계에서도 몇 분이 걸릴 수 있습니다. 변경 사항을 저장하십시오. 많은 레코드가 많은 거대한 데이터 흐름을 가지고 있으며 많은 합병 조인이 있습니다. 데이터 플로에 열 한 열을 추가하는 데 반나절이 걸립니다. 병합 조인을 업데이트 한 다음 다른 일을하고 5-10 분 후에 다시 확인하여 완료되었는지 확인해야합니다. 이에 대한 Microsoft의 응답은 패키지를 여러 패키지로 나누고 데이터를 테이블에 배치하는 것입니다. 글쎄, 당신이 모든 단계들 사이에 디스크를하려고한다면, 당신은 SQL에서 모든 일을 잘했을 것입니다! ETL 도구의 주요 목적 중 하나는 메모리 의이 모든 것들에 대한 것이며 디스크 I/O를 피하는 것입니다.

(b) 디자이너는 때때로 충돌하는 충돌이 발생합니다. 마지막 저장 이후 모든 작업을 잃어 버립니다 (이 때문에 지금 내 수면에서 CTRL-S를 수행합니다)

(c) 해킹을 파악하고 넓은 레코드를 위해 Excel에서 SSIS 패키지 XML을 생성해야했습니다. 600 개 이상의 열 레코드가 흔한 의료 고객이 있습니다. SSIS에서 600 개의 열이있는 파일 형식을 정의하려면 한 번에 하나씩 모든 열을 입력해야합니다 !!! MS Access조차도 스프레드 시트에서 레이아웃을 파일 레이아웃으로 자르고 붙여 넣을 수 있지만 SSIS는 아닙니다. 그래서 레이아웃에서 XML을 생성하고 XML 코드를 패키지의 올바른 위치에 붙여 넣어야했습니다. 추악한 방법이지만 하루 종일 일과 많은 오류를 절약했습니다.

(d) (c)와 유사하게, 모든 열을 다듬어야하고 600+ 이상을 말한 경우, 무엇을 추측합니까? 파생 된 열 구성 요소에서 트림 (column1) 600 배를 입력해야합니다! 이제 SQL 쿼리에서 이와 같은 모든 간단한 변환을 수행하여 데이터를 가져옵니다. Excel 시트에서 쉽게 생성 할 수 있기 때문입니다.

(e) 보이지 않게하는 많은 기발한 것들, 구성 요소가 있습니다. 때로는 패키지를 열고 모든 구성 요소가 일관성있게 다시 정리됩니다.

(f) ETL에서 필요한 가장 일반적인 것 중 하나 인 FTP 기능은 약하며 아무도 사용하지 않는 일반 바닐라 FTP 만 지원합니다. 요즘 모든 사람은 SFTP, FTP, HTTPS 등을 사용합니다. 따라서 거의 모든 구현에는 패키지가 호출 해야하는 타사 추천 라인 구동 파일 전송 앱을 사용해야합니다.

(g) Windows Vista의 어리석은 보안과 유사하게 CYA를 시도한 Microsoft는 실제로 한 환경에서 다른 환경으로 SSIS 패키지를 홍보하기가 매우 어려워졌습니다. "사용자 키를 사용하여 민감한 정보를 암호화하는"보안의 기본값은 기본적으로 개발 된 환경에서 동일한 계정에서 실행해야한다는 것을 의미합니다. 구성하는 더 좋은 방법은 있지만 항상 완전히 쓸모없는 보안 보호로 되돌려고 노력합니다.

(h) 마지막으로 이러한 문제의 대부분은 현재 3 번째 버전에 있으며 Microsoft가이를 해결할 계획이 없다는 것을 명확하게 나타냅니다.

(i) 디버깅은 다른 언어만큼 쉽지 않습니다.

SSIS는 여전히 많은 이점이 있지만 심각한 고통은 없습니다.

I started using MS Reporting Services many years ago and just love it. I've not tried Penaho's reporting solution so I can't comment on it. Nor have I tried either Analysis Services or Pentaho's alternative.

Recently I needed an ETL solution and being familiar with MSSQL and MSRS it seemed obvious that I would review and probably choose MS Integration Service. But for me, MSIS was awful. Mostly because it was not intuitive. After spending a couple of days trying to learn the tool I decided to look for an alternative and came across Pentaho Data Integration, formerly known as Kettle. I had it up and running within minutes and immediately created my first transformation. It just works.

Admittedly my needs are fairly simple but performance has been great and the community seems very helpful.

I have used SSIS and Pentaho Kettle, and I would highly recommend using Pentaho Kettle for your ETL tool instead of SSIS.

My reasons: -the flow of SSIS is task to task. Kettle makes you think about rows of data flowing through the system. Kettle's approach seems much more intuitive to me. -SSIS is poorly documented. This happens. But there seems to be a lot of nook-and-cranny clicking and setting of variables. Very complex. Pentaho has a community forum which is quite helpful. -I trust Pentaho to integrate with multiple types of databases, including SQL Server. You can also use JDBC which is nice. Also, I've used it to go between SQL Server and Oracle on one side and Vertica on the other. It has a bulk loader available for it on Vertica. That's quite nice. -I have found it very, very hard relatively speaking to get a SSIS package to run on a server. It just wasn't worth my time. -I found it quite easy for Pentaho to mail a warning or error message to a person or list of people. -Pentaho allows tasks to be done in JavaScript for things that need some logic. Simple and easily done with a language most of us have come across.

I can't offer any input on the MS BI Stack but at the most recent Barcamp Orlando, the folks from Pentaho were there and spoke about their products and it was an extremely impressive demo.

The fact that it's an Open Source project that you can extend yourself as well as a paid package for really good service leaves you with a lot of options. They demonstrated some paid work they did for a client and they definitely wow'd the crowd.

I also had a chance to chat a little bit with a developer working on the data warehousing side of things for Pentaho and he was extremely sharp and was very open to suggestions and had no problems answering any questions.

So as far as a company goes, Pentaho really impressed me with both their work and how friendly and approachable all of their developers were.

a couple of points to add

  • Although there is a window version of all Pentaho tools the setup in windows is onerous. Pentaho (especially the server start and stop which is separate from the GUI tool) is typically used in Linux, not windows shop, and there is steep learning curve going from Windows to Linux.
  • any tool has a learning curve when you shift to it. when you get used to always clicking OK and refreshing metadata when you have problems, SSIS isn't that bad. Pentaho can be flaky, too.

Tool questions need to be addressed in terms of larger cultural questions - what kind of shops use open source tools? in my experience i've found that althsough Microsoft shops seem more rigid, when you have trouble with a connection string in a Microsoft shop you can get help.. in Pentaho and Linux shops its more DYI.

BTW, watch out for Pentaho sales guys doing demos - all the things they show are a lot harder to get working than it seems! :)

If you are looking for a robust, low cost alternative to the big boys LogiXML has dashboarding and ad hoc reporting on a .NET platform. We've been using them since late 2006 when Pentaho was just starting, but I haven't looked at it in awhile.

I recently tried pentaho open source BI. I found it to be extremely clumsy. It was not very intuitive and development time took much longer.

It is quite different from either Oracle or ms BI solutions. Maybe the enterprise edition is better.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top