Question

Mon entreprise est fortement investie dans la pile MS BI (Services de génération de rapports, Services d'analyse et Services d'intégration), mais je voudrais jeter un coup d'œil à ce à quoi ressemble apparemment la solution de rechange open source la plus discutée, Pentaho.

J'ai installé une version et je l'ai mise en place sans problème. Donc c'est bien. Mais je n'ai pas vraiment le temps de commencer à l'utiliser pour le travail réel afin de bien comprendre le paquet.

Quelqu'un parmi vous a-t-il des idées sur les avantages et les inconvénients de Pentaho par rapport à MS BI ou des liens vers de telles comparaisons?

Très apprécié!

Était-ce utile?

La solution

J'ai examiné plusieurs piles Bi lorsqu’il était sur le point de sortir de Business Objects. Beaucoup de mes commentaires sont de préférence. Les deux outils sont excellents. Certaines choses sont la façon dont je préfère la crème glacée au chocolat fondant au brownie au chocolat noir.

Pentaho a des gars très intelligents qui travaillent avec eux, mais Microsoft est sur une trajectoire bien financée et bien planifiée. Gardez à l'esprit que MS sont toujours les outsiders sur le marché des bases de données. Oracle est roi ici. Pour être compétitif, MS a donné beaucoup de cadeaux lors de l’achat de la base de données et a été contraint de réinventer sa plate-forme à quelques reprises. Je sais que ce n’est pas à propos de la base de données, mais la bataille de la base de données a pour conséquence que MS donne beaucoup pour donner de la valeur à sa pile.

1.) Plateforme
Le serveur SQL ne fonctionnant pas sous Unix ou Linux, ils sont automatiquement exclus de ce marché. Windows a à peu près le même prix que certaines versions ou Unix maintenant. Windows est assez bon marché et fonctionne bien maintenant. Cela me donne à peu près autant de problèmes que Linux.

2.) OLAP
Les services d'analyse ont été réinventés en 2005 (la version actuelle est 2008) par rapport à la version 2000. C'est un ordre de magnatude plus puissant que l'an 2000. Le pentaho (Mondrian) n'est pas aussi rapide une fois devenu gros. Il a également peu de fonctionnalités. C'est très bien, mais il y a moins d'outils. Les deux supportent Excel comme plate-forme essentielle. La version MS est plus robuste.

3.. ETL
MS-DTS a été remplacé par SSIS. Encore une fois, l'ordre de grandeur augmente en vitesse, en puissance et en capacité. Il contrôle tout mouvement de données ou contrôle de programme. S'il ne peut pas le faire, vous pouvez écrire un script dans Powershell. À égalité avec Informatica dans l'édition 2008. Pentaho - Bien meilleur qu'avant. Pas aussi vite que je le souhaiterais, mais je peux faire à peu près tout ce que je veux faire.

4.) tableau de bord
Pentaho a amélioré cela. C'est un peu mal à l'aise à développer, mais il n'y a pas vraiment d'équivalent pour MS.

5.) rapports
Les rapports MS sont vraiment puissants mais pas si difficiles à utiliser. Je l’aime maintenant mais j’ai détesté au début, jusqu’à ce que je le connaisse un peu mieux. J'utilisais des rapports Crystal et le générateur de rapports MS est beaucoup plus puissant. Il est facile de faire des choses difficiles dans la sclérose en plaques, mais un peu plus difficile de faire des choses faciles. Pentaho est un peu maladroit. Je n'aimais pas du tout mais vous pourriez. Je l'ai trouvé trop complexe. J'aimerais que ce soit plus comme le constructeur de rapports Crystal ou le constructeur de rapports MS, mais c'est comme jasper. Je trouve c'est être dur. Cela peut être une préférence.

6.) ad hoc
MS - c'était le vrai gagnant pour moi. Je l'ai testé avec mes utilisateurs et ils sont immédiatement amoureux du constructeur de rapports d'utilisateurs MS. Ce qui a fait la différence, c’est la simplicité de son utilisation, mais aussi sa productivité. Pentaho - est bon mais assez vieille école. Il utilise le modèle plus typique basé sur un assistant et dispose d'outils puissants mais je le déteste. C'est un excellent outil pour ce que c'est, mais nous sommes passés de ce style et personne ne veut y retourner. Même problème que j'ai eu avec logiXML. L'interface fonctionnait bien pour ce qu'elle était mais ne change pas vraiment de ce que nous utilisions depuis 12 ans. http://wiki.pentaho.com/display/PRESALESPORTAL/Methods+of + Rapports interactifs +

Certaines personnes expérimentées peuvent faire fonctionner Pentaho vraiment bien. Je viens de trouver la suite MS plus productive.

Autres conseils

Avertissement - de nombreux sites répertorient les nombreuses carences, bugs et inconvénients liés à SSIS. Vous ne savez pas pourquoi SSIS est arrivé en tête avec cet article - mais avant de parier votre projet, regardez ce que les gens ont à dire dans la blogosphère. D'après mon expérience, c'est à peu près 20: 1 qui déclament à quel point SSIS doit être horrible - je peux également en convenir, à la recherche de toute alternative.

Excellente information ici? Je n'ai pas essayé Pentaho mais j'ai l'intention de le vérifier. Je suis un consultant expérimenté en MS BI et je l'utilise depuis 1998. SSIS est très rapide et très puissant, mais les critiques sont claires. J'ai trouvé les problèmes suivants avec SSIS:

(1) Il est difficile de déboguer, vous obtenez des erreurs cryptiques qui peuvent ne vous donner aucune indication sur ce que et où le problème est vraiment.

(2) Par un commentaire précédent, c'est l'environnement de développement le plus merdique de tous les temps! Je n'ai aucune idée de ce qu'ils pensent.

(a) Créez une table de 100 colonnes ou plus et créez une jointure de fusion. Maintenant, revenez dans et essayez de mettre à jour la jointure de fusion (comme si vous utilisiez une nouvelle colonne). Cela peut prendre plusieurs minutes, même sur la machine la plus rapide, une fois que vous avez cliqué sur ok dans la jointure de fusion pour enregistrer votre modification. J'ai un flux de données énorme avec beaucoup d'enregistrements larges et de nombreuses jointures de fusion. L'ajout d'une colonne au flux de données prend plus d'une demi-journée. Je mets à jour une jointure de fusion, puis je dois faire quelque chose d'autre et revérifier 5 à 10 minutes plus tard pour voir si c'est fait. La réponse de Microsoft à cela est de diviser votre paquet en plusieurs paquets, de placer les données dans un tableau ou un fichier binaire entre eux. Eh bien, si vous allez sur le disque entre toutes les étapes, vous pouvez bien faire le tout en SQL! L’un des principaux objectifs d’un outil ETL est de mettre tout ce contenu en mémoire et d’éviter les E / S de disque.

(b) Le concepteur se bloque parfois parfois carrément, perdant tout votre travail depuis la dernière sauvegarde (je fais maintenant ctrl-S dans mon sommeil à cause de cela)

(c) Je devais trouver un hack et générer le package XML de SSIS dans Excel pour des enregistrements étendus. J'ai un client Healthcare où plus de 600 enregistrements de colonne sont monnaie courante. Si vous essayez de définir un format de fichier de 600 colonnes dans SSIS, vous devez taper chaque colonne une à la fois !!! Même l'accès MS vous permet de couper et coller une mise en page à partir d'une feuille de calcul dans une mise en page, mais pas dans SSIS. J'ai donc dû générer le code XML à partir de la mise en page et coller le code XML au bon endroit dans le package. C'est une façon laide de le faire, mais cela nous a évité des journées entières de travail et de nombreuses erreurs.

(d) Semblable à (c), si vous avez besoin de couper toutes vos colonnes et que vous en avez dit plus de 600, devinez quoi? Dans le composant de colonne dérivé, vous devez taper trim (colonne1) plus de 600 fois! Je fais maintenant toutes les transformations simples comme celle-ci dans la requête SQL pour obtenir les données, car celles-ci peuvent facilement être générées à partir d'une feuille Excel.

(e) Il y a beaucoup de choses bizarres, des composants qui deviennent invisibles, parfois vous ouvrez le paquet et tous les composants sont complètement réorganisés de manière incohérente.

(f) La fonctionnalité FTP, peut-être l’une des choses les plus courantes dont vous avez besoin dans ETL, est faible et ne prend en charge que les connexions FTP simplistes que personne n’utilise. De nos jours, tout le monde utilise SFTP, FTPS, https, etc. Ainsi, presque toutes les implémentations nécessitent l’utilisation d’une application de transfert de fichiers pilotée par la ligne tierce que le package doit appeler.

(g) En essayant de CYA, semblable à la sécurité ridicule de Windows Vista, Microsoft a rendu extrêmement difficile la promotion d’un paquet SSIS d’un environnement à un autre. Il utilise par défaut cette chose stupide de "chiffrer des informations sensibles avec une clé utilisateur". sécurité, ce qui signifie qu’il doit être exécuté sous le même compte dans l’environnement dans lequel vous l’avez déplacé, tout comme l’environnement dans lequel vous l’avez développé, ce qui est rarement le cas. Il existe de meilleures méthodes de configuration, mais nous essayons toujours de revenir à cette protection de sécurité totalement inutile.

(h) Enfin, la plupart de ces problèmes sont maintenant dans la 3ème version, indiquant clairement que Microsoft n’a pas l’intention de les résoudre.

(i) Le débogage n’est pas aussi simple que d’autres langues.

SSIS a encore de nombreux avantages, mais pas sans douleur grave.

J'ai commencé à utiliser MS Reporting Services il y a de nombreuses années et je l'adore. Je n'ai pas essayé la solution de reporting de Penaho, donc je ne peux pas en parler. Je n'ai pas non plus essayé les services d'analyse ou l'alternative de Pentaho.

Récemment, j’avais besoin d’une solution ETL et, étant familiarisé avec MSSQL et MSRS, il était évident que j’examinerais et choisirais probablement MS Integration Service. Mais pour moi, MSIS était affreux. Principalement parce que ce n'était pas intuitif. Après avoir passé quelques jours à essayer d’apprendre à utiliser cet outil, j’ai décidé de chercher une alternative et suis tombé sur Pentaho Data Integration, anciennement Kettle. Je l'ai fait fonctionner en quelques minutes et j'ai immédiatement créé ma première transformation. Ça fonctionne.

Certes, mes besoins sont assez simples, mais les performances ont été excellentes et la communauté semble très utile.

J'ai utilisé SSIS et Pentaho Kettle et je vous recommande vivement d'utiliser Pentaho Kettle pour votre outil ETL au lieu de SSIS.

Mes raisons: -le flux de SSIS est tâche à tâche. Kettle vous fait penser aux rangées de données circulant dans le système. L'approche de Kettle me semble beaucoup plus intuitive. -SSIS est mal documenté. Ça arrive. Mais il semble y avoir beaucoup de clics et de réglages de variables. Très complexe. Pentaho a un forum communautaire qui est très utile. -Je fais confiance à Pentaho pour s’intégrer à plusieurs types de bases de données, y compris SQL Server. Vous pouvez également utiliser JDBC, ce qui est agréable. De plus, je l'ai utilisé entre SQL Server et Oracle d'un côté et Vertica de l'autre. Un chargeur en vrac est disponible sur Vertica. C'est plutôt sympa. -J'ai trouvé très difficile de parler d'un package SSIS à exécuter sur un serveur. Cela ne valait tout simplement pas mon temps. -J'ai trouvé assez facile pour Pentaho d'envoyer un message d'avertissement ou d'erreur à une personne ou à une liste de personnes. -Pentaho permet d'effectuer des tâches en JavaScript pour des tâches qui nécessitent une certaine logique. Simple et facile à faire avec une langue que la plupart d’entre nous avons rencontrée.

Je ne peux proposer aucune entrée sur la pile MS BI, mais sur le Barcamp Orlando le plus récent, les gens de Pentaho était là et a parlé de leurs produits et c'était une démo extrêmement impressionnante.

Le fait qu’il s’agisse d’un projet Open Source pouvant être étendu ainsi que d’un package payant pour un très bon service vous laisse beaucoup d’options. Ils ont démontré un travail rémunéré qu’ils ont accompli pour un client et ils ont vraiment impressionné la foule.

J’ai également eu l’occasion de discuter un peu avec un développeur travaillant sur l’entreposage de données pour Pentaho. Il était extrêmement perspicace et très ouvert aux suggestions. Il n’a aucun mal à répondre à ses questions.

Donc, en ce qui concerne une entreprise, Pentaho m'a vraiment impressionné tant par son travail que par la gentillesse et la convivialité de tous ses développeurs.

quelques points à ajouter

  • Bien qu'il existe une version Windows de tous les outils Pentaho, la configuration dans Windows est onéreuse. Pentaho (en particulier le démarrage et l'arrêt du serveur, distinct de l'outil graphique) est généralement utilisé sous Linux, et non sous Windows Shop, et la courbe d'apprentissage entre Windows et Linux est abrupte.
  • n’importe quel outil a une courbe d’apprentissage lorsque vous y accédez. Lorsque vous vous habituez à toujours cliquer sur OK et à actualiser les métadonnées en cas de problème, SSIS n'est pas si mauvais. Pentaho peut aussi être floconneux.

Les questions relatives aux outils doivent être traitées en termes de questions culturelles plus vastes - quel type de magasins utilisent des outils open source? Selon mon expérience, bien que les magasins Microsoft semblent plus rigides, lorsque vous rencontrez des problèmes avec une chaîne de connexion dans un magasin Microsoft, vous pouvez obtenir de l'aide .. dans les magasins Pentaho et Linux, il s'agit davantage de DYI.

BTW, faites attention aux vendeurs de Pentaho qui font des démos - tout ce qu'ils montrent est beaucoup plus difficile à travailler qu'il n'y parait! :)

Si vous recherchez une alternative robuste et peu coûteuse aux grands joueurs, LogiXML propose des tableaux de bord et des rapports ad hoc sur une plate-forme .NET. Nous les utilisons depuis la fin de 2006, au moment où Pentaho commençait à peine, mais je ne l'ai pas examiné depuis un moment.

J'ai récemment essayé la BI open source pentaho. Je l'ai trouvé extrêmement maladroit. Ce n’était pas très intuitif et le développement a pris beaucoup plus de temps.

Il est assez différent des solutions Oracle ou ms BI. Peut-être que l'édition entreprise est meilleure.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top