Pregunta

Mi empresa está fuertemente invertida en MS BI Stack (SQL Server Reporting Services, -Analysis Services y -Integration Services), pero quiero echar un vistazo a cómo es Pentaho, la alternativa de código abierto aparentemente más comentada.

Instalé una versión y la puse en funcionamiento sin problemas. Eso está bien. Pero realmente no tengo tiempo para comenzar a usarlo para el trabajo real para obtener una comprensión completa del paquete.

¿Alguno de ustedes tiene alguna idea de cuáles son los pros y los contras de Pentaho vs MS BI, o algún enlace a tales comparaciones?

¡Muy apreciado!

¿Fue útil?

Solución

Revisé varias pilas Bi mientras estaba en una ruta para salir de Business Objects. Muchos de mis comentarios son preferenciales. Ambos conjuntos de herramientas son excelentes. Algunas cosas son cómo prefiero el helado de brownie de chocolate sobre el chocolate normal.

Pentaho tiene algunos tipos realmente inteligentes trabajando con ellos, pero Microsoft ha estado en un camino bien financiado y bien planificado. Tenga en cuenta que los MS siguen siendo los de abajo en el mercado de bases de datos. Oracle es el rey aquí. Para ser competitivo, MS ha regalado muchas cosas cuando compra la base de datos y se ha visto obligado a reinventar su plataforma un par de veces. Sé que esto no se trata de la base de datos, pero la batalla de DB ha provocado que MS regale mucho para agregar valor a su pila.

1.) Plataforma
El servidor SQL no se ejecuta en Unix o Linux, por lo que se excluyen automáticamente de este mercado. Windows tiene el mismo precio que algunas versiones o Unix ahora. Windows es bastante barato y ahora funciona muy bien. Me da tantos problemas como Linux.

2.) OLAP
Los servicios de análisis se reinventaron en 2005 (actualmente es 2008) sobre la versión 2000. Es un orden de magnatude más poderoso durante el año 2000. El pentaho (Mondrian) no es tan rápido una vez que te haces grande. También tiene pocas características. Es bastante bueno, pero hay menos herramientas. Ambos admiten Excel como la plataforma que es especial. La versión MS es más robusta.

3.) ETL
MS - DTS ha sido reemplazado por SSIS. Una vez más, el orden de magnatude aumenta en velocidad, poder y habilidad. Controla todos y cada uno de los movimientos de datos o el control del programa. Si no puede hacerlo, puede escribir un script en Powershell. A la par con Informatica en la versión 2008. Pentaho: mucho mejor de lo que solía ser. No tan rápido como me gustaría, pero puedo hacer casi todo lo que quiero hacer.

4.) panel de control
Pentaho ha mejorado esto. Es un poco incómodo y hostil de desarrollar, pero realmente no hay un equivalente real para la EM.

5.) informes
Los informes de MS son realmente poderosos, pero no tan difíciles de usar. Ahora me gusta, pero al principio lo odié, hasta que lo conocí un poco mejor. Había estado usando informes cristalinos y el generador de informes MS es mucho más poderoso. Es fácil hacer cosas difíciles en la EM, pero un poco más difícil hacer cosas fáciles. Pentaho es un poco torpe. No me gustó en absoluto, pero a ti sí. Me pareció demasiado complejo. Desearía que se pareciera más al generador de informes de Crystal o al generador de informes de MS, pero es como Jasper. Me parece que es difícil. Eso puede ser una preferencia.

6.) ad hoc
MS: este fue el verdadero ganador para mí. Lo probé con mis usuarios e inmediatamente se enamoraron del creador de informes de usuarios de MS. Lo que marcó la diferencia fue que no solo era fácil de usar, sino también productivo. Pentaho - es bueno pero bastante viejo de la escuela. Utiliza el modelo más típico basado en un asistente y tiene herramientas poderosas, pero lo odio. Es una herramienta excelente para lo que es, pero hemos pasado de este estilo y nadie quiere volver. Mismo problema que tuve con logiXML. La interfaz funcionó bien para lo que era, pero en realidad no es un gran cambio de lo que usamos 12 años. http://wiki.pentaho.com/display/PRESALESPORTAL/Methods+of + Interactivo + Informes

Hay algunas personas experimentadas que pueden hacer que Pentaho funcione realmente bien, acabo de encontrar que la suite MS es más productiva.

Otros consejos

Advertencia: existen numerosos sitios que enumeran las numerosas deficiencias, errores y molestias con SSIS. No estoy seguro de por qué SSIS ocupó el primer puesto en la publicación, pero antes de apostar su proyecto, vea lo que la gente tiene que decir en la blogósfera. Según mi experiencia, son aproximadamente 20: 1 despotricando acerca de cuán horrible es trabajar con SSIS: también puedo estar de acuerdo, actualmente buscando cualquier alternativa.

¿Gran información aquí? No he probado Pentaho pero estoy planeando echarle un vistazo. Soy un consultor experimentado de MS BI, lo uso desde 1998. SSIS es muy rápido y muy poderoso, pero las críticas son acertadas. Encontré los siguientes problemas con SSIS:

(1) Es difícil de depurar, obtienes errores crípticos que pueden no darte ninguna pista sobre cuál y dónde está realmente el problema.

(2) Según un comentario anterior, ¡es el entorno de desarrollo más horrible de la historia! No tengo idea de lo que están pensando.

(a) Cree una tabla con 100 o más columnas y coloque una combinación de fusión en ella. Ahora regrese e intente actualizar la combinación de combinación (como extraer una nueva columna). Puede tomar varios minutos, incluso en la máquina más rápida después de hacer clic en Aceptar en la combinación de combinación para guardar el cambio. Tengo un gran flujo de datos con muchos registros anchos y muchas combinaciones. Agregar una columna al flujo de datos lleva más de medio día. Actualizo una combinación de combinación y luego tengo que ir a hacer otra cosa y volver a verificar 5-10 minutos más tarde para ver si está lista. La respuesta de Microsoft a esto es dividir su paquete en múltiples paquetes, colocar los datos en una tabla o binario entre ellos. Bueno, si vas a hacer un disco entre todos los pasos, ¡podrías hacer todo en SQL! Uno de los propósitos principales de una herramienta ETL es hacer todo esto en la memoria y evitar la E / S de disco.

(b) El diseñador se bloquea por completo a veces, perdiendo todo su trabajo desde la última vez que guardé (ahora hago ctrl-S en mi sueño debido a esto)

(c) Tuve que descubrir un hack y generar un paquete SSIS XML en Excel para registros anchos. Tengo un cliente de atención médica donde los registros de más de 600 columnas son comunes. ¡Si intenta definir un formato de archivo con 600 columnas en SSIS, debe escribir cada columna de una en una! Incluso el acceso a MS le permite cortar y pegar un diseño de una hoja de cálculo en un diseño de archivo, pero no SSIS. Así que tuve que generar el XML a partir del diseño y pegar el código XML en el lugar correcto del paquete. Manera fea de hacerlo, pero ahorró días enteros de trabajo y muchos errores.

(d) Similar a (c), si necesita recortar todas sus columnas y tiene más de 600 de ellas, ¿adivina qué? ¡En el componente de columna derivada, debe escribir trim (column1) más de 600 veces! Ahora hago todas las transformaciones simples como esta en la consulta SQL para obtener los datos, ya que eso se puede generar fácilmente desde una hoja de Excel.

(e) Hay muchas cosas extrañas, componentes que se vuelven invisibles, a veces se abre el paquete y todos los componentes se reorganizan por completo de forma incoherente.

(f) La función FTP, posiblemente una de las cosas más comunes que necesita en ETL, es débil y solo admite FTP simple que nadie usa. En la actualidad, todos usan SFTP, FTPS, https, etc. Así que casi todas las implementaciones requieren el uso de una aplicación de transferencia de archivos de línea de recomendación de terceros que el paquete debe llamar.

(g) Intentando con CYA, similar a la seguridad ridícula en Windows Vista, Microsoft ha hecho que sea extremadamente difícil promocionar un paquete SSIS de un entorno a otro. El valor predeterminado es esta estupidez de "cifrar información confidencial con la clave de usuario". seguridad, lo que significa que debe ejecutarse bajo la misma cuenta en el entorno al que lo está moviendo como el entorno donde lo desarrolló, algo que rara vez es el caso. Hay mejores formas de configuración, pero siempre trata de volver a esta protección de seguridad completamente inútil.

(h) Por último, la mayoría de estos problemas están ahora en la tercera versión, lo que indica claramente que Microsoft no tiene planes de solucionarlos.

(i) La depuración no es tan fácil como otros idiomas.

SSIS todavía tiene muchos beneficios, pero no sin un poco de dolor grave.

Empecé a usar MS Reporting Services hace muchos años y me encanta. No he probado la solución de informes de Penaho, así que no puedo hacer ningún comentario al respecto. Tampoco he probado Analysis Services o la alternativa de Pentaho.

Recientemente necesitaba una solución ETL y, al estar familiarizado con MSSQL y MSRS, parecía obvio que revisaría y probablemente elegiría MS Integration Service. Pero para mí, MSIS fue horrible. Principalmente porque no era intuitivo. Después de pasar un par de días tratando de aprender la herramienta, decidí buscar una alternativa y me encontré con Pentaho Data Integration, anteriormente conocida como Kettle. Lo tuve en funcionamiento en cuestión de minutos e inmediatamente creé mi primera transformación. Simplemente funciona

Es cierto que mis necesidades son bastante simples, pero el rendimiento ha sido excelente y la comunidad parece muy útil.

He usado SSIS y Pentaho Kettle, y recomiendo utilizar Pentaho Kettle para su herramienta ETL en lugar de SSIS.

Mis razones: -el flujo de SSIS es tarea a tarea. Kettle te hace pensar en filas de datos que fluyen a través del sistema. El enfoque de Kettle me parece mucho más intuitivo. -SSIS está mal documentado. Esto pasa. Pero parece que hay muchos clics y configuraciones de variables. Muy complejo. Pentaho tiene un foro comunitario que es bastante útil. Confío en que Pentaho se integre con múltiples tipos de bases de datos, incluido SQL Server. También puede usar JDBC, que es bueno. Además, lo he usado para ir entre SQL Server y Oracle por un lado y Vertica por el otro. Tiene un cargador masivo disponible en Vertica. Eso es muy lindo. -Encontré muy, muy difícil, relativamente hablando, conseguir que un paquete SSIS se ejecute en un servidor. Simplemente no valía la pena mi tiempo. -Pentaho encontró bastante fácil enviar un mensaje de advertencia o error a una persona o lista de personas. -Pentaho permite realizar tareas en JavaScript para cosas que necesitan algo de lógica. Simple y fácil de hacer con un lenguaje que la mayoría de nosotros hemos encontrado.

No puedo ofrecer ninguna entrada sobre MS BI Stack, pero en la Barcamp Orlando más reciente, la gente de Pentaho estuvo allí y habló sobre sus productos y fue una demostración extremadamente impresionante.

El hecho de que es un proyecto de código abierto que puede extenderse, así como un paquete pago por un servicio realmente bueno, le deja con muchas opciones. Demostraron un trabajo remunerado que hicieron para un cliente y definitivamente impresionaron a la multitud.

También tuve la oportunidad de conversar un poco con un desarrollador que trabajaba en el lado del almacenamiento de datos para Pentaho y él era extremadamente astuto y estaba muy abierto a sugerencias y no tuvo problemas para responder preguntas.

Por lo que respecta a una empresa, Pentaho realmente me impresionó tanto con su trabajo como con lo amigables y accesibles que eran todos sus desarrolladores.

un par de puntos para agregar

  • Aunque hay una versión de ventana de todas las herramientas de Pentaho, la configuración en Windows es onerosa. Pentaho (especialmente el inicio y la detención del servidor, que está separado de la herramienta GUI) se usa generalmente en Linux, no en la tienda de Windows, y hay una curva de aprendizaje empinada que va de Windows a Linux.
  • cualquier herramienta tiene una curva de aprendizaje cuando cambias a ella. cuando te acostumbras a hacer clic siempre en Aceptar y actualizar metadatos cuando tienes problemas, SSIS no es tan malo. Pentaho también puede ser escamoso.

Las preguntas sobre herramientas deben abordarse en términos de preguntas culturales más amplias: ¿qué tipo de tiendas utilizan herramientas de código abierto? En mi experiencia, he descubierto que, aunque las tiendas de Microsoft parecen más rígidas, cuando tienes problemas con una cadena de conexión en una tienda de Microsoft puedes obtener ayuda ... en las tiendas de Pentaho y Linux es más DYI.

Por cierto, ten cuidado con los vendedores de Pentaho que hacen demostraciones: ¡todas las cosas que muestran son mucho más difíciles de conseguir de lo que parece! :)

Si está buscando una alternativa sólida y de bajo costo para los grandes, LogiXML tiene paneles e informes ad hoc en una plataforma .NET. Los hemos estado usando desde finales de 2006 cuando Pentaho recién comenzaba, pero no lo he visto en un tiempo.

Recientemente probé BI de código abierto de pentaho. Me pareció extremadamente torpe. No fue muy intuitivo y el tiempo de desarrollo tomó mucho más tiempo.

Es bastante diferente de las soluciones Oracle o ms BI. Tal vez la edición empresarial es mejor.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top