¿Puede alguien explicar la minería de datos, SSIS, BI, ETL y otras tecnologías relacionadas?

StackOverflow https://stackoverflow.com/questions/416566

Pregunta

Ayer estuve hablando con un compañero de trabajo sobre una situación en la que usó SSIS (o algo así) para hacer algo realmente genial con un paquete de SSIS donde pasó con un nombre como "Dr. Reginald Williams, PhD. & Quot; y basado en algún esquema de ponderación, el sistema era lo suficientemente inteligente como para entender cómo personalizarlo y almacenarlo en la base de datos como "Salutación- Nombre - Apellido - Sufijo". Lanzó algunas palabras de moda como BI, y SSIS, ETL y minería de datos. Realmente quería más información, pero ni siquiera sabía por dónde empezar a preguntar.

Soy un desarrollador de .Net y estoy completamente versado en C #, Vb.Net, WPF, etc ..., pero no tengo idea de qué son estas tecnologías, cómo agregarlas a mi conjunto de habilidades, y si o no Es algo en lo que realmente debería centrarme. Cualquier dirección sería útil.

¿Fue útil?

Solución

SSIS == SQL Server Integration Services y es una herramienta Extraer transformación y carga (ETL), es una implementación muy superior de lo que fue Data Transformation Services o DTS en SQL7, SQL2K era. Es una gran herramienta para expresar procesos de flujo de trabajo en los que los datos se mueven del punto A al punto B (yc yd, etc.) y se someten a cambios a través de ese proceso, como la consolidación a un diseño desnormalizado o la limpieza de datos.

BI o Business Intelligence es un apodo para una categoría completa en el mundo de la tecnología y es un gran lugar para estar ahora. Las habilidades de BI son muy valiosas y difíciles de conseguir, una de las razones es que es difícil recrear un verdadero caso de BI en un laboratorio, por lo que la enseñanza casi siempre se realiza en una situación del mundo real.

Desde un nivel alto, los proyectos de BI generalmente implican un punto final de informes. Muchas veces, como desarrolladores, estamos acostumbrados a la redacción de informes transaccionales, como los detalles de una orden de compra, pero BI puede obtener informes muy amplios que cubren las tendencias de ventas de productos durante décadas y manejan cientos de millones de registros. La forma en que diseñamos bases de datos para aplicaciones no es ideal para este tipo de informes, por lo que se inventaron otras herramientas y tecnologías y se utilizan en el espacio de BI. Estas son cosas como los cubos que a menudo se escuchan llamados cubos OLAP. Los cubos OLAP generalmente se originan en un almacén de datos que no es más que otra base de datos, pero los almacenes típicos contienen datos que provienen de más de una y, a menudo, docenas de otras bases de datos de aplicaciones. Su aplicación de inventario, la aplicación de compras, la aplicación de recursos humanos y un montón de otros contienen datos que crean una imagen completa del negocio. Un arquitecto de BI utilizará algo como SSIS para extraer los datos de todos estos sistemas. y almacenarlo en el almacén de datos que está diseñado con un tipo diferente de diseño mejor para la presentación de informes. Una vez que esté en el almacén, utilizará los servicios de análisis para crear cubos en esos datos y algo así como Reporting Services para mostrarle los informes sobre esos datos.

Editar: perdón, olvidé Data Mining, es otro término no específico que describe un concepto o un proceso y no tanto una herramienta. En un ejemplo simple, es un enfoque metódico para identificar patrones en los datos. En el pasado, una buena analítica de negocios buscaría tendencias en los datos, pero en las bases de datos modernas se habla de conjuntos de datos demasiado grandes para combinarlos manualmente. La minería de datos le permite a la computadora que analice esos datos e identifique patrones de interés. .

Espero que ayude

Otros consejos

Lo que hizo su compañero de trabajo podría describirse mejor como " análisis inteligente " de una cuerda. Esto se puede hacer en muchos niveles de sofisticación, por ejemplo, usando modelos estadísticos para darle la posibilidad de que " Dr. " Es un saludo y no un primer nombre. O simplemente podría usar una lista de búsqueda simple de saludos comunes, en cuyo caso es solo un código de procedimiento regular, nada más.

SSIS es la abreviatura de SQL Server Integration Services. Es básicamente DTS en los esteroides; Algunas personas lo aman, y algunas personas lo odian. Sería difícil usar eso por sí mismo para hacer el tipo de cosas de las que estás hablando; Es principalmente solo para tomar datos de varias fuentes y combinarlos, transformarlos y cargarlos en otro lugar. Puede hacer algunas cosas ingeniosas, muchas de las cuales tienden a ser de extracción de datos, pero en última instancia es una herramienta de producción para agrupar datos en una dirección u otra. No es particularmente respetado en la comunidad de minería de datos.

Data Mining es una disciplina académica completa, enfocada en el uso de cierta cantidad (generalmente grande) de datos para predecir futuras respuestas o para comprender mejor los patrones en los datos existentes. Definitivamente, es un área excelente para entrar, pero no es algo que puedas aprender sin hacer un estudio intensivo de matemáticas y algoritmos. Un buen libro sobre el tema es éste .

" Inteligencia de Negocios " es realmente más una palabra de moda que una tecnología específica, y puede significar cosas diferentes para diferentes personas. En la base, la idea sugiere hacer cosas menos tontas con los datos de negocios, y generalmente se refiere al análisis de tendencias a lo largo del tiempo, a menudo utilizando OLAP. También puede incluir minería de datos o algoritmos de inteligencia artificial, pero como no existe una definición rigurosa, casi cualquier persona que quiera venderle algo le dirá que ofrece "Inteligencia de Negocios", y espero que no siga investigando.

SSIS es Servicios de integración de SQL Server y es útil para hacer el ETL (Extraer, Transformar , y Load) que son la parte frontal de muchos almacenes de datos / inteligencia de negocios soluciones que integran datos en modelos tridimensionales fáciles de usar. SSIS también es útil para proyectos más pequeños como una forma conveniente de cargar datos heredados o datos de otros repositorios o archivos.

Minería de datos generalmente implica el uso de los datos de las fuentes integradas para inferir información que no ser obvio a partir de los datos transaccionales (a través de la integración de múltiples fuentes que dan más " dimensiones " a los datos.

BI es un tema enorme, por lo que puede que no sea algo en lo que centrarse a menos que quiera ingresar a ese campo, pero el SSIS puede ser útil en proyectos más pequeños y vale la pena conocerlo en cualquier caso.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top