Alguém pode explicar a mineração de dados, SSIS, BI, ETL e outras tecnologias relacionadas?

StackOverflow https://stackoverflow.com/questions/416566

Pergunta

Eu estava conversando com um colega de trabalho ontem sobre uma situação onde ele usou SSIS (ou algo parecido) para fazer alguma coisa muito legal com um pacote do SSIS onde passou em um nome como "Dr. Reginald Williams, PhD. " e com base em algum esquema de ponderação o sistema era inteligente o suficiente para descobrir como tokenizar-lo e armazená-lo no banco de dados como "Salutation- Nome - Sobrenome - sufixo". Ele jogou alguns chavões como BI e SSIS, ETL, e mineração de dados. Eu realmente queria obter mais informações, mas não sei nem por onde começar a perguntar.

Eu sou um desenvolvedor .Net e completamente versado em C #, Vb.Net, WPF, etc ..., mas não tenho idéia do que estas tecnologias são, como adicioná-los ao meu conjunto de habilidades, e se ou não é algo que eu realmente deveria estar centrada em. Toda e qualquer direção seria útil.

Foi útil?

Solução

SSIS == SQL Server Integration Services e é um Extract Transform and Load (ETL) ferramenta, é uma implementação muito superior do que era Services ou DTS Data Transformation em SQL7, era SQL2K. É uma excelente ferramenta para expressar fluxo de trabalho processos em que os dados são movidos a partir do ponto A para o ponto B (e c e d, etc) e sofre alterações por esse processo, tais como a consolidação de um desenho ou dados limpeza desnormalizado.

BI ou Business Intelligence é um apelido para toda uma categoria no mundo da tecnologia e é um ótimo lugar para estar agora. habilidades de BI são muito valorizados e difíceis de encontrar, uma das razões pelas quais este é o caso é que é difícil recriar um verdadeiro caso BI em um laboratório para ensino é quase sempre feito em uma situação do mundo real.

A partir de um nível elevado, projetos de BI geralmente envolvem um ponto final de relatórios. Muitas vezes como desenvolvedores que são usados ??para relatório transacional escrever tais como os detalhes de um PO mas BI pode entrar em muito amplos relatos de que as tendências de vendas de produtos de cobertura ao longo de décadas e lidar com centenas de milhões de registros. A forma como concebemos os bancos de dados para aplicações não é ideal para este tipo de relatórios para que outras ferramentas e tecnologias foram inventadas e são usados ??no espaço de BI. Estas são coisas como cubos que você ouve frequentemente chamados de cubos OLAP. Cubos OLAP normalmente se originam a partir de um armazém de dados que é nada mais do que outro banco de dados - mas armazéns típicos contêm dados que vieram de mais de um, e muitas vezes dezenas de outros bancos de dados de aplicativos. Seu aplicativo de inventário, a compra de aplicativo, app HR e um monte de outros, todos contêm pedaços de dados que criam uma imagem completa do negócio, um arquiteto BI vai usar algo como SSIS para puxar os dados de todos estes sistemas, massagem e armazená-lo no armazém de dados que é projetado com um tipo diferente de projeto melhor para relatar. Uma vez que está no armazém ele vai usar serviços de análise para criar cubos em que os dados e algo como Reporting Services para mostrar-lhe relatórios sobre esses dados.

Edit: desculpe, esqueci de mineração de dados, é um outro termo não-específico que descreve e conceito ou um processo e não tanto uma ferramenta. Em um exemplo simples, é uma abordagem metódica para identificar padrões em dados. No passado, uma analysy bom negócio iria olhar através de dados para tendências, mas com bases de dados modernas que estão falando sobre conjuntos de dados muito grandes para pente manualmente através - mineração de dados permite que você instruir o computador a pente pelo que os dados e identificar padrões que são de interesse .

Espero que ajude

Outras dicas

O seu colega de trabalho fez poderia ser melhor descrito como "análise inteligente" de uma string. Isso poderia ser feito em vários níveis de sofisticação - por exemplo, utilizando modelos estatísticos para dar-lhe a probabilidade de "Dr." é uma saudação e não um primeiro nome. Ou poderia usar apenas uma lista de pesquisa simples de saudações comuns, caso em que é o código de procedimento apenas regular, nada mais.

SSIS é curto para o SQL Server Integration Services. É basicamente DTS em esteróides; algumas pessoas amá-lo, e algumas pessoas odeiam. Seria complicado de usar que por si só para fazer o tipo de coisa que você está falando; é principalmente apenas para obtenção de dados de várias fontes e combiná-la, transformando-a, e carregá-lo em outro lugar. Ele pode fazer algumas coisas interessantes, muitos dos quais tendem a ser de mineração de dados como, mas em última análise é uma ferramenta de produção para cramming sentido um dado ou outro. Não é particularmente bem respeitada na comunidade de mineração de dados.

Data Mining é uma disciplina acadêmica inteira, focado em utilizar alguma quantidade (normalmente grande) dos dados, quer prever as respostas futuras ou melhor entender os padrões nos dados existentes. É definitivamente uma grande área para entrar, mas não é algo que você pode simplesmente pegar e fazer sem algum estudo intensivo de matemática e algoritmos. Um bom livro sobre o assunto é esta .

"Business Intelligence" é realmente mais de um buzzword do que uma tecnologia específica, e pode significar coisas diferentes para pessoas diferentes. Na base, a idéia sugere fazer menos coisas mudos com dados corporativos, e geralmente refere-se à análise das tendências ao longo do tempo, muitas vezes usando OLAP. Pode também incluir mineração de dados ou AI algoritmos, mas desde que não há nenhuma definição rigorosa, a quem quer vender algo, diga que ele oferece "Business Intelligence", e espero que você não cavar ainda mais.

SSIS é Integration Services do SQL Server e é útil para fazer a ETL (Extract, Transform , and Load), que são a extremidade dianteira de muitos dados soluções de armazenamento / de business intelligence que integram dados em fácil de usar modelos dimensionais. SSIS também é útil para projetos menores como uma maneira conveniente de carregar dados legados ou dados de outros repositórios ou arquivos.

mineração de dados implica geralmente usando os dados das fontes integradas às informações inferir que não iria ser óbvio a partir de dados transacionais (através da integração de múltiplas fontes de dar mais "dimensões" para os dados.

BI é um tópico enorme, por isso pode não ser algo para se concentrar menos que você queira entrar nesse campo, mas SSIS pode ser útil em projetos menores e vale a pena aprender, em qualquer caso.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top