Domanda

Ieri stavo parlando con un collega di una situazione in cui ha usato SSIS (o qualcosa del genere) per fare qualcosa di veramente interessante con un pacchetto SSIS in cui ha passato un nome come & Dr; Reginald Williams, PhD. & Quot; e basato su uno schema di ponderazione, il sistema era abbastanza intelligente da capire come tokenizzarlo e memorizzarlo nel database come "Saluto- Nome - Cognome - Suffisso". Ha eliminato alcune parole d'ordine come BI, SSIS, ETL e Data mining. Volevo davvero più informazioni, ma non sapevo nemmeno da dove cominciare a chiedere.

Sono uno sviluppatore .Net e ho una conoscenza approfondita di C #, Vb.Net, WPF, ecc ..., ma non ho idea di cosa siano queste tecnologie, come aggiungerle al mio set di abilità e se è qualcosa su cui dovrei davvero concentrarmi. Qualsiasi direzione sarebbe utile.

È stato utile?

Soluzione

SSIS == SQL Server Integration Services ed è uno strumento di estrazione di trasformazione e caricamento (ETL), un'implementazione di gran lunga superiore a quello che era Data Transformation Services o DTS in SQL7, era di SQL2K. È un ottimo strumento per esprimere i processi del flusso di lavoro in cui i dati vengono spostati dal punto A al punto B (e C e D, ecc.) E subisce modifiche attraverso tale processo come il consolidamento in un design denormalizzato o la pulizia dei dati.

BI o Business Intelligence è un moniker per un'intera categoria nel mondo della tecnologia ed è un ottimo posto dove stare adesso. Le competenze di BI sono molto apprezzate e difficili da trovare, uno dei motivi per cui questo è il caso è che è difficile ricreare un vero caso di BI in un laboratorio, quindi l'insegnamento è quasi sempre svolto in una situazione del mondo reale.

Da un livello elevato, i progetti di BI implicano solitamente un punto finale di reporting. Spesso come sviluppatori siamo abituati a scrivere report transazionali come i dettagli di un PO, ma la BI può entrare in report molto ampi che coprono le tendenze delle vendite dei prodotti nel corso di decenni e gestiscono centinaia di milioni di record. Il modo in cui progettiamo i database per le applicazioni non è l'ideale per questo tipo di report, quindi altri strumenti e tecnologie sono stati inventati e utilizzati nello spazio BI. Queste sono cose come i cubi che spesso senti chiamati cubi OLAP. I cubi OLAP di solito provengono da un data warehouse che non è altro che un altro database, ma i magazzini tipici contengono dati provenienti da più di uno e spesso decine di altri database di applicazioni. L'app per l'inventario, l'app per gli acquisti, l'app per le risorse umane e un sacco di altri contengono tutti frammenti di dati che creano un quadro completo dell'azienda, un architetto di BI utilizzerà qualcosa come SSIS per estrarre i dati da tutti questi sistemi, massaggiarli e archiviarlo nel data warehouse che è stato progettato con un diverso tipo di design migliore per i report. Una volta che è nel magazzino, utilizzerà i servizi di analisi per creare cubi su tali dati e qualcosa come Reporting Services per mostrare report su tali dati.

Modifica: scusa, ho dimenticato il Data Mining, è un altro termine non specifico che descrive e concetto o un processo e non tanto uno strumento. In un semplice esempio, si tratta di un approccio metodico per identificare i modelli nei dati. In passato, una buona analisi aziendale analizzava i dati alla ricerca di tendenze, ma con i database moderni si parla di set di dati troppo grandi per essere gestiti manualmente - Il data mining consente di istruire il computer a combinare tali dati e identificare i modelli di interesse .

Spero che aiuti

Altri suggerimenti

Ciò che il tuo collega ha fatto potrebbe essere meglio descritto come "analisi intelligente" di una stringa. Ciò potrebbe essere fatto a molti livelli di sofisticazione, ad esempio utilizzando modelli statistici per darti la probabilità che "Dr." è un saluto e non un nome. Oppure potrebbe semplicemente utilizzare un semplice elenco di ricerca di saluti comuni, nel qual caso è solo un normale codice procedurale, niente di più.

SSIS è l'abbreviazione di SQL Server Integration Services. È sostanzialmente DTS sugli steroidi; alcune persone lo adorano e alcune persone lo odiano. Sarebbe difficile usarlo da solo per fare il tipo di cosa di cui stai parlando; è principalmente solo per prendere dati da varie fonti e combinarli, trasformarli e caricarli altrove. Può fare alcune cose ingegnose, molte delle quali tendono ad essere tipo data mining, ma alla fine è uno strumento di produzione per stipare i dati in una direzione o nell'altra. Non è particolarmente rispettato nella comunità di data mining.

Data mining è un'intera disciplina accademica, focalizzata sull'uso di una quantità (generalmente grande) di dati per prevedere le risposte future o comprendere meglio i modelli nei dati esistenti. È sicuramente un'ottima area in cui entrare, ma non qualcosa che puoi semplicemente prendere e fare senza un intenso studio di matematica e algoritmi. Un buon libro sull'argomento è questo .

" Business Intelligence " è davvero più una parola d'ordine di una tecnologia specifica e può significare cose diverse per persone diverse. Alla base, l'idea suggerisce di fare cose meno stupide con i dati aziendali e generalmente si riferisce all'analisi delle tendenze nel tempo, spesso usando OLAP. Può anche includere algoritmi di data mining o AI, ma poiché non esiste una definizione rigorosa, quasi chiunque voglia venderti qualcosa ti dirà che offre "Business Intelligence" e spera che tu non approfondisca ulteriormente.

SSIS è SQL Server Integration Services ed è utile per eseguire l'ETL (Estrai, Trasforma e Load) che rappresentano il front-end di molte soluzioni di data warehousing / business intelligence che integrano i dati in modelli dimensionali facili da usare. SSIS è utile anche per progetti più piccoli come modo conveniente per caricare dati legacy o dati da altri repository o file.

Data mining di solito implica l'utilizzo dei dati dalle fonti integrate per inferire informazioni che non sarebbero essere ovvio dai dati transazionali (tramite l'integrazione di più fonti che danno più "dimensioni" ai dati.

La BI è un argomento enorme, quindi potrebbe non essere qualcosa su cui concentrarsi a meno che tu non voglia entrare in quel campo, ma SSIS può essere utile su progetti più piccoli e vale la pena conoscere in ogni caso.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top