Domanda

Sto cercando di capire come tutti i componenti "Big Data" giocano insieme in un caso d'uso del mondo reale, per esempio Hadoop, monogodb / NoSQL, tempesta, Kafka, ... so che questo è abbastanza una vasta gamma di strumenti utilizzati per i diversi tipi, ma mi piacerebbe conoscere di più sulla loro interazione nelle applicazioni, per esempio learning pensiero macchina per un app, webapp, negozio on-line.

ho vistors / sessione, ecc dati di transazione e negozio che; ma se voglio formulare raccomandazioni al volo, non posso correre lento mappa / ridurre i posti di lavoro per che in qualche grande banca dati dei registri che ho. Dove posso saperne di più sugli aspetti infrastrutturali? Credo di poter utilizzare la maggior parte degli strumenti da soli, ma collegandoli tra loro sembra essere un'arte a sé stante.

Ci sono esempi / casi d'uso pubblico, ecc disponibili? Capisco che le singole tubazioni dipendono fortemente dal caso d'uso e l'utente, ma solo esempi probabilmente sarà molto utile per me.

È stato utile?

Soluzione

Al fine di comprendere la varietà di apprendimento modi macchina può essere integrato in applicazioni di produzione, penso che sia utile guardare progetti open source e documenti / post di blog da società che descrive la loro infrastruttura.

Il tema comune che questi sistemi hanno è la separazione della formazione modello dalla singola applicazione. Nei sistemi di produzione, esigenze applicative modello di essere veloce, dell'ordine di 100s di ms, ma non v'è più libertà in quanto frequentemente parametri del modello a muro (o equivalente) bisogno di essere aggiornati.

La gente utilizzare una vasta gamma di soluzioni per la formazione e la diffusione del modello:

Altri suggerimenti

Una delle spiegazioni più dettagliate e chiare della creazione di un complesso conduttura di analisi è dalla gente oltre a Twitch .
Essi danno le motivazioni dettagliate di ciascuna delle scelte di architettura per la raccolta, il trasporto, il coordinamento, la lavorazione, la conservazione, e l'interrogazione i loro dati.
lettura avvincente! Chi cerca qui e qui .

Airbnb e Etsy sia informazioni dettagliate recentemente inviato circa i loro flussi di lavoro.

Capitolo 1 di Practical Science Data con R ( http://www.manning.com/zumel/) ha una grande rottura del processo di scienza dei dati, compresi i ruoli del team e come si riferiscono a compiti specifici. Il libro segue i modelli stabiliti nel capitolo facendo riferimento a quali fasi / il personale di questo o quel particolare compito sarebbe essere eseguita da.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
scroll top