Cerchi pile esempio di infrastruttura / Flussi di lavoro / gasdotti

https://datascience.stackexchange.com/questions/430

16-10-2019
|

Domanda

Sto cercando di capire come tutti i componenti "Big Data" giocano insieme in un caso d'uso del mondo reale, per esempio Hadoop, monogodb / NoSQL, tempesta, Kafka, ... so che questo è abbastanza una vasta gamma di strumenti utilizzati per i diversi tipi, ma mi piacerebbe conoscere di più sulla loro interazione nelle applicazioni, per esempio learning pensiero macchina per un app, webapp, negozio on-line.

ho vistors / sessione, ecc dati di transazione e negozio che; ma se voglio formulare raccomandazioni al volo, non posso correre lento mappa / ridurre i posti di lavoro per che in qualche grande banca dati dei registri che ho. Dove posso saperne di più sugli aspetti infrastrutturali? Credo di poter utilizzare la maggior parte degli strumenti da soli, ma collegandoli tra loro sembra essere un'arte a sé stante.

Ci sono esempi / casi d'uso pubblico, ecc disponibili? Capisco che le singole tubazioni dipendono fortemente dal caso d'uso e l'utente, ma solo esempi probabilmente sarà molto utile per me.

Soluzione

Al fine di comprendere la varietà di apprendimento modi macchina può essere integrato in applicazioni di produzione, penso che sia utile guardare progetti open source e documenti / post di blog da società che descrive la loro infrastruttura.

Il tema comune che questi sistemi hanno è la separazione della formazione modello dalla singola applicazione. Nei sistemi di produzione, esigenze applicative modello di essere veloce, dell'ordine di 100s di ms, ma non v'è più libertà in quanto frequentemente parametri del modello a muro (o equivalente) bisogno di essere aggiornati.

La gente utilizzare una vasta gamma di soluzioni per la formazione e la diffusione del modello:

costruire un modello, poi esportare e distribuire con PMML
- AirBnB descrive il loro modello formazione in R / Python e la diffusione di PMML modelli tramite OpenScoring.
- modello è un progetto legato alla Cascading che può consumare PMML e distribuire modelli predittivi.
costruire un modello di valori e MapReduce di accesso in un sistema personalizzato
- congettura è un progetto open source da Etsy che permette la formazione modello con scottature , un più facile da usare Scala wrapper MapReduce, e la distribuzione tramite PHP.
- Kiji è un progetto open source da WibiData che permette modello di scoring in tempo reale (applicazione), così come functioanlity per la persistenza dei dati utente e la formazione modelli su tali dati tramite scottature.
Usa un sistema online che consente di aggiornare in modo continuo i parametri del modello.
- Google ha rilasciato una grande carta circa un filtraggio collaborativo on-line hanno implementato a che fare con le raccomandazioni in Google News .

Altri suggerimenti

Una delle spiegazioni più dettagliate e chiare della creazione di un complesso conduttura di analisi è dalla gente oltre a Twitch .
Essi danno le motivazioni dettagliate di ciascuna delle scelte di architettura per la raccolta, il trasporto, il coordinamento, la lavorazione, la conservazione, e l'interrogazione i loro dati.
lettura avvincente! Chi cerca qui e qui .

Airbnb e Etsy sia informazioni dettagliate recentemente inviato circa i loro flussi di lavoro.

Capitolo 1 di Practical Science Data con R ( http://www.manning.com/zumel/) ha una grande rottura del processo di scienza dei dati, compresi i ruoli del team e come si riferiscono a compiti specifici. Il libro segue i modelli stabiliti nel capitolo facendo riferimento a quali fasi / il personale di questo o quel particolare compito sarebbe essere eseguita da.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a datascience.stackexchange