Domanda

Sono nuovo di zecca nel campo della scienza dei dati, vuole rompere in esso, e ci sono tanti strumenti là fuori. Queste macchine virtuali hanno un sacco di software su di loro, ma non sono stato in grado di trovare qualsiasi confronto side-by-side.

Ecco un inizio dalla mia ricerca, ma se qualcuno potrebbe dirmi che uno è oggettivamente più ricco di funzionalità, con una più grande comunità di supporto, e utile per iniziare allora che sarebbe di grande aiuto:

datasciencetoolKIT.org -> VM è al settimo cielo vagabondo (4 GB) e sembra essere più "alla moda" con R, ipython notebook, e altri strumenti utili da riga di comando (HTML-> txt, json-> xml, ecc ). C'è un libro di essere rilasciato nel mese di agosto con il particolare.

datasciencetoolBOX.org -> vm è una scatola vagabonda (24 GB) scaricabile dal loro sito. Sembra che ci sia più caratteristiche qui, e più la letteratura.

È stato utile?

Soluzione

Hai bisogno di una macchina virtuale?

È necessario tenere a mente che una macchina virtuale è un software di emulazione del proprio o di un'altra configurazione hardware della macchina in grado di eseguire un sistema operativo. Nella maggior parte dei termini di base, agisce come strato interfaccia tra il sistema operativo virtuale, e il proprio sistema operativo che a sua volta comunica con l'hardware di livello inferiore per fornire supporto al sistema operativo virtuale. Che cosa significa questo per voi è:

Contro

Supporto Hardware

Un inconveniente di tecnologia delle macchine virtuali è che supporta solo l'hardware che sia l'hypervisor macchina virtuale e il supporto del sistema operativo guest. Anche se il sistema operativo guest supporta l'hardware fisico, si vede solo l'hardware virtuale presentata dalla macchina virtuale. Il secondo aspetto del supporto hardware macchina virtuale è l'hardware presentato al sistema operativo guest. Non importa l'hardware nell'ospite, l'hardware ha presentato per l'ambiente ospite è di solito la stessa (con l'eccezione della CPU, che mostra attraverso). Ad esempio, VMware GSX Server presenta una scheda Fast Ethernet AMD PCnet32 o una scheda di rete di VMware-proprietaria ottimizzata, a seconda di quale si sceglie. La scheda di rete nel computer host non ha importanza. VMware GSX Server esegue la traduzione tra la scheda di rete del ambiente guest e scheda di rete del ambiente host. Questo è grande per la standardizzazione, ma significa anche che l'hardware host che VMware non capisce non sarà presente nell'ambiente ospite.

Prestazioni Penalty

tecnologia delle macchine virtuali impone una riduzione delle prestazioni di correre un ulteriore strato sopra l'hardware fisico, ma sotto il sistema operativo guest. La pena di prestazioni varia in base al software di virtualizzazione utilizzato e l'essere corsa software ospite. Questo è significativo.

Pro

isolamento

Una delle ragioni chiave per la virtualizzazione impiegare è quello di isolare le applicazioni le une dalle altre. Esecuzione di tutto su una macchina sarebbe bello se tutto ha funzionato, ma molte volte si traduce in interazioni indesiderate o addirittura conflitti a titolo definitivo. La causa è spesso problemi di software o esigenze di business, come ad esempio il bisogno di sicurezza isolato. Le macchine virtuali consentono di isolare ogni applicazione (o gruppo di applicazioni) nel proprio ambiente sandbox. Le macchine virtuali possono essere eseguiti sulla stessa macchina fisica (semplificando la gestione IT hardware), ma appaiono come macchine indipendenti per il software è in esecuzione. Per tutti gli effetti, tranne le prestazioni, le macchine virtuali sono macchine indipendenti. Se una macchina virtuale va giù a causa di applicazione o errore del sistema operativo, gli altri continuano a funzionare, fornendo servizi le esigenze aziendali di funzionare senza problemi.

La standardizzazione

Un altro vantaggio chiave macchine virtuali forniscono è la standardizzazione. L'hardware che si presenta al sistema operativo ospite è uniforme per la maggior parte, di solito con la CPU è l'unico componente che è "pass-through", nel senso che il cliente vede ciò che è sull'host. Una piattaforma hardware standardizzato riduce i costi di supporto e aumenta la quota di risorse IT che si può dedicare alla realizzazione di obiettivi che danno alla vostra azienda un vantaggio competitivo. Macchine host possono essere differenti (come in effetti sono spesso quando l'hardware viene acquisita in tempi diversi), ma le macchine virtuali sembrano essere le stesse per tutte.

Facilità di test

Le macchine virtuali consentono di testare scenari facilmente. La maggior parte oggi software della macchina virtuale fornisce funzionalità di snapshot e rollback. Questo significa che si può fermare una macchina virtuale, creare uno snapshot, eseguire più operazioni nella macchina virtuale, e poi rotolare indietro ancora e ancora fino a quando hai finito il tuo test. Questo è molto utile per il software di sviluppomento, ma è anche utile per l'amministrazione del sistema. Gli amministratori possono snapshot di un sistema e di installare alcuni software o apportare alcune modifiche alla configurazione che si sospetta possano destabilizzare il sistema. Se le installazioni software o cambiamenti di lavoro, quindi l'amministratore può commettere gli aggiornamenti. Se gli aggiornamenti danneggiare o distruggere il sistema, l'amministratore può rotolare indietro. Le macchine virtuali facilitano anche scenario di test attivando reti virtuali. In VMware Workstation, per esempio, è possibile impostare più macchine virtuali su una rete virtuale con parametri configurabili, come la perdita di pacchetti di congestione e la latenza. È possibile, quindi, le applicazioni di sincronizzazione-sensibile o sensibile al carico di prova per vedere come se la cavano sotto lo stress di un carico di lavoro pesante simulato.

Mobilità

Le macchine virtuali sono facili da spostare tra macchine fisiche. La maggior parte del software della macchina virtuale sul mercato, negozi oggi un intero disco in un ambiente ospite come un unico file in ambiente host. Snapshot e funzionalità di rollback sono implementati immagazzinando il cambiamento di stato in un file separato nelle informazioni host. Avere un unico file di rappresentare un intero disco ambiente guest promuove la mobilità delle macchine virtuali. Trasferire la macchina virtuale a un'altra macchina fisica è facile come spostare il file del disco virtuale e alcuni file di configurazione per l'altra macchina fisica. Distribuzione di un'altra copia di una macchina virtuale è la stessa di trasferire una macchina virtuale, solo che invece di spostare i file, di copiarli.

Quale VM devo usare se sto iniziando fuori?

La Scienza Data Box o la Scienza Strumenti dati sono i tuoi migliori scommesse se si ottengono nella scienza dei dati. Hanno il software di base che sarà necessario, con la differenza principale è l'ambiente virtuale in cui ciascuno di questi può funzionare. La DSB può essere eseguito su AWS, mentre il DST può essere eseguito su Virtual Box (che è lo strumento più utilizzato per le macchine virtuali).

Fonti

Altri suggerimenti

Nella maggior parte dei casi, uno scienziato di dati pratica crea il proprio ambiente di lavoro su come installare pacchetti software preferito calcolati personali. Normalmente è sufficiente uso ed efficiente delle risorse di calcolo, perché per eseguire una macchina virtuale (VM) sul computer principale è necessario destinare una parte significativa di RAM per esso. Il software verrà eseguito notevolmente più lento sia sul principale e la macchina virtuale a meno che un sacco di RAM.

A causa di questo impatto sulla velocità non è comune l'uso di macchine virtuali come ambiente di lavoro principale, ma loro sono una buona soluzione in diversi casi in cui v'è la necessità di ambiente di lavoro supplementare.

Il VM essere considerato quando:

  1. V'è la necessità di replicare con facilità una serie di calcolo identico ambienti quando si insegna un corso o fare una presentazione su un convegno.
  2. V'è la necessità di salvare e ricreare un ambiente esatta per un esperimento o un calcolo.
  3. V'è la necessità di eseguire un sistema operativo diverso o per testare una soluzione su uno strumento che funziona su un sistema operativo diverso.
  4. si vuole provare un insieme di strumenti software Prima di installare li sulla macchina principale. Per esempio. v'è la possibilità di installare un'istanza di Hadoop (CDH) su una macchina virtuale nel corso di un Introduzione alla Hadoop corso di Udacity.
  5. VM sono talvolta utilizzati per la distribuzione veloce nel cloud come AWS CE, Rackspace etc.

Il VM menzionato nella domanda iniziale sono realizzati con la stessa facilità installabili Science Data bundle di software. Ci sono più di questi due. Questo post sul blog da Jeroen Janssens mette a confronto di almeno quattro:

  1. Data Science Toolbox
  2. Mining Social Web
  3. Data Science Toolkit
  4. Data Science Box
Autorizzato sotto: CC-BY-SA insieme a attribuzione
scroll top