Frage

Ich bin brandneu im Bereich der Datenwissenschaft, möchte in sie einbrechen und es gibt so viele Tools da draußen. Diese VMs haben eine Menge Software, aber ich konnte keinen Nebenseitigkeitsvergleich finden.

Hier ist ein Start von meiner Recherche, aber wenn mir jemand sagen könnte, dass man objektiv mit einer größeren Unterstützung der Unterstützung reicher ist und nützlich ist, um loszulegen, würde dies erheblich helfen:

DataSciencetoolkit.org-> VM befindet sich auf Vagrant Cloud (4 GB) und scheint mit R, IPython-Notebook und anderen nützlichen Befehlszeilen-Tools (html-> txt, json-> xml usw.) "hip" zu sein. Im August wird ein Buch mit Details veröffentlicht.

DataSciencetoolbox.org -> VM ist ein Vagabrant Box (24 GB), das von ihrer Website heruntergeladenbar ist. Hier scheint es mehr Funktionen und mehr Literatur zu geben.

War es hilfreich?

Lösung

Benötigen Sie eine VM?

Sie müssen bedenken, dass eine virtuelle Maschine eine Software -Emulation Ihrer eigenen oder eine andere Maschine -Hardware -Konfiguration ist, mit der ein Betriebssystem ausgeführt werden kann. In den meisten grundlegenden Begriffen fungiert es als Ebene zwischen dem virtuellen Betriebssystem und Ihrem eigenen Betriebssystem, das dann mit der Hardware auf niedrigerer Ebene kommuniziert, um das virtuelle Betriebssystem zu unterstützen. Was dies für Sie bedeutet, ist:

Nachteile

Hardwareunterstützung

Ein Nachteil der virtuellen Maschinentechnologie besteht darin, dass sie nur die Hardware unterstützt, die sowohl der virtuelle Maschinenhypervisor als auch der Gastbetriebssystem unterstützen. Auch wenn das Gastbetriebssystem die physische Hardware unterstützt, sieht es nur die virtuelle Hardware, die von der virtuellen Maschine präsentiert wird. Der zweite Aspekt der Hardwareunterstützung für virtuelle Maschine ist die Hardware, die dem Gastbetriebssystem präsentiert wird. Unabhängig von der Hardware im Host ist die Hardware, die der Gastumgebung präsentiert wird, normalerweise dieselbe (mit Ausnahme der CPU, die sich durchsetzt). Beispielsweise präsentiert VMware GSX Server eine AMD PCNET32 Fast Ethernet-Karte oder eine optimierte VMware-proprietäre Netzwerkkarte, je nachdem, wie Sie dies auswählen. Die Netzwerkkarte im Host -Computer spielt keine Rolle. VMware GSX Server führt die Übersetzung zwischen der Netzwerkkarte der Gastumgebung und der Netzwerkkarte der Hostumgebung durch. Dies eignet sich hervorragend für die Standardisierung, bedeutet aber auch, dass Host -Hardware, die VMware nicht versteht, in der Gastumgebung nicht vorhanden ist.

Leistungsstrafe

Die virtuelle Maschinentechnologie verhängt eine Leistungsstrafe aus der Ausführung einer zusätzlichen Ebene über der physischen Hardware, jedoch unter dem Gastbetriebssystem. Die Leistungsstrafe variiert basierend auf der verwendeten Virtualisierungssoftware und der Guest -Software, die ausgeführt wird. Dies ist signifikant.

Profis

Isolation

Einer der Hauptgründe für die Virtualisierung besteht darin, Anwendungen voneinander zu isolieren. Alles auf einer Maschine zu laufen wäre großartig, wenn alles funktioniert, aber oft führt es zu unerwünschten Interaktionen oder sogar zu völligen Konflikten. Die Ursache sind häufig Softwareprobleme oder Geschäftsanforderungen, wie z. B. die Notwendigkeit einer isolierten Sicherheit. Mit virtuellen Maschinen können Sie jede Anwendung (oder Gruppe von Anwendungen) in einer eigenen Sandbox -Umgebung isolieren. Die virtuellen Maschinen können auf derselben physischen Maschine ausgeführt werden (Vereinfachung der Hardwareverwaltung), werden jedoch als unabhängige Maschinen für die von Ihnen ausgeführte Software angezeigt. In jeder Hinsicht sind die virtuellen Maschinen unabhängige Maschinen. Wenn eine virtuelle Maschine aufgrund des Anwendungs- oder Betriebssystemfehlers sinkt, werden die anderen weiter ausgeführt und die Dienste bereitstellen, die Ihr Unternehmen reibungslos funktionieren muss.

Standardisierung

Ein weiterer wichtiger Vorteil virtueller Maschinen ist die Standardisierung. Die Hardware, die dem Gastbetriebssystem vorgestellt wird, ist größtenteils einheitlich. Normalerweise ist die CPU die einzige Komponente, die "Durchgang" ist, in dem Sinne, dass der Gast das ist, was sich auf dem Host befindet. Eine standardisierte Hardwareplattform senkt die Supportkosten und erhöht den Anteil der IT -Ressourcen, die Sie für die Erreichung von Zielen widmen können, die Ihrem Unternehmen einen Wettbewerbsvorteil verschaffen. Die Host -Maschinen können unterschiedlich sein (wie sie es tatsächlich oft sind, wenn Hardware zu unterschiedlichen Zeiten erworben wird), aber die virtuellen Maschinen scheinen überall gleich zu sein.

Erleichter des Tests

Mit virtuellen Maschinen können Sie Szenarien leicht testen. Die meisten virtuellen Maschinensoftware heute bieten Schnappscheiben- und Rollback -Funktionen. Dies bedeutet, dass Sie eine virtuelle Maschine anhalten, einen Snapshot erstellen, mehr Vorgänge in der virtuellen Maschine ausführen und dann immer wieder zurückrollen können, bis Sie Ihre Tests abgeschlossen haben. Dies ist sehr praktisch für die Softwareentwicklung, ist jedoch auch für die Systemverwaltung nützlich. Administratoren können ein System einschnappen und eine Software installieren oder einige Konfigurationsänderungen vornehmen, von denen sie vermuten, dass sie das System destabilisieren können. Wenn die Software installiert oder ändert, kann der Administrator die Aktualisierungen begehen. Wenn die Aktualisierungen das System beschädigen oder zerstören, kann der Administrator sie zurückrollen. Virtuelle Maschinen ermöglichen auch Szenario -Tests, indem virtuelle Netzwerke aktiviert werden. In der VMware Workstation können Sie beispielsweise mehrere virtuelle Maschinen in einem virtuellen Netzwerk mit konfigurierbaren Parametern wie Paketverlust aus Überlastung und Latenz einrichten. Sie können somit zeitlichempfindliche oder lastempfindliche Anwendungen testen, um zu sehen, wie sie unter dem Stress einer simulierten starken Arbeitsbelastung abschneiden.

Mobilität

Virtuelle Maschinen sind leicht zwischen physischen Maschinen zu bewegen. Die meisten Software für virtuelle Maschine auf dem Markt heute speichern eine ganze Festplatte in der Gastumgebung als einzige Datei in der Hostumgebung. Snapshot- und Rollback -Funktionen werden implementiert, indem die Änderung des Status in einer separaten Datei in den Hostinformationen gespeichert wird. Eine einzelne Datei repräsentiert eine gesamte Gästeumgebung, die die Mobilität virtueller Maschinen fördert. Das Übertragen der virtuellen Maschine auf eine andere physische Maschine ist so einfach wie das Verschieben der virtuellen Festplattendatei und einige Konfigurationsdateien auf die andere physische Maschine. Die Bereitstellung einer anderen Kopie einer virtuellen Maschine entspricht der Übertragung einer virtuellen Maschine, außer dass Sie sie kopieren, anstatt die Dateien zu verschieben.

Welchen VM soll ich verwenden, wenn ich anfange?

Das Data Science -Box oder die Data Science Toolbox sind Ihre besten Wetten, wenn Sie gerade in die Data Science einsteigen. Sie verfügen über die grundlegende Software, die Sie benötigen, wobei der Hauptunterschied die virtuelle Umgebung ist, in der jeder dieser Ausführung ausführen kann. Der DSB kann auf AWS ausgeführt werden, während der DST auf virtuellem Box ausführen kann (was das häufigste Werkzeug für VMs ist).

Quellen

Andere Tipps

In den meisten Fällen erstellt ein praktizierender Datenwissenschaftler seine eigene Arbeitsumgebung für persönliche berechnete Installation bevorzugter Softwarepakete. Normalerweise ist es ausreichend und effizient, Rechenressourcen zu nutzen, da Sie auf Ihrer Hauptmaschine eine virtuelle Maschine (VM) ausführen müssen, um einen erheblichen Teil des RAM dafür zuzuweisen. Die Software wird sowohl auf der Haupt- als auch auf der virtuellen Maschine merklich langsamer ausgeführt, es sei denn, viel RAM.

Aufgrund dieser Auswirkungen auf die Geschwindigkeit ist es nicht üblich, VMs als Hauptarbeitsumgebung zu verwenden, aber in mehreren Fällen sind sie eine gute Lösung, wenn zusätzliche Arbeitsumgebung erforderlich ist.

Die VMs werden berücksichtigt, wann:

  1. Es besteht die Notwendigkeit, eine Reihe identischer Computerumgebungen beim Unterrichten eines Kurses oder einer Präsentation auf einer Konferenz leicht zu replizieren.
  2. Es besteht die Notwendigkeit, eine genaue Umgebung für ein Experiment oder eine Berechnung wiederherzustellen und neu zu erstellen.
  3. Es besteht die Notwendigkeit, ein anderes Betriebssystem auszuführen oder eine Lösung auf einem Tool zu testen, das auf einem anderen Betriebssystem ausgeführt wird.
  4. Man möchte ein Bündel von Softwaretools ausprobieren, bevor man sie auf der Hauptmaschine installiert. ZB Es gibt die Möglichkeit, während eines einen Fall von Hadoop (CDH) auf einem VM zu installieren Intro zu Hadoop Kurs auf Udacity.
  5. VMs werden manchmal für die schnelle Bereitstellung in der Cloud wie AWS EC, Rackspace usw. verwendet.

Die in der ursprünglichen Frage genannten VMs werden als einfach installierbare Datenwissenschaftssoftware -Bündel von Data Science hergestellt. Es gibt mehr als diese beiden. Dies Blogeintrag von Jeroen Janssens gibt einen Vergleich von mindestens vier:

  1. Data Science Toolbox
  2. Bergbau des sozialen Netzes
  3. Data Science Toolkit
  4. Data Science Box
Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit datascience.stackexchange
scroll top