Question

Je suis tout nouveau dans le domaine de la science des données, veulent briser en elle, et il y a tellement d'outils là-bas. Ces machines virtuelles ont beaucoup de logiciels sur eux, mais je n'ai pas pu trouver une comparaison côte à côte.

Voici un début de mes recherches, mais si quelqu'un pouvait me dire que l'on est objectivement plus riche en fonctionnalités, avec une plus grande communauté de soutien, et utile pour commencer, puis qui aiderait grandement:

datasciencetoolKIT.org -> vm est sur un nuage errante (4 Go) et semble être plus "hip" avec R, bloc-notes ipython, et d'autres outils de ligne de commande utile (html-> txt, json-> xml, etc ). Il y a un livre sort en Août avec des détails.

datasciencetoolBOX.org -> vm est une boîte errante (24 Go) téléchargeable sur leur site web. Il semble y avoir plus de fonctionnalités ici, et plus la littérature.

Était-ce utile?

La solution

Avez-vous besoin d'une machine virtuelle?

Vous devez garder à l'esprit qu'une machine virtuelle est une émulation logicielle de votre propre ou d'une autre configuration matérielle de la machine qui peut fonctionner un système d'exploitation. Dans la plupart des termes de base, il agit comme une couche d'interface entre le système d'exploitation virtuel, et votre propre système d'exploitation qui communique ensuite avec le matériel de niveau inférieur pour fournir un soutien au système d'exploitation virtuel. Qu'est-ce que cela signifie pour vous est:

Moins

Support matériel

Un inconvénient de la technologie de machine virtuelle est qu'il ne supporte que le matériel que les deux l'hyperviseur de machine virtuelle et le support du système d'exploitation invité. Même si le système d'exploitation invité prend en charge le matériel physique, il ne voit que le matériel virtuel présenté par la machine virtuelle. Le deuxième aspect du support matériel de la machine virtuelle est le matériel présenté au système d'exploitation invité. Peu importe le matériel dans l'hôte, le matériel présenté à l'environnement invité est généralement le même (à l'exception de la CPU, qui transparaît). Par exemple, VMware GSX Server présente une carte Ethernet rapide AMD PCnet32 ou optimisé carte réseau VMware-propriétaire, selon que vous choisissez. La carte réseau dans la machine hôte n'a pas d'importance. VMware GSX Server effectue la traduction entre la carte réseau de l'environnement invité et la carte réseau de l'environnement hôte. Ce qui est excellent pour la normalisation, mais cela signifie aussi que le matériel hôte que VMware ne comprend pas ne sera pas présent dans l'environnement client.

Pénalité de performance

La technologie de la machine virtuelle impose une pénalité de performance de l'exécution d'une couche supplémentaire au-dessus du matériel physique, mais sous le système d'exploitation invité. La pénalité de performance varie en fonction du logiciel de virtualisation utilisé et le logiciel client en cours d'exécution. Ceci est important.

Plus

Isolation

  

L'une des principales raisons de la virtualisation des applications est d'emploi isoler les uns des autres. Courir tout sur une machine serait génial si tout cela a fonctionné, mais plusieurs fois il en résulte des interactions indésirables, voire des conflits purs et simples. La cause est souvent des problèmes logiciels ou besoins de l'entreprise, tels que le besoin de sécurité isolé. Les machines virtuelles vous permettent d'isoler chaque application (ou un groupe d'applications) dans son propre environnement de bac à sable. Les machines virtuelles peuvent fonctionner sur la même machine physique (simplifier la gestion du matériel), mais apparaissent comme des machines indépendantes au logiciel que vous utilisez. Pour toutes fins utiles, sauf les performances, les machines virtuelles sont des machines indépendantes. Si une machine virtuelle tombe en panne en raison de l'application ou une erreur du système d'exploitation, les autres continuent à courir, fournir des services à vos besoins d'affaires à la fonction en douceur.

Normalisation

  

Une autre machines virtuelles fournissent des principaux avantages est la normalisation. Le matériel qui est présenté au système d'exploitation invité est uniforme pour la plupart, le plus souvent avec la CPU étant le seul composant qui est « pass-through » dans le sens que le client voit ce qui est sur l'hôte. Une plate-forme matérielle normalisée réduit les coûts de support et augmente la part des ressources informatiques que vous pouvez consacrer à la réalisation des objectifs qui donnent à votre entreprise un avantage concurrentiel. Les machines hôtes peuvent être différentes (comme elles sont souvent lorsque le matériel est acquis à des moments différents), mais les machines virtuelles semblent être les mêmes pour tous.

Facilité des tests

  

Les machines virtuelles vous permettent de tester facilement les scénarios. Aujourd'hui, la plupart des logiciels de machine virtuelle fournit des fonctionnalités de capture instantanée et rollback. Cela signifie que vous pouvez arrêter une machine virtuelle, créer un instantané, effectuer plusieurs opérations dans la machine virtuelle, puis revenir encore et encore jusqu'à ce que vous avez terminé vos tests. Ceci est très pratique pour les logiciels développerment, mais il est également utile pour l'administration du système. Admins peuvent instantané d'un système et d'installer un logiciel ou faire quelques changements de configuration qu'ils soupçonnent de déstabiliser le système. Si les installations de logiciels ou des changements de travail, l'administrateur peut engager les mises à jour. Si les mises à jour endommager ou de détruire le système, l'administrateur peut les faire reculer.   Les machines virtuelles facilitent également les tests de scénarios en permettant des réseaux virtuels. Dans VMware Workstation, par exemple, vous pouvez configurer plusieurs machines virtuelles sur un réseau virtuel avec des paramètres configurables, tels que la perte de paquets de la congestion et la latence. Vous pouvez ainsi tester des applications de synchronisation sensibles ou sensible à la charge de voir leur performance sous la pression d'une lourde charge de travail simulé.

Mobilité

  

Les machines virtuelles sont faciles à déplacer entre les machines physiques. La plupart des logiciels de la machine virtuelle sur le marché stocke aujourd'hui un disque entier dans l'environnement invité comme un seul fichier dans l'environnement hôte. capacités Snapshot et rollback sont mises en œuvre en stockant le changement d'état dans un fichier séparé dans les informations d'hôte. Avoir un seul fichier représente un disque d'environnement invité l'ensemble favorise la mobilité des machines virtuelles. Le transfert de la machine virtuelle à une autre machine physique est aussi facile que déplacer le fichier de disque virtuel et des fichiers de configuration à l'autre machine physique. Déploiement une autre copie d'une machine virtuelle est le même que le transfert d'une machine virtuelle, sauf qu'au lieu de déplacer les fichiers, les copier.

Quelle VM dois-je utiliser si je débutais?

La science Boîte de données ou la science des données Boîte à outils sont vos meilleurs paris si vous venez d'entrer dans la science des données. Ils ont le logiciel de base que vous aurez besoin, avec la principale différence étant l'environnement virtuel dans lequel chacun d'entre eux peut fonctionner. L'ORD peut fonctionner sur AWS alors que la DST peut exécuter sur Virtual Box (qui est l'outil le plus couramment utilisé pour les machines virtuelles).

Sources

Autres conseils

Dans la plupart des cas, un scientifique de données pratique crée son propre environnement de travail sur les paquets de installation calculés personnels logiciels préférés. Normalement, il est une utilisation suffisante et efficace des ressources informatiques, car pour exécuter une machine virtuelle (VM) sur votre machine principale, vous devez allouer une partie importante de RAM pour elle. Le logiciel fonctionnera sensiblement plus lent à la fois le principal et la machine virtuelle à moins que beaucoup de RAM.

En raison de cet impact sur la vitesse il est courant d'utiliser des machines virtuelles comme environnement de travail mais ils sont une bonne solution dans plusieurs cas où il est nécessaire de l'environnement de travail supplémentaire.

Les machines virtuelles est envisagée lorsque:

  1. Il est nécessaire de reproduire facilement un certain nombre de calcul identique des environnements où l'enseignement d'un cours ou faire une présentation sur un conférence.
  2. Il est nécessaire d'enregistrer et de recréer un environnement précis pour une expérience ou un calcul.
  3. Il est nécessaire d'exécuter un autre système d'exploitation ou pour tester une solution sur un outil qui fonctionne sur un autre système d'exploitation.
  4. On veut essayer un paquet d'outils logiciels avant d'installer eux sur la machine principale. Par exemple. il est possible d'installer une instance de Hadoop (CDH) sur une machine virtuelle lors d'une Intro à Hadoop cours sur Udacity.
  5. machines virtuelles sont parfois utilisés pour un déploiement rapide dans le nuage comme AWS EC, Rackspace etc.

Les machines virtuelles mentionné dans la question initiale sont faits sous forme de faisceaux de logiciels scientifiques de données facilement installables. Il y a plus que ces deux. Ce billet de blog par Jeroen Janssens donne une comparaison d'au moins quatre:

  1. Boîte à outils Data Science
  2. Exploitation minière sur le Web social
  3. Toolkit Data Science
  4. Data Science Box
Licencié sous: CC-BY-SA avec attribution
scroll top