Pregunta

Soy nuevo en el campo de la ciencia de datos, quieren entrar en ella, y hay muchas herramientas por ahí. Estas máquinas virtuales tienen una gran cantidad de software en ellos, pero no he podido encontrar ninguna comparación lado a lado.

Aquí hay un comienzo de mi investigación, pero si alguien me podría decir que uno es objetivamente más ricos con todas las funciones, con una comunidad más amplia de apoyo, y útil para empezar a continuación, que sería de gran ayuda:

datasciencetoolKIT.org -> vm es en la nube vagabundo (4 GB) y parece ser más "hip" con R, cuaderno IPython, y otras herramientas de utilidad de línea de comandos (html-> txt, json-> xml, etc ). Hay un libro de ser liberado en agosto con detalle.

datasciencetoolBOX.org -> vm es una caja vagabundo (24 GB) descargable desde su página web. Parece que hay más características aquí, y más literatura.

¿Fue útil?

Solución

¿Necesita una máquina virtual?

Debe tener en cuenta que una máquina virtual es un software de emulación de su propia u otra configuración de hardware de la máquina que puede ejecutar un sistema operativo. En la mayoría de los términos básicos, que actúa como una capa de interfaz entre el sistema operativo virtual, y su propio sistema operativo que a su vez se comunica con el hardware de nivel inferior para proporcionar soporte al sistema operativo virtual. Lo que esto significa para usted es:

Contras

Soporte de hardware

Una desventaja de la tecnología de máquina virtual es que sólo es compatible con el hardware que tanto el hipervisor de la máquina virtual y el soporte del sistema operativo huésped. Incluso si el sistema operativo invitado compatible con el hardware físico, que sólo ve el hardware virtual presentado por la máquina virtual. El segundo aspecto de soporte de hardware de la máquina virtual es el hardware presentado al sistema operativo huésped. No importa el hardware en el huésped, el hardware presentado al entorno de invitados suele ser el mismo (con la excepción de la CPU, que muestra a través). Por ejemplo, VMware GSX servidor presenta una tarjeta Fast Ethernet AMD PCnet32 o una tarjeta de red de VMware propietaria optimizado, dependiendo de lo que elija. La tarjeta de red en el ordenador central no importa. VMware GSX Server realiza la traducción entre la tarjeta de red del entorno de invitados y tarjeta de red del entorno de acogida. Esto es grande para la estandarización, pero también significa que el hardware de host de VMware que no entiende no estará presente en el entorno de invitados.

penalización de rendimiento

tecnología de la máquina virtual impone una penalización de rendimiento se ejecute una capa adicional sobre el hardware físico, pero debajo del sistema operativo huésped. La penalización de rendimiento varía en función del software de virtualización y el software utilizado invitado en ejecución. Esto es significativo.

Pros

Aislamiento

Una de las razones clave para la virtualización de aplicaciones emplear es aislar unas de otras. Correr todo en una máquina sería grande si todo funcionó, pero muchas veces se traduce en interacciones indeseables o incluso conflictos absolutas. La causa es a menudo problemas de software o requisitos de negocio, tales como la necesidad de seguridad aislado. Las máquinas virtuales le permiten aislar cada aplicación (o grupo de aplicaciones) en su propio entorno de pruebas. Las máquinas virtuales pueden ejecutar en la misma máquina física (la simplificación de la administración de hardware), sin embargo, aparecen como máquinas independientes para el software que está ejecutando. Para todos los efectos, excepto el rendimiento, las máquinas virtuales son máquinas independientes. Si una máquina virtual se cae debido a la aplicación o error del sistema operativo, los otros siguen corriendo, la prestación de servicios que su empresa necesita para su buen funcionamiento.

Normalización

Otro beneficio clave de las máquinas virtuales proporcionan es la estandarización. El hardware que se presenta al sistema operativo huésped es uniforme en su mayor parte, por lo general con la CPU ser el único componente que se "transferencia" en el sentido de que el cliente ve lo que está en el host. Una plataforma de hardware estandarizado reduce los costos de soporte y aumenta la proporción de los recursos de TI que se puede dedicar a la consecución de los objetivos que le dan a su empresa una ventaja competitiva. Las máquinas host pueden ser diferentes (como de hecho son a menudo cuando el hardware se adquiere en diferentes momentos), pero las máquinas virtuales aparecerán a ser la misma en todos ellos.

Facilidad de Prueba

Las máquinas virtuales permiten probar escenarios fácilmente. La mayoría hoy en día software de máquina virtual proporciona capacidades de instantáneas y reversión. Esto significa que puede detener una máquina virtual, crear una instantánea, realizar más operaciones en la máquina virtual, y luego hacer retroceder una y otra vez hasta que haya terminado su prueba. Esto es muy útil para el software de desarrolloment, pero también es útil para la administración del sistema. Los administradores pueden instantánea de un sistema e instalar algún software o hacer algunos cambios de configuración que se sospecha que podría desestabilizar el sistema. Si las instalaciones de software o cambios funcionan, entonces el administrador puede confirmar las actualizaciones. Si las actualizaciones de dañar o destruir el sistema, el administrador puede rodar de nuevo. Las máquinas virtuales también facilitan las pruebas de escenario al permitir que las redes virtuales. En VMware Workstation, por ejemplo, se puede configurar múltiples máquinas virtuales en una red virtual con parámetros configurables, tales como la pérdida de paquetes de la congestión y la latencia. Usted puede así las aplicaciones de tiempo-sensible o de carga sensible a prueba para ver cómo se realizan bajo la presión de un gran volumen de trabajo simulado.

Movilidad

Las máquinas virtuales son fáciles de mover entre las máquinas físicas. La mayor parte del software de máquina virtual en el mercado hoy en día las tiendas de todo el disco en el entorno de huéspedes como un único archivo en el entorno de acogida. Instantánea y capacidades de rollback se implementan mediante el almacenamiento del cambio de estado en un archivo separado en la información del host. Tener un solo archivo representan todo un disco del entorno de invitados promueve la movilidad de las máquinas virtuales. La transferencia de la máquina virtual a otra máquina física es tan fácil como mover el archivo de disco virtual y algunos archivos de configuración a la otra máquina física. La implementación de otra copia de una máquina virtual es la misma que la transferencia de una máquina virtual, excepto que en lugar de mover los archivos, los copia.

¿Qué debo usar VM si estoy empezando?

La caja de Ciencias de datos o de la Ciencia Caja de herramientas de datos son sus mejores apuestas si usted acaba de entrar en la ciencia de datos. Tienen el software básico que se necesita, con la diferencia principal es el entorno virtual en el que cada uno de ellos puede funcionar. El OSD se puede ejecutar en AWS mientras que el horario de verano se ejecuta en Virtual Box (que es la herramienta más común utilizado para el SLB).

Fuentes

Otros consejos

En la mayoría de los casos, un científico de datos practicar crea su propio entorno de trabajo en los paquetes de software Instalación preferido calculados personales. Normalmente es suficiente uso y eficiente de los recursos informáticos, debido a ejecutar una máquina virtual (VM) en su máquina principal que tiene que asignar una parte significativa de la memoria RAM para ello. El software se ejecutará notablemente más lento en tanto la principal como la máquina virtual a menos que una gran cantidad de memoria RAM.

Debido a este impacto en la velocidad no es común el uso de máquinas virtuales como medio principal de trabajo, pero son una buena solución en varios casos cuando hay una necesidad de entorno de trabajo adicional.

Las VM ser considerada cuando:

  1. Hay una necesidad de replicar fácilmente un número de computación idéntica ambientes en la enseñanza de un curso o haciendo una presentación en una conferencia.
  2. Hay una necesidad de ahorrar y volver a crear un entorno exacta para un experimento o un cálculo.
  3. Hay una necesidad de ejecutar un sistema operativo diferente o para probar una solución en una herramienta que se ejecuta en un sistema operativo diferente.
  4. Uno quiere probar un conjunto de herramientas de software antes de instalar en la máquina principal. P.ej. hay una oportunidad para instalar una instancia de Hadoop (CDH) en una máquina virtual durante una Introducción a Hadoop curso sobre Udacity.
  5. máquinas virtuales se utilizan a veces para el despliegue rápido en la nube de AWS como CE, Rackspace, etc.

Las VM se menciona en la pregunta original se hacen como paquetes de software de ciencias datos fácilmente instalables. Hay más de estos dos. Este entrada de blog por Jeroen Janssens da una comparación de al menos cuatro:

  1. Ciencia Datos Caja de herramientas
  2. Minería la Web Social
  3. Science Data Kit de herramientas
  4. Datos Box Ciencia
Licenciado bajo: CC-BY-SA con atribución
scroll top