我是数据科学领域的全新,想介入它,那里有很多工具。这些VM上有很多软件,但是我找不到任何并排比较。

这是我的研究的开始,但是如果有人可以告诉我,一个人客观上更丰富,并提供更大的支持社区,并且有助于入门,那将有很大帮助:

dataSciencetoolKit.org-> VM在Vagrant Cloud(4 GB)上,似乎具有R,IPYTHON笔记本电脑和其他有用的命令行工具(HTML-> TXT,JSON-> XML等)似乎更“ hip”。八月份有一本书详细发行。

datasciencetoolbox.org-> VM是可从其网站下载的Vagrant框(24 GB)。这里似乎还有更多功能,还有更多的文献。

有帮助吗?

解决方案

您需要VM吗?

您需要记住,虚拟机是您自己的软件仿真或其他可以运行操作系统的机器硬件配置。在大多数基本的术语中,它充当虚拟操作系统与您自己的操作系统之间的层接口,然后与较低级别的硬件进行通信以向虚拟OS提供支持。这对您意味着什么:

缺点

硬件支持

虚拟机技术的缺点是它仅支持虚拟机管理程序和来宾操作系统支持的硬件。即使来宾操作系统支持物理硬件,它也只会看到虚拟机提供的虚拟硬件。虚拟机硬件支持的第二个方面是介绍给客人操作系统的硬件。无论主机中的硬件是什么,呈现给客人环境的硬件通常是相同的(除了CPU以外,它可以通过)。例如,VMware GSX Server呈现AMD PCNET32快速以太网卡或优化的VMware Priperiewewnet Card,具体取决于您选择的。主机机器中的网卡无关紧要。 VMware GSX服务器执行客座环境网卡与主机环境网络卡之间的翻译。这对于标准化非常有用,但这也意味着托管硬件VMware不了解不会在来宾环境中存在。

绩效惩罚

虚拟机技术通过在物理硬件上方运行额外的一层,但在来宾操作系统之下施加了性能处罚。性能惩罚根据所使用的虚拟化软件和正在运行的访客软件而变化。这很重要。

优点

隔离

采用虚拟化的关键原因之一是彼此隔离应用程序。如果一切正常,在一台机器上运行所有内容都会很棒,但是很多时候它会导致不良的互动甚至彻底的冲突。原因通常是软件问题或业务需求,例如需要隔离安全性。虚拟机允许您在自己的沙盒环境中隔离每个应用程序(或一组应用程序)。虚拟机可以在同一台物理机器上运行(简化IT硬件管理),但作为您正在运行的软件的独立机器出现。出于所有意图和目的,除了性能之外,虚拟机是独立的机器。如果一台虚拟机由于应用程序或操作系统错误而下降,则其他机器将继续运行,提供您的业务需要顺利运行的服务。

标准化

虚拟机提供的另一个关键好处是标准化。向客座操作系统展示的硬件在大多数情况下是统一的,通常CPU是唯一的“通行证”组件,因为客人看到主机上的内容。标准化的硬件平台降低了支持成本,并增加了IT资源的份额,您可以致力于实现为您的业务带来竞争优势的目标。主机机器可能会有所不同(实际上通常是在不同时间获取硬件时),但是虚拟机在所有这些方面似乎都相同。

易于测试

虚拟机让您轻松测试方案。如今,大多数虚拟机软件都提供快照和回滚功能。这意味着您可以停止虚拟机,创建快照,在虚拟机中执行更多操作,然后一次又一次地回滚直到完成测试。这对于软件开发非常方便,但对于系统管理也很有用。管理员可以快照系统并安装一些软件或进行一些他们怀疑可能会破坏系统稳定的配置更改。如果软件安装或更改工作,则管理员可以提交更新。如果更新会损坏或破坏系统,则管理员可以将其滚回去。虚拟机还通过启用虚拟网络来促进方案测试。例如,在VMware Workstation中,您可以在具有可配置参数的虚拟网络上设置多个虚拟机,例如拥塞和延迟的数据包丢失。因此,您可以测试对计时敏感或对负载敏感的应用程序,以查看它们在模拟重量工作量的压力下的表现。

机动性

虚拟机在物理机器之间很容易移动。当今市场上的大多数虚拟机软件都将整个磁盘作为主机环境中的一个文件存储在客座环境中。快照和回滚功能是通过将状态更改存储在主机信息中的单独文件中来实现的。拥有一个文件表示整个访客环境磁盘可促进虚拟机的移动性。将虚拟机传输到另一台物理机器就像将虚拟磁盘文件和某些配置文件移至另一台物理计算机一样容易。部署另一台虚拟机副本与传输虚拟机相同,除非您不移动文件,而是复制它们。

如果我刚开始,我应该使用哪个VM?

如果您只是进入数据科学,那么数据科学框或数据科学工具箱是您的最佳选择。它们具有您需要的基本软件,主要区别是每个可以运行的虚拟环境。 DSB可以在AWS上运行,而DST可以在虚拟框上运行(这是VMS使用的最常见工具)。

来源

其他提示

在大多数情况下,实践数据科学家在安装首选软件包的个人计算机上创建了自己的工作环境。通常,它足以有效地使用计算资源,因为要在主机上运行虚拟机(VM),您必须为其分配大部分RAM。除非大量RAM,否则该软件在主机和虚拟机上的运行速度会明显较慢。

由于对速度的影响,使用VM作为主要工作环境并不常见,但是在需要其他工作环境时,它们是一个很好的解决方案。

考虑到:

  1. 在教课程或在会议上进行演示时,有必要轻松复制许多相同的计算环境。
  2. 有必要保存并重新创建实验或计算的精确环境。
  3. 有必要运行其他OS或测试在其他OS上运行的工具上的解决方案。
  4. 一个人希望在将软件工具安装在主机上之前尝试一捆软件工具。例如,有机会在VM上安装Hadoop(CDH)实例 Hadoop的简介 课程关于udacity。
  5. VM有时用于在云中快速部署,例如AWS EC,Rackspace等。

原始问题中提到的VMS被作为易于安装的数据科学软件捆绑包。这两个不超过这两个。这个 博客文章 Jeroen Janssens的比较至少四个:

  1. 数据科学工具箱
  2. 挖掘社交网络
  3. 数据科学工具包
  4. 数据科学框
许可以下: CC-BY-SA归因
scroll top