Вам нужна виртуальная машина для науки о данных?

datascience.stackexchange https://datascience.stackexchange.com/questions/607

  •  16-10-2019
  •  | 
  •  

Вопрос

Я совершенно новичок в области науки о данных, хочу проникнуть в нее, и там так много инструментов. У этих виртуальных машин есть много программного обеспечения, но я не смог найти никакого сравнения бок о бок.

Вот начало моего исследования, но если кто-то может сказать мне, что он объективно более богатый, с большим сообществом поддержки и полезным для начала, это очень поможет:

DataSciEncetoolkit.org-> VM находится на Vagrant Cloud (4 ГБ) и, по-видимому, является более «модным» с R, Ipython Notebook и другими полезными инструментами командной строки (HTML-> TXT, JSON-> XML и т. Д.). В августе есть книга, выпущенная с деталями.

DataSciEncetoolbox.org -> VM -это блок -ящик (24 ГБ), загружаемый с их веб -сайта. Кажется, здесь есть больше особенностей и больше литературы.

Это было полезно?

Решение

Вам нужна виртуальная машина?

Вы должны помнить, что виртуальная машина - это собственная эмуляция программного обеспечения или другую конфигурацию аппаратного обеспечения, которая может запускать операционные системы. В большинстве основных терминов он действует как взаимодействие слоя между виртуальной ОС и вашей собственной ОС, которая затем связывается с оборудованием более низкого уровня, чтобы обеспечить поддержку виртуальной ОС. Для вас это означает:

Минусы

Аппаратная поддержка

Недостаток технологии виртуальных машин заключается в том, что она поддерживает только оборудование, которое поддерживают как гипервизор виртуальной машины, так и гостевая операционная система. Даже если гостевая операционная система поддерживает физическое оборудование, она видит только виртуальное оборудование, представленное виртуальной машиной. Вторым аспектом поддержки оборудования виртуальной машины является оборудование, представленное гостевой операционной системе. Независимо от оборудования на хосте, оборудование, представленное в гостевой среде, обычно одинаковое (за исключением процессора, который показывает). Например, VMware GSX Server представляет карту Fast Ethernet AMD PCNET32 или оптимизированную сетевую карту VMware-Propitary, в зависимости от того, что вы выбираете. Сетевая карта в хост -машине не имеет значения. VMware GSX Server выполняет перевод между сетевой картой гостевой среды и сетевой картой среды хоста. Это отлично подходит для стандартизации, но также означает, что оборудование для хоста, которое VMware не понимает, не будет присутствовать в гостевой среде.

Производительность штрафа

Технология виртуальной машины накладывает штраф за выполнение дополнительного уровня над физическим оборудованием, но под гостевой операционной системой. Штраф за производительность варьируется в зависимости от используемого программного обеспечения для виртуализации и запуска гостевого программного обеспечения. Это важно.

Плюс

Изоляция

Одной из ключевых причин использования виртуализации является выделение приложений друг от друга. Запуск всего на одной машине было бы здорово, если бы все сработало, но много раз это приводит к нежелательным взаимодействиям или даже откровенно конфликтам. Причиной часто являются проблемы с программным обеспечением или бизнес -требования, такие как необходимость изолированной безопасности. Виртуальные машины позволяют изолировать каждое приложение (или группу приложений) в своей собственной среде песочницы. Виртуальные машины могут работать на той же физической машине (упрощение управления аппаратным обеспечением), но появляются в качестве независимых машин для программного обеспечения. Для всех намерений и целей - за исключением производительности, виртуальные машины являются независимыми машинами. Если одна виртуальная машина уходит из -за ошибки применения или операционной системы, остальные продолжают работать, предоставляя услуги, которые ваш бизнес должен функционировать плавно.

Стандартизация

Другие ключевые виртуальные машины, предоставляющие виртуальные машины, - это стандартизация. Аппаратное обеспечение, представленное в гостевой операционной системе, по большей части, обычно, когда ЦП является единственным компонентом, который «проходит сквозь» в том смысле, что гость видит то, что находится на хосте. Стандартизированная аппаратная платформа снижает затраты на поддержку и увеличивает долю ИТ -ресурсов, которые вы можете посвятить достижению целей, которые дают вашему бизнесу конкурентное преимущество. Хост -машины могут быть разными (как на самом деле они часто бывают, когда аппаратное обеспечение получает в разное время), но виртуальные машины будут казаться одинаковыми для всех из них.

Простота тестирования

Виртуальные машины позволяют легко проверить сценарии. Большинство программ Virtual Machine Today предоставляет возможности снимка и откат. Это означает, что вы можете остановить виртуальную машину, создать снимок, выполнять больше операций в виртуальной машине, а затем снова и снова откатываться, пока не закончите тестирование. Это очень удобно для разработки программного обеспечения, но также полезно для системного администрирования. Администраторы могут сфотографировать систему и установить некоторое программное обеспечение или внести некоторые изменения конфигурации, которые, по их подозрению, могут дестабилизировать систему. Если программное обеспечение устанавливает или изменяет работу, то администратор может совершать обновления. Если обновления повреждают или уничтожат систему, администратор может отказаться от них. Виртуальные машины также облегчают тестирование сценариев, включив виртуальные сети. Например, на рабочей станции VMware вы можете настроить несколько виртуальных машин в виртуальной сети с настраиваемыми параметрами, такими как потеря пакетов из -за перегрузки и задержки. Таким образом, вы можете проверить чувствительные к времени приложения или чувствительные к нагрузке приложения, чтобы увидеть, как они работают под напряжением симулированной тяжелой рабочей нагрузки.

Мобильность

Виртуальные машины легко перемещаться между физическими машинами. Большая часть программного обеспечения для виртуальных машин на рынке сегодня хранит целый диск в гостевой среде в качестве единого файла в хост -среде. Возможности снижения и отката реализуются путем хранения изменения состояния в отдельном файле в информации хоста. Наличие одного файла представляет собой весь диск для гостевой среды способствует мобильности виртуальных машин. Передача виртуальной машины на другую физическую машину так же просто, как и перемещение файла виртуального диска и некоторые файлы конфигурации на другую физическую машину. Развертывание другой копии виртуальной машины - это то же самое, что передавать виртуальную машину, за исключением того, что вместо перемещения файлов вы копируете их.

Какую виртуальную машину мне следует использовать, если я начинаю?

Box Data Science или The Data Science Toolbox - ваши лучшие ставки, если вы просто попадаете в Data Science. У них есть базовое программное обеспечение, которое вам понадобится, причем основным отличием является виртуальная среда, в которой каждый из них может работать. DSB может работать на AWS, в то время как DST может работать на виртуальной коробке (который является наиболее распространенным инструментом, используемым для виртуальных машин).

Источники

Другие советы

В большинстве случаев практикующий ученый для данных создает свою собственную рабочую среду для персональной вычисленной установки предпочтительных программных пакетов. Обычно это достаточно и эффективно использовать вычислительные ресурсы, поскольку для запуска виртуальной машины (VM) на вашей основной машине вы должны выделить значительную часть оперативной памяти для нее. Программное обеспечение будет заметно медленнее как на главной, так и на виртуальной машине, если только много оперативной памяти.

Из -за этого влияния на скорость не является обычным использованием виртуальных машин в качестве основной рабочей среды, но они являются хорошим решением в нескольких случаях, когда существует необходимость в дополнительной рабочей среде.

Виртуальные машины должны быть рассмотрены, когда:

  1. Существует необходимость легко воспроизвести ряд идентичных вычислительных средств при преподавании курса или проведения презентации на конференции.
  2. Необходимо сохранить и воссоздать точную среду для эксперимента или расчета.
  3. Необходимо запустить другую ОС или проверить решение на инструменте, который работает на другой ОС.
  4. Перед установкой их на главной машине хочет попробовать кусок программных инструментов. Например, есть возможность установить экземпляр Hadoop (CDH) на виртуальной машине во время Вступление в Hadoop Курс на Udacity.
  5. Виртуальные машины иногда используются для быстрого развертывания в облаке, как AWS EC, Rackspace и т. Д.

Виртуальные машины, упомянутые в исходном вопросе, сделаны как легко устанавливаемые программные пакеты для данных. Их больше, чем эти два. Этот Сообщение блога Джерун Янссенс дает сравнение не менее четырех:

  1. Наука на науку о данных
  2. Добыча социальной сети
  3. Наука данных инструментарий
  4. Данная наука
Лицензировано под: CC-BY-SA с атрибуция
Не связан с datascience.stackexchange
scroll top