Нужно ли учиться Hadoop, чтобы быть ученым для данных?

https://datascience.stackexchange.com/questions/253

16-10-2019
|

Вопрос

Начинающий ученый данных здесь. Я ничего не знаю о Hadoop, но, как я читал о науке о данных и больших данных, я вижу много разговоров о Hadoop. Абсолютно необходимо ли научиться быть ученым для данных?

Решение

Разные люди используют разные инструменты для разных вещей. Такие термины, как наука о данных, являются общими по причине. Ученый по данным мог бы провести всю карьеру, не изучая такой конкретный инструмент, как Hadoop. Hadoop широко используется, но это не единственная платформа, которая способна управлять и манипулировать данными, даже крупномасштабные данные.

Я бы сказал, что ученый для данных должен быть знаком с такими понятиями, как MapReduce, распределенные системы, распределенные файловые системы и тому подобное, но я бы не судил кого -то за то, что он не знал о таких вещах.

Это большое поле. Существует море знаний, и большинство людей способны учиться и быть экспертом в одну каплю. Ключ к тому, чтобы быть ученым, - это желание учиться и мотивация знать, что вы еще не знаете.

В качестве примера: я мог бы передать правильного человека сотню структурированных файлов CSV, содержащих информацию о производительности в классе в одном конкретном классе за десять лет. Ученый по данным сможет потратить год, получая информацию из данных, не нуждаясь в распределении вычислений на нескольких машинах. Вы можете применять алгоритмы машинного обучения, проанализировать их с помощью визуализаций, объединить их с внешними данными о регионе, этнической макияже, изменениях в окружающей среде, политической информации, погодных условиях и т. Д. Анкет Для тестирования и применения чего -либо, что вы узнали для данных, может потребоваться что -то вроде Hadoop и применять все, что вы узнали, составляющую целую страну студентов, а не просто класс, но этот последний шаг не обязательно делает кого -то ученом данных. И не делать этот последний шаг не обязательно лишает кого -то ученым -ученом.

Другие советы

Как бывший инженер Hadoop, это не нужно, но это помогает. Hadoop - это всего лишь одна система - самая распространенная система, основанная на Java, и экосистема продуктов, которые применяют конкретную технику «Map/Crement» для своевременного получения результатов. Hadoop не используется в Google, хотя уверяю вас, что они используют аналитику больших данных. Google использует свои собственные системы, разработанные в C ++. Фактически, Hadoop был создан в результате публикации Google их карты/сокращения и BigTable (HBASE In Hadoop).

Ученые по данным будут взаимодействовать с инженерами Hadoop, хотя в небольших местах вам может потребоваться носить обе шляпы. Если вы строго ученой данных, то все, что вы используете для своей аналитики, R, Excel, Tableau и т. Д., Будет работать только в небольшом подмножестве, а затем необходимо преобразовать для выполнения полного набора данных с участием Hadoop.

Вы должны сначала прояснить, что вы имеете в виду под «изучать Hadoop». Если вы имеете в виду использование Hadoop, например, обучение программированию в MapReduce, то, скорее всего, это хорошая идея. Но фундаментальные знания (база данных, машинное обучение, статистика) могут играть более важную роль с течением времени.

Да, вы должны выучить платформу, которая способна анализировать вашу проблему в качестве параллельной проблемы. Hadoop один. Для ваших простых потребностей (такие шаблоны дизайна, как подсчет, агрегация, фильтрация и т. Д.) Вам нужен Hadoop, и для более сложных материалов для машинного обучения, таких как занятие байесовским, SVM, вам нужен махаут, который, в свою очередь, нуждается параллельный подход.

Таким образом, Hadoop - хорошая платформа для обучения и действительно важна для ваших потребностей в переработке партии. Не только Hadoop, но и нужно знать Spark (Mahout работает, это алгоритмы, использующие Spark) и Twitter Storm (для ваших потребностей в аналитике в реальном времени). Этот список будет продолжаться и развиваться, поэтому, если у вас хорошо справляетесь с строительными блоками (распределенные вычисления, проблемы с параллельными данными и т. Д.) И знаете, как работает одна такая платформа (скажем, Hadoop), вы довольно быстро будете быстро ускорить на других.

Это сильно зависит от окружающей среды/компании, с которой вы работаете. На данный момент есть шумиха «большие данные», и многие компании пытаются ввести в поле с помощью решений на основе Hadoop - что делает Hadoop также модным словом, но это не всегда лучшее решение.

На мой взгляд, хороший ученый для данных должен иметь возможность задать правильные вопросы и продолжать задавать снова, пока не ясно, что действительно нужно. Чем хороший DataStist - конечно, нужно знать, как решить проблему (или, по крайней мере, знать кого -то, кто может). В противном случае ваша заинтересованная сторона может быть разочарована :-)

Итак, я бы сказал, что нет абсолютно необходимо изучать Hadoop.

Вы должны изучить Hadoop, если вы хотите работать в качестве ученых данных, но, возможно, прежде чем начать с Hadoop, вы должны прочитать что -нибудь о ETL или больших данных ... Эта книга может быть хорошей отправной точкой: http://www.amazon.com/big-data-principles-practices-scalable/dp/1617290343

Надеюсь, это поможет и удачи!

Вы можете применить методы науки о данных к данным на одной машине, поэтому ответ на вопрос как оплот его, нет.

Наука данных - это поле, требующее различных навыков. Знание Hadoop является одним из них. Основные задачи ученых данных включают:

Сбор данных из разных ресурсов.
Очистка и предварительная обработка данных.
Изучение статистических свойств данных.
Использование методов машинного обучения для прогнозирования и получения информации из данных.
Общение результатов, принимающим решения, простым для понимания.

Из вышеуказанных пунктов знание Hadoop полезно для точек 1,2 и 3, но вам также необходимо иметь сильный математический/статистический фон и прочные знания вычислительных методов для работы в области науки данных. Также Hadoop - не единственная структура, которая используется в науке о данных. Экосистема больших данных имеет ряд структур, каждая из которых конкретно использует конкретный вариант использования. Эта статья дает вводные материалы, касающиеся основных фреймворков больших данных, которые можно использовать в науке о данных:

http://www.codophile.com/big-data-frameworks-every-programmer-should-know/

Я действительно думаю, что наклонная структура Hadoop (жесткий путь) не является обязательным требованием быть ученым данных. Общие знания на всех платформах больших данных имеют важное значение. Я предложу узнать концепцию, и только часть необходимости от Hadoop - это MapReducehttp://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapreducetutorial.html

Ученый по данным не строит кластер, администрирует ... просто делает «магию» с данными и не заботится о том, откуда приходит. Термин «Hadoop» пришел, чтобы ссылаться не только на базовые модули выше, но и к «экосистеме», либо наборе дополнительных программных пакетов, которые могут быть установлены поверх или рядом с Hadoop, таким как Apache Pig, Apache Hive, Apache Hbase, Apache Spark и другие.

Наиболее важным является язык программирования, математика и статистика для работы с данными (вам нужно найти способ подключения к данным и двигаться вперед). Хотелось бы, чтобы у меня был кто -то, чтобы указать мне на концепцию и не тратить недели на структуру обучения и строить с нуля и кластеры, потому что эта часть является ролью администратора, а не инженера данных или ученых данных. Также одно: все меняются и развиваются, но математика, программирование, статистика по -прежнему является требованиями.

Доступ к данным из HDFS имеет важное значение, например, Proc Hadoop, Hive, SparkContext или любой другой драйвер или труб (обрабатывать Hadoop как точку привлечения данных или хранилища :)

Уже есть инструменты или структуры, которые заботятся о распределении ресурсов и управлении, производительности.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с datascience.stackexchange