Распознавание активности человека с использованием задачи набора данных смартфона.

https://datascience.stackexchange.com/questions/211

16-10-2019
|

Вопрос

Я новичок в этом сообществе, и, надеюсь, мой вопрос вполне подходит здесь. В рамках моего курса аналитики данных бакалавриата я решил выполнить проект по распознаванию деятельности человека с помощью наборов данных смартфона. Насколько я понимаю, эта тема связана с машинным обучением и поддержкой векторных машин. Я еще не хорошо знаком с этими технологиями, поэтому мне понадобится помощь.

Я решил следовать этой идее проекта http://www.inf.ed.ac.uk/teaching/courses/dme/2014/datasets.html (Первый проект на вершине) Цель проекта - определить, в каком занятии занимается человек (например, ходьба, hailing_upstairs, walking_downstairs, заседание, стояние, укладку) из данных, записанных смартфоном (Samsung Galaxy S II) на талии субъекта Анкет Используя свой встроенный акселерометр и гироскоп, данные включают 3-осевое линейное ускорение и 3-агиальную угловую скорость с постоянной скоростью 50 Гц.

Весь набор данных приведен в одной папке с некоторыми описанием и метками функций. Данные разделены для файлов «тест» и «поезда», в которых данные представлены в этом формате:

  2.5717778e-001 -2.3285230e-002 -1.4653762e-002 -9.3840400e-001 -9.2009078e-001 -6.6768331e-001 -9.5250112e-001 -9.2524867e-001 -6.7430222e-001 -8.9408755e-001 -5.5457721e-001 -4.6622295e-001  7.1720847e-001  6.3550240e-001  7.8949666e-001 -8.7776423e-001 -9.9776606e-001 -9.9841381e-001 -9.3434525e-001 -9.7566897e-001 -9.4982365e-001 -8.3047780e-001 -1.6808416e-001 -3.7899553e-001  2.4621698e-001  5.2120364e-001 -4.8779311e-001  4.8228047e-001 -4.5462113e-002  2.1195505e-001 -1.3489443e-001  1.3085848e-001 -1.4176313e-002 -1.0597085e-001  7.3544013e-002 -1.7151642e-001  4.0062978e-002  7.6988933e-002 -4.9054573e-001 -7.0900265e-001

И это всего лишь очень маленький образец того, что содержит файл.

Я действительно не знаю, что представляют эти данные и как можно интерпретировать. Также для анализа, классификации и кластеризации данных, какие инструменты мне нужно использовать? Есть ли способ, которым я могу поместить эти данные в Excel с включенными метками и, например, использовать R или Python для извлечения образцов данных и работы над этим?

Любые подсказки/подсказки были бы очень оценены.

Решение

Определения набора данных на странице здесь:

Атрибут информации внизу

Или вы можете видеть внутри папки ZIP файл с именем activity_labels, в котором находятся заголовки столбцов, убедитесь, что вы внимательно прочитали Readme, в нем есть хорошая информация. Вы можете легко принести .csv файл в r с использованием read.csv командование

Например, если вы назваете, что файл samsungdata Вы можете открыть R и запустить эту команду:

data <- read.csv("directory/where/file/is/located/samsungdata.csv", header = TRUE)

Или если вы уже находитесь в рабочем каталоге в R, вы можете просто запустить следующее

data <- read.csv("samsungdata.csv", header = TRUE)

Где имя data Можно изменить на все, что вы хотите позвонить на ваш набор данных.

Другие советы

Похоже, что этот (или очень похожий набор данных) используется для курсов Coursera. Очистка этого набора данных - задача для Получение и очистку данных, но это также используется для тематического исследования для Исследовательский анализ данных. Анкет Видео из этого тематического исследования доступно в видео для 4-й недели EDA Course Ware. Это может помочь вам начать с этих данных.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с datascience.stackexchange