使用智能手机数据集问题的人类活动识别问题

https://datascience.stackexchange.com/questions/211

16-10-2019
|

题

我是这个社区的新手，希望我的问题会很适合这里。作为我的本科数据分析课程的一部分，我选择使用智能手机数据集进行有关人类活动识别的项目。就我而言，该主题与机器学习和支持向量机有关。我对这些技术并不熟悉，所以我需要一些帮助。

我决定遵循这个项目的想法 http://www.inf.ed.ac.uk/teaching/courses/dme/2014/datasets.html （顶部的第一个项目）项目目标是确定一个人从事智能手机（Samsung Galaxy S II）的数据中从事的活动（例如，步行，walkate_upstairs，walking_upstairs，坐着，站立，站立）。。使用其嵌入式加速度计和陀螺仪，数据包括3轴线性加速度和3轴角速度，恒定速率为50Hz。

所有数据集都在一个文件夹中给出，并带有一些描述和功能标签。将数据划分为“测试”和“火车”文件，其中以这种格式表示数据：

  2.5717778e-001 -2.3285230e-002 -1.4653762e-002 -9.3840400e-001 -9.2009078e-001 -6.6768331e-001 -9.5250112e-001 -9.2524867e-001 -6.7430222e-001 -8.9408755e-001 -5.5457721e-001 -4.6622295e-001  7.1720847e-001  6.3550240e-001  7.8949666e-001 -8.7776423e-001 -9.9776606e-001 -9.9841381e-001 -9.3434525e-001 -9.7566897e-001 -9.4982365e-001 -8.3047780e-001 -1.6808416e-001 -3.7899553e-001  2.4621698e-001  5.2120364e-001 -4.8779311e-001  4.8228047e-001 -4.5462113e-002  2.1195505e-001 -1.3489443e-001  1.3085848e-001 -1.4176313e-002 -1.0597085e-001  7.3544013e-002 -1.7151642e-001  4.0062978e-002  7.6988933e-002 -4.9054573e-001 -7.0900265e-001

这只是文件所包含的内容的一个很小的示例。

我真的不知道这些数据代表什么以及如何解释。还用于分析数据的分类和聚类，我需要使用哪些工具？有什么方法可以将这些数据放入Excel中，其中包含标签，例如使用R或Python提取样本数据并为此进行处理？

任何提示/提示都将不胜感激。

解决方案

数据集定义在此处的页面上：

属于底部的信息

或者，您可以在zip文件夹中看到名为activity_labels的文件，其中包含您的列标题，请确保您仔细阅读了读书文件，其中包含一些很好的信息。您可以轻松地带来 .csv 使用R中的文件使用 read.csv 命令。

例如，如果您命名您文件 samsungdata 您可以打开R并运行此命令：

data <- read.csv("directory/where/file/is/located/samsungdata.csv", header = TRUE)

或者，如果您已经在R中的工作目录内部，则可以运行以下内容

data <- read.csv("samsungdata.csv", header = TRUE)

名字在哪里 data 可以更改为您想调用数据集的任何内容。

其他提示

看起来像这样（或非常相似的数据集）用于Coursera课程。清洁此数据集是获取和清洁数据, ，但也用于案例研究探索性数据分析. 。该案例研究的视频可在EDA课程软件第4周的视频中获得。它可能会帮助您从这些数据开始。

许可以下： CC-BY-SA 和归因

不隶属于 datascience.stackexchange