如何开始进行大数据分析[关闭

https://stackoverflow.com/questions/4322559

29-09-2019
|

题

我一直是R的长期用户，最近开始与Python合作。使用常规的RDBMS系统进行数据仓库，并使用R/Python进行数字处理，我觉得现在有必要通过大数据分析使我的手变得肮脏。

我想知道如何开始大数据处理。 - 如何从地图/减少和使用Hadoop的使用中简单启动

我如何利用我在R和Python中的技能开始大数据分析。例如，使用Python Disco项目。
使用Rhipe软件包并查找玩具数据集和问题区域。
找到正确的信息，让我决定是否需要从RDBMS类型数据库移至NOSQL

总而言之，我想知道如何开始小规模并逐步建立我的技能和大型数据分析的专业知识。

感谢您的建议和建议。对于此查询的通用性，我深表歉意，但我希望对此主题获得更多的看法。

残酷的

解决方案

例如，使用Python Disco项目。

好的。玩那个。

使用Rhipe软件包并查找玩具数据集和问题区域。

美好的。也玩这个。

不要出汗寻找“大”数据集。即使是小数据集则存在非常有趣的问题。实际上，任何数据集都是起点。

我曾经建立了一场小型星际策略，以分析组织的6000万美元预算。源数据在电子表格中，本质上是难以理解的。因此，我将其卸载到星形架构中，并在Python中编写了几个分析程序，以创建相关数字的简化报告。

找到正确的信息，让我决定是否需要从RDBMS类型数据库移至NOSQL

这很简单。

首先，以数据仓库（Ralph Kimball的数据仓库工具包）获取一本书。

其次，仔细研究“星架” - 特别是金博尔解释的所有变体和特殊案例（深入）

第三，意识到以下内容：SQL用于更新和交易。

在进行“分析”处理（大或小）时，几乎没有任何更新。 SQL（和相关的归一化）不再重要。

Kimball的观点（以及其他）是，您的大多数数据仓库都不在SQL中，而是简单的平面文件。数据集市（用于临时，切片分析）可以在关系数据库中，以允许使用SQL轻松，灵活地处理。

因此，“决定”是微不足道的。如果是交易（“ OLTP”），则必须在关系中或OO DB中。如果是分析性（“ OLAP”），则不需要SQL，除了切片分析。即便如此，DB还是根据需要从官方文件中加载的。

其他提示

您可以考虑的一件事是dmelt（http://jwork.org/dmelt/）数据分析程序。一个值得注意的功能是，它使用Python语言和几本书具有数百个示例。我之所以使用它的原因是它在Windows 10上运行（因为它使用Java VM），此外，它在2D/3D中具有非常好的图形，可以导出到矢量图形格式。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow