Data Analytics教程

数据分析 生命周期

传统数据挖掘生命周期

为了提供一个框架来组织组织所需的工作并从大数据中提供清晰的见解,将其视为具有不同阶段的循环很有用。它绝不是线性的,这意味着所有阶段都相互关联。这个循环与 CRISP 方法 中描述的更传统的数据挖掘循环有表面上的相似之处。

CRISP-DM 方法

CRISP-DM 方法代表数据挖掘的跨行业标准流程,是一个循环,描述了数据挖掘专家用来解决传统 BI 数据挖掘问题的常用方法。它仍在传统 BI 数据挖掘团队中使用。
请看下图。它显示了 CRISP-DM 方法所描述的周期的主要阶段以及它们之间的相互关系。
生命周期
CRISP-DM 于 1996 年构思,次年,它作为 ESPRIT 资助计划下的一个欧盟项目开始实施。该项目由五家公司牵头:SPSS、Teradata、戴姆勒股份公司、NCR Corporation 和 OHRA(一家保险公司)。该项目最终被并入SPSS。该方法论针对如何指定数据挖掘项目非常详细。
现在让我们更多地了解 CRISP-DM 生命周期中涉及的每个阶段-
业务理解-此初始阶段侧重于从业务角度理解项目目标和要求,然后将这些知识转化为数据挖掘问题定义。初步计划旨在实现目标。可以使用决策模型,尤其是使用决策模型和符号标准构建的模型。 数据理解-数据理解阶段从初始数据收集开始,然后进行活动以熟悉数据,识别数据质量问题,发现对数据的初步见解,或检测有趣的子集以形成隐藏信息的假设。 数据准备-数据准备阶段涵盖了从初始原始数据构建最终数据集(将输入建模工具的数据)的所有活动。数据准备任务可能会执行多次,并且没有任何规定的顺序。任务包括表、记录和属性选择以及建模工具的数据转换和清理。 建模-在此阶段,选择并应用各种建模技术,并将其参数校准为最佳值。通常,对于相同的数据挖掘问题类型有多种技术。一些技术对数据的形式有特定的要求。因此,往往需要退回到数据准备阶段。 评估-在项目的这个阶段,从数据分析的角度来看,您已经构建了一个看起来高质量的模型(或多个模型)。在进行模型的最终部署之前,重要的是要彻底评估模型并审查构建模型所执行的步骤,以确保其正确实现业务目标。
一个关键目标是确定如果存在一些尚未充分考虑的重要业务问题。在此阶段结束时,应就数据挖掘结果的使用做出决定。
部署-模型的创建通常不是项目的结束。即使模型的目的是增加对数据的了解,也需要以对客户有用的方式组织和呈现所获得的知识。
根据需求,部署阶段可以像生成报告一样简单,也可以像实施可重复的数据评分(例如段分配)或数据挖掘过程一样复杂。
在许多情况下,执行部署步骤的是客户,而不是数据分析师。即使分析师部署了模型,客户也必须事先了解需要执行的操作才能实际使用创建的模型。

SEMMA 方法论

SEMMA 是另一种由 SAS 开发的数据挖掘建模方法。它代表 Sample、 Explore、 Modify、 Model 和 A sses。以下是其阶段的简要说明-
Sample-该过程从数据采样开始,例如,选择用于建模的数据集。数据集应该足够大以包含足够的信息来检索,但又要足够小以有效使用。此阶段还处理数据分区。 探索-此阶段包括在数据可视化的帮助下,通过发现变量之间的预期和意外关系以及异常情况来理解数据。 Modify-修改阶段包含选择、创建和转换变量的方法,为数据建模做准备。 模型-在模型阶段,重点是对准备好的变量应用各种建模(数据挖掘)技术,以创建可能提供所需结果的模型。 评估-建模结果的评估显示了所创建模型的可靠性和有用性。
CRISM-DM 和 SEMMA 的主要区别在于 SEMMA 侧重于建模方面,而 CRISP-DM 更重视建模之前的周期阶段,例如了解要解决的业务问题、理解和预处理用作输入的数据,例如机器学习算法。

大数据生命周期

在当今的大数据环境中,以前的方法要么不完整,要么不理想。例如,SEMMA 方法完全忽略了不同数据源的数据收集和预处理。这些阶段通常构成成功的大数据项目的大部分工作。
大数据分析周期可以通过以下阶段来描述-
业务问题定义 研究 人力资源评估 数据采集 数据处理 数据存储 探索性数据分析 为建模和评估准备数据 建模 实施
在本节中,我们将介绍大数据生命周期的每个阶段。

业务问题定义

这是传统 BI 和大数据分析生命周期中的常见问题。通常,定义问题并正确评估它可能为组织带来多少潜在收益是大数据项目的一个重要阶段。提到这一点似乎很明显,但必须评估项目的预期收益和成本。

研究

分析其他公司在相同情况下的做法。这涉及寻找对贵公司合理的解决方案,即使它涉及调整其他解决方案以适应贵公司拥有的资源和要求。在这个阶段,应该定义未来阶段的方法论。

人力资源评估

一旦问题被定义,继续分析当前员工是否能够成功完成项目是合理的。传统的 BI 团队可能无法提供所有阶段的最佳解决方案,因此如果需要将项目的一部分外包或雇用更多人员,则应在开始项目之前考虑。

数据采集

这部分是大数据生命周期的关键;它定义了交付结果数据产品需要哪种类型的配置文件。数据收集是该过程的重要步骤;它通常涉及从不同来源收集非结构化数据。举个例子,它可能涉及编写一个爬虫来从网站检索评论。这涉及处理文本,可能是不同语言的文本,通常需要大量时间才能完成。

数据处理

一旦数据被检索到,例如,从网络上,它需要以易于使用的格式存储。为了继续评论示例,我们假设数据是从不同的站点检索的,每个站点都有不同的数据显示。
假设一个数据源根据星级评分给出评论,因此可以将其理解为响应变量 y ∈ {1, 2, 3, 4, 5}的映射.另一个数据源使用两个箭头系统给出评论,一个用于向上投票,另一个用于向下投票。这将意味着 y ∈ {positive,negative} 形式的响应变量。
为了结合两个数据源,必须做出决定以使这两个响应表示等效。这可能涉及将第一个数据源响应表示转换为第二个形式,将一颗星视为负数,将五颗星视为正数。这个过程通常需要大量的时间分配才能高质量地交付。

数据存储

一旦数据被处理,它有时需要存储在数据库中。大数据技术在这一点上提供了大量替代方案。最常见的替代方法是使用 Hadoop 文件系统进行存储,它为用户提供有限版本的 SQL,称为 HIVE 查询语言你的年龄。从用户的角度来看,这允许大多数分析任务以与在传统 BI 数据仓库中完成的方式类似的方式完成。其他需要考虑的存储选项是 MongoDB、Redis 和 SPARK。
周期的这个阶段与人力资源知识在实施不同架构的能力方面有关。传统数据仓库的修改版本仍在大规模应用中使用。例如,teradata 和 IBM 提供可以处理 TB 级数据的 SQL 数据库;诸如 postgreSQL 和 MySQL 等开源解决方案仍在用于大规模应用。
尽管不同存储在后台的工作方式存在差异,但从客户端来看,大多数解决方案都提供了 SQL API。因此,对 SQL 有很好的理解仍然是大数据分析的关键技能。
这个阶段 priori 似乎是最重要的话题,但实际上并非如此。它甚至不是必不可少的阶段。可以实现一个处理实时数据的大数据解决方案,所以在这种情况下,我们只需要收集数据来开发模型,然后实时实现它。所以根本不需要正式存储数据。

探索性数据分析

一旦数据以可以从中检索洞察力的方式进行清理和存储,就必须进入数据探索阶段。这个阶段的目标是理解数据,这通常是通过统计技术完成的,也可以绘制数据。这是评估问题定义是否有意义或可行的好阶段。

建模和评估的数据准备

此阶段涉及对先前检索到的清理数据进行整形,并使用统计预处理进行缺失值插补、异常值检测、归一化、特征提取和特征选择。

建模

前一阶段应该已经生成了多个用于训练和测试的数据集,例如预测模型。这个阶段涉及尝试不同的模型并期待解决手头的业务问题。在实践中,通常希望模型能够提供对业务的一些洞察。最后,选择最佳模型或模型组合来评估其在遗漏数据集上的性能。

实施

在这个阶段,开发的数据产品在公司的数据管道中实施。这涉及在数据产品工作时设置验证方案,以跟踪其性能。例如,在实施预测模型的情况下,此阶段将涉及将模型应用于新数据,并在响应可用后评估模型。
昵称: 邮箱:
Copyright © 2022 立地货 All Rights Reserved.
备案号:京ICP备14037608号-4