Spark教程

Spark 教程

Apache Spark 教程

Apache Spark教程
Apache Spark 教程提供了 Spark 的基本和高级概念。我们的 Spark 教程专为初学者和专业人士设计。
Spark 是用于大规模数据处理的统一分析引擎,包括用于 SQL、流、机器学习和图形处理的内置模块。
我们的 Spark 教程包括 Apache Spark 的所有主题,包括 Spark 介绍、Spark 安装、Spark 架构、Spark 组件、RDD、Spark 实时示例等。

什么是 Spark?

Apache Spark 是一个开源集群计算框架。它的主要目的是处理实时生成的数据。
Spark 建立在 Hadoop MapReduce 之上。它被优化为在内存中运行,而像 Hadoop 的 MapReduce 这样的替代方法可以将数据写入计算机硬盘驱动器或从计算机硬盘驱动器写入数据。因此,Spark 处理数据的速度比其他替代方案快得多。

Apache Spark 的历史

Spark 是由 Matei Zaharia 在 2009 年在加州大学伯克利分校的 AMPLab 发起的。它于 2010 年在 BSD 许可下开源。
2013 年,该项目被 Apache 软件基金会收购。 2014 年,Spark 成为顶级 Apache 项目。

Apache Spark 的特性

快速-它使用最先进的 DAG 调度程序、查询优化程序和物理执行引擎,为批处理和流数据提供高性能。 易于使用-它有助于使用 Java、Scala、Python、R 和 SQL 编写应用程序。它还提供了 80 多个高级运算符。 通用性-它提供了一系列库,包括 SQL 和 DataFrames、用于机器学习的 MLlib、GraphX 和 Spark Streaming。 轻量级-它是一个轻量级的统一分析引擎,用于大规模数据处理。 随处运行-它可以轻松地在 Hadoop、Apache Mesos、Kubernetes、独立或在云中。

Spark 的使用

数据集成: 系统生成的数据不够一致,无法合并进行分析。为了从系统中获取一致的数据,我们可以使用诸如提取、转换和加载(ETL) 之类的过程。 Spark 用于减少此 ETL 过程所需的成本和时间。 流处理: 处理实时生成的数据(例如日志文件)总是很困难。 Spark 有足够的能力来操作数据流并拒绝潜在的欺诈操作。 机器学习: 由于数据量的增加,机器学习方法变得更加可行和准确。由于 Spark 能够将数据存储在内存中,并且可以快速运行重复查询,因此可以轻松处理机器学习算法。 交互式分析: Spark 能够快速生成响应。因此,我们可以以交互方式处理数据,而不是运行预定义的查询。
昵称: 邮箱:
Copyright © 2022 立地货 All Rights Reserved.
备案号:京ICP备14037608号-4