<< Spark 安装 Spark RDD >>

Spark 架构

Spark 遵循主从架构。它的集群由一个主节点和多个从节点组成。

Spark 架构依赖于两个抽象:

弹性分布式数据集(RDD) 有向无环图(DAG)

弹性分布式数据集(RDD)

弹性分布式数据集是一组可以存储在工作节点内存中的数据项。在这里，

弹性: 在失败时恢复数据。分布式: 数据分布在不同的节点上。数据集: 数据组。

稍后我们将详细了解 RDD。

有向无环图(DAG)

有向无环图是一种有限有向图对数据执行一系列计算。每个节点是一个 RDD 分区，边是数据之上的一个变换。在这里，图指的是导航，而有向图和非循环图指的是导航方式。

让我们了解 Spark 架构。

驱动程序

驱动程序是运行应用程序的 main() 函数并创建 SparkContext 的进程对象。 SparkContext 的目的是协调 Spark 应用程序，在集群上作为独立的进程集运行。

要在集群上运行，SparkContext连接到不同类型的集群管理器，然后执行以下任务:-

它在集群中的节点上获取执行程序。然后，它会将您的应用程序代码发送给执行程序。在这里，应用程序代码可以由传递给 SparkContext 的 JAR 或 Python 文件定义。最后，SparkContext 将任务发送给执行程序以运行。

集群管理器

集群管理器的作用是跨应用程序分配资源。 Spark 足以在大量集群上运行。它由各种类型的集群管理器组成，例如 Hadoop YARN、Apache Mesos 和 Standalone Scheduler。这里，独立调度程序是一个独立的 Spark 集群管理器，有助于在一组空机器上安装 Spark。

工作节点

worker节点是slave节点它的作用是在集群中运行应用程序代码。

执行者

执行程序是为工作节点上的应用程序启动的进程。它运行任务并将数据保存在内存或磁盘存储中。它将数据读写到外部源。每个应用程序都包含其执行程序。

任务

将发送给一个执行者的工作单元。

找工作要求35岁以下，35岁以上的程序员都干什么去了？

长久以来，一直有一个问题困扰着技术人——如何打破“程序员的35岁职业魔咒”，这一天迟早会到来，或早或晚。

或许是选错了行业，程序员薪水虽高，但光鲜的外表下，背后的苦衷只有自己知道。三十多岁本该是一个人事业的黄金期，但技术变化日新月异，行业竞争异常残酷，对一个企业来说，永远有比你更年轻、劳动成本更低的人可以选择，这让你的中年危机提前到来。破局的智慧可以看看这本书！>>

<< Spark 安装 Spark RDD >>

昵称：邮箱：