Spark RDD

什么是 RDD？

RDD(弹性分布式数据集)是 Spark 的核心抽象。它是一组元素，跨集群的节点进行分区，以便我们可以在其上执行各种并行操作。

创建 RDD 有两种方法:

并行化驱动程序中的现有数据引用外部存储系统中的数据集，例如共享文件系统、HDFS、HBase 或任何提供 Hadoop InputFormat 的数据源。

要创建并行化集合，请在驱动程序中的现有集合上调用 SparkContext 的并行化方法。集合的每个元素都被复制以形成一个可以并行操作的分布式数据集。

val info = Array(1, 2, 3, 4)
val distinfo = sc.parallelize(info)

现在，我们可以并行操作分布式数据集(distinfo)，例如 distinfo.reduce((a, b) => a + b)。

在 Spark 中，分布式数据集可以从 Hadoop 支持的任何类型的存储源创建，例如 HDFS、Cassandra、HBase 甚至我们本地的文件系统。 Spark 提供对文本文件、SequenceFiles 和其他类型的 Hadoop InputFormat 的支持。

SparkContext 的 textFile 方法可以是用于创建 RDD 的文本文件。此方法获取文件的 URI(机器上的本地路径或 hdfs://)并读取文件的数据。

现在，我们可以通过数据集操作来操作数据，例如我们可以使用map和reduce操作将所有行的大小相加，如下所示: data.map(s => s .length).reduce((a, b) => a + b).

找工作要求35岁以下，35岁以上的程序员都干什么去了？

长久以来，一直有一个问题困扰着技术人——如何打破“程序员的35岁职业魔咒”，这一天迟早会到来，或早或晚。

昵称：邮箱：