Spark教程

Spark 字数统计示例

Spark 字数统计示例

在 Spark 字数统计示例中,我们找出每个单词出现在特定文件中的频率。在这里,我们使用 Scala 语言来执行 Spark 操作。

Spark 单词计数示例的执行步骤

在这个示例中,我们查找并显示每个单词的出现次数。
在您的本地机器上创建一个文本文件并在其中写入一些文本。
     
$ nano sparkdata.txt 
Spark 字数统计示例 检查 sparkdata.txt 文件中写入的文本。
     
$ cat sparkdata.txt
Spark 字数统计示例 在 HDFS 中创建一个目录,用于保存文本文件。
     
$ hdfs dfs-mkdir /spark
上传HDFS上指定目录下的sparkdata.txt文件。
     
$ hdfs dfs-put /home/codegyani/sparkdata.txt /spark
Spark 字数统计示例 现在,按照以下命令在 Scala 模式下打开 spark。
     
$ spark-shell
Spark 字数统计示例 让我们使用以下命令创建一个 RDD。
     
scala> val data=sc.textFile("sparkdata.txt")
在这里,传递包含数据的任何文件名。
现在,我们可以使用以下命令读取生成的结果。
     
scala> data.collect;
Spark 字数统计示例 在这里,我们使用以下命令以单个单词的形式拆分现有数据。
     
scala> val splitdata = data.flatMap(line => line.split(" "));
现在,我们可以使用以下命令读取生成的结果。
     
scala> splitdata.collect;
Spark 字数统计示例 现在,执行地图操作。
     
scala> val mapdata = splitdata.map(word => (word,1));
在这里,我们为每个单词分配一个值 1、
现在,我们可以使用以下命令读取生成的结果。
     
scala> mapdata.collect;
Spark 字数统计示例 现在,执行reduce操作
     
scala> val reducedata = mapdata.reduceByKey(_+_);
这里,我们总结了生成的数据。
现在,我们可以使用以下命令读取生成的结果。
     
scala> reducedata.collect;
Spark Word Count Example
在这里,我们得到了想要的输出。
昵称: 邮箱:
Copyright © 2022 立地货 All Rights Reserved.
备案号:京ICP备14037608号-4