Talend 大数据
Open Studio with Big data 的标语是"使用领先的免费开源大数据 ETL 工具简化 ETL 和 ELT"。在本章中,让我们看看 Talend 作为大数据环境下处理数据的工具的使用。
简介
Talend Open Studio – Big Data 是一款免费的开源工具,可用于在大数据环境中轻松处理您的数据。您可以在 Talend Open Studio 中使用大量大数据组件,只需简单拖放几个 Hadoop 组件即可创建和运行 Hadoop 作业。
此外,我们不需要编写大行的 MapReduce 代码; Talend Open Studio Big data 可帮助您使用其中的组件来实现这一点。它会自动为您生成 MapReduce 代码,您只需拖放组件并配置几个参数即可。
它还为您提供了与 Cloudera、HortonWorks、MapR、Amazon EMR 甚至 Apache 等多个大数据发行版连接的选项。
大数据的 Talend 组件
包含在大数据下的大数据环境中运行作业的组件类别列表如下所示-
Talend Open Studio 中的大数据连接器和组件列表如下所示-
tHDFSConnection-用于连接到 HDFS(Hadoop 分布式文件系统)。
tHDFSInput-从给定的 hdfs 路径读取数据,将其放入 talend 模式,然后将其传递给作业中的下一个组件。
tHDFSList-检索给定 hdfs 路径中的所有文件和文件夹。
tHDFSPut-将文件/文件夹从本地文件系统(用户定义)复制到给定路径的 hdfs。
tHDFSGet-将文件/文件夹从 hdfs 复制到给定路径的本地文件系统(用户定义)。
tHDFSDelete-从 HDFS 中删除文件
tHDFSExist-检查文件是否存在于 HDFS 上。
tHDFSOutput-在 HDFS 上写入数据流。
tCassandraConnection-打开与 Cassandra 服务器的连接。
tCassandraRow-在指定的数据库上运行 CQL(Cassandra 查询语言)查询。
tHBaseConnection-打开与 HBase 数据库的连接。
tHBaseInput-从 HBase 数据库读取数据。
tHiveConnection-打开与 Hive 数据库的连接。
tHiveCreateTable-在 hive 数据库中创建一个表。
tHiveInput-从 hive 数据库读取数据。
tHiveLoad-将数据写入 hive 表或指定目录。
tHiveRow-在指定的数据库上运行 HiveQL 查询。
tPigLoad-将输入数据加载到输出流。
tPigMap-用于在猪进程中转换和路由数据。
tPigJoin-根据连接键执行 2 个文件的连接操作。
tPigCoGroup-对来自多个输入的数据进行分组和聚合。
tPigSort-根据一个或多个定义的排序键对给定数据进行排序。
tPigStoreResult-将猪操作的结果存储在定义的存储空间中。
tPigFilterRow-过滤指定的列,以便根据给定的条件拆分数据。
tPigDistinct-从关系中删除重复的元组。
tSqoopImport-将数据从 MySQL、Oracle DB 等关系数据库传输到 HDFS。
tSqoopExport-将数据从 HDFS 传输到 MySQL、Oracle DB 等关系数据库