Talend教程

Talend 大数据

Open Studio with Big data 的标语是"使用领先的免费开源大数据 ETL 工具简化 ETL 和 ELT"。在本章中，让我们看看 Talend 作为大数据环境下处理数据的工具的使用。

简介

Talend Open Studio – Big Data 是一款免费的开源工具，可用于在大数据环境中轻松处理您的数据。您可以在 Talend Open Studio 中使用大量大数据组件，只需简单拖放几个 Hadoop 组件即可创建和运行 Hadoop 作业。

此外，我们不需要编写大行的 MapReduce 代码； Talend Open Studio Big data 可帮助您使用其中的组件来实现这一点。它会自动为您生成 MapReduce 代码，您只需拖放组件并配置几个参数即可。

它还为您提供了与 Cloudera、HortonWorks、MapR、Amazon EMR 甚至 Apache 等多个大数据发行版连接的选项。

大数据的 Talend 组件

包含在大数据下的大数据环境中运行作业的组件类别列表如下所示-

Talend Open Studio 中的大数据连接器和组件列表如下所示-

tHDFSConnection-用于连接到 HDFS（Hadoop 分布式文件系统）。 tHDFSInput-从给定的 hdfs 路径读取数据，将其放入 talend 模式，然后将其传递给作业中的下一个组件。 tHDFSList-检索给定 hdfs 路径中的所有文件和文件夹。 tHDFSPut-将文件/文件夹从本地文件系统（用户定义）复制到给定路径的 hdfs。 tHDFSGet-将文件/文件夹从 hdfs 复制到给定路径的本地文件系统（用户定义）。 tHDFSDelete-从 HDFS 中删除文件 tHDFSExist-检查文件是否存在于 HDFS 上。 tHDFSOutput-在 HDFS 上写入数据流。 tCassandraConnection-打开与 Cassandra 服务器的连接。 tCassandraRow-在指定的数据库上运行 CQL（Cassandra 查询语言）查询。 tHBaseConnection-打开与 HBase 数据库的连接。 tHBaseInput-从 HBase 数据库读取数据。 tHiveConnection-打开与 Hive 数据库的连接。 tHiveCreateTable-在 hive 数据库中创建一个表。 tHiveInput-从 hive 数据库读取数据。 tHiveLoad-将数据写入 hive 表或指定目录。 tHiveRow-在指定的数据库上运行 HiveQL 查询。 tPigLoad-将输入数据加载到输出流。 tPigMap-用于在猪进程中转换和路由数据。 tPigJoin-根据连接键执行 2 个文件的连接操作。 tPigCoGroup-对来自多个输入的数据进行分组和聚合。 tPigSort-根据一个或多个定义的排序键对给定数据进行排序。 tPigStoreResult-将猪操作的结果存储在定义的存储空间中。 tPigFilterRow-过滤指定的列，以便根据给定的条件拆分数据。 tPigDistinct-从关系中删除重复的元组。 tSqoopImport-将数据从 MySQL、Oracle DB 等关系数据库传输到 HDFS。 tSqoopExport-将数据从 HDFS 传输到 MySQL、Oracle DB 等关系数据库

找工作要求35岁以下，35岁以上的程序员都干什么去了？

长久以来，一直有一个问题困扰着技术人——如何打破“程序员的35岁职业魔咒”，这一天迟早会到来，或早或晚。

或许是选错了行业，程序员薪水虽高，但光鲜的外表下，背后的苦衷只有自己知道。三十多岁本该是一个人事业的黄金期，但技术变化日新月异，行业竞争异常残酷，对一个企业来说，永远有比你更年轻、劳动成本更低的人可以选择，这让你的中年危机提前到来。破局的智慧可以看看这本书！>>

<< Talend 处理作业执行 Talend 分布式文件系统 >>

昵称：邮箱：