Tajo教程

Tajo 架构

下图描述了 Apache Tajo 的架构。
Architecture
下表详细描述了每个组件。
组件和描述
Client
Client 将 SQL 语句提交给 Tajo Master 得到结果。
Master
Master 是主守护进程。它负责查询规划,是工人的协调员。
Catalog server
维护表和索引描述。它嵌入在主守护进程中。目录服务器使用 Apache Derby 作为存储层,通过 JDBC 客户端连接。
Worker
主节点将任务分配给工作节点。 TajoWorker 处理数据。随着 TajoWorker 数量的增加,处理能力也呈线性增长。
Query Master
Tajo Master 将查询分配给 Query Master。 Query Master 负责控制分布式执行计划。它启动 TaskRunner 并将任务安排到 TaskRunner。 Query Master的主要作用是监控正在运行的任务,并上报给Master节点。
Node Managers
管理工作节点的资源。它决定向节点分配请求。
TaskRunner
充当本地查询执行引擎。它用于运行和监控查询过程。 TaskRunner 一次处理一个任务。
它具有以下三个主要属性-
逻辑计划-创建任务的执行块。 片段-输入路径、偏移范围和架构。 获取 URI
Query Executor
用于执行查询。
Storage service
将底层数据存储连接到 Tajo。

工作流程

Tajo 使用 Hadoop 分布式文件系统 (HDFS) 作为存储层,并拥有自己的查询执行引擎而不是 MapReduce 框架。一个 Tajo 集群由一个主节点和多个跨集群节点的工作节点组成。
master 主要负责查询计划和 worker 的协调器。 master 将查询分成小任务并分配给 worker。每个 worker 都有一个本地查询引擎,用于执行物理运算符的有向无环图。
此外,Tajo 可以比 MapReduce 更灵活地控制分布式数据流,并支持索引技术。
Tajo 基于 Web 的界面具有以下功能-
用于查找已提交查询的计划方式的选项 用于查找查询如何跨节点分布的选项 用于检查集群和节点状态的选项
昵称: 邮箱:
Copyright © 2022 立地货 All Rights Reserved.
备案号:京ICP备14037608号-4