Tajo 架构

下图描述了 Apache Tajo 的架构。

下表详细描述了每个组件。

组件和描述

Client

Client 将 SQL 语句提交给 Tajo Master 得到结果。

Master

Master 是主守护进程。它负责查询规划，是工人的协调员。

Catalog server

维护表和索引描述。它嵌入在主守护进程中。目录服务器使用 Apache Derby 作为存储层，通过 JDBC 客户端连接。

Worker

主节点将任务分配给工作节点。 TajoWorker 处理数据。随着 TajoWorker 数量的增加，处理能力也呈线性增长。

Query Master

Tajo Master 将查询分配给 Query Master。 Query Master 负责控制分布式执行计划。它启动 TaskRunner 并将任务安排到 TaskRunner。 Query Master的主要作用是监控正在运行的任务，并上报给Master节点。

Node Managers

管理工作节点的资源。它决定向节点分配请求。

TaskRunner

充当本地查询执行引擎。它用于运行和监控查询过程。 TaskRunner 一次处理一个任务。

它具有以下三个主要属性-

逻辑计划-创建任务的执行块。片段-输入路径、偏移范围和架构。获取 URI

Query Executor

用于执行查询。

Storage service

将底层数据存储连接到 Tajo。

工作流程

Tajo 使用 Hadoop 分布式文件系统 (HDFS) 作为存储层，并拥有自己的查询执行引擎而不是 MapReduce 框架。一个 Tajo 集群由一个主节点和多个跨集群节点的工作节点组成。

master 主要负责查询计划和 worker 的协调器。 master 将查询分成小任务并分配给 worker。每个 worker 都有一个本地查询引擎，用于执行物理运算符的有向无环图。

此外，Tajo 可以比 MapReduce 更灵活地控制分布式数据流，并支持索引技术。

Tajo 基于 Web 的界面具有以下功能-

用于查找已提交查询的计划方式的选项用于查找查询如何跨节点分布的选项用于检查集群和节点状态的选项

找工作要求35岁以下，35岁以上的程序员都干什么去了？

长久以来，一直有一个问题困扰着技术人——如何打破“程序员的35岁职业魔咒”，这一天迟早会到来，或早或晚。

昵称：邮箱：