HCatalog教程

HCatalog Reader Writer

HCatalog 包含用于并行输入和输出的数据传输 API,无需使用 MapReduce。此 API 使用表和行的基本存储抽象来从 Hadoop 集群读取数据并将数据写入其中。
Data Transfer API 主要包含三个类;那些是-
HCatReader-从 Hadoop 集群读取数据。 HCatWriter-将数据写入 Hadoop 集群。 DataTransferFactory-生成读取器和写入器实例。
该API适用于主从节点设置。让我们进一步讨论 HCatReaderHCatWriter

HCatReader

HCatReader 是 HCatalog 内部的抽象类,它从要检索记录的位置抽象出底层系统的复杂性。
方法名称和描述
Public abstract ReaderContext prepareRead() throws HCatException
这应该在主节点上调用以获得 ReaderContext,然后将其序列化并发送给从节点。
Public abstract Iterator <HCatRecorder> read() throws HCaException
这应该在从节点上调用以读取 HCatRecords。
Public Configuration getConf()
它将返回配置类对象。
HCatReader 类用于从 HDFS 读取数据。读取是一个两步过程,其中第一步发生在外部系统的主节点上。第二步在多个从节点上并行进行。
读取是在 ReadEntity 上完成的。在开始阅读之前,您需要定义一个要从中读取的 ReadEntity。这可以通过 ReadEntity.Builder 来完成。您可以指定数据库名称、表名称、分区和过滤器字符串。例如-
ReadEntity.Builder builder = new ReadEntity.Builder();
ReadEntity entity = builder.withDatabase("mydb").withTable("mytbl").build(); 10. 
上面的代码片段定义了一个 ReadEntity 对象("实体"),它包含一个名为 mydb 的数据库中名为 mytbl 的表,该表可用于读取所有此表的行。请注意,在此操作开始之前,此表必须存在于 HCatalog 中。
定义 ReadEntity 后,您使用 ReadEntity 和集群配置获取 HCatReader 实例-
HCatReader reader = DataTransferFactory.getHCatReader(entity, config);
下一步是从 reader 获取 ReaderContext,如下所示-
ReaderContext cntxt = reader.prepareRead();

HCatWriter

这个抽象是 HCatalog 内部的。这是为了方便从外部系统写入 HCatalog。不要尝试直接实例化它。而是使用 DataTransferFactory。
方法名称和描述
Public abstract WriterContext prepareRead() throws HCatException
外部系统应该从主节点调用该方法一次。它返回一个 WriterContext。这应该被序列化并发送到从节点以在那里构建 HCatWriter
Public abstract void write(Iterator<HCatRecord> recordItr) throws HCaException
这个方法应该在从节点上使用来执行写操作。 recordItr 是一个迭代器对象,包含要写入 HCatalog 的记录集合。
public abstract void abort(WriterContext cntxt) throws HCatException
这个方法应该在master节点调用。此方法的主要目的是在出现故障时进行清理。
public abstract void commit(WriterContext cntxt) throws HCatException
这个方法应该在master节点调用。这个方法的目的是做元数据提交。
与读类似,写也是两步过程,第一步发生在主节点上。随后,第二步在从节点上并行发生。
写入是在 WriteEntity 上完成的,它可以以类似于读取的方式构造-
WriteEntity.Builder builder = new WriteEntity.Builder();
WriteEntity entity = builder.withDatabase("mydb").withTable("mytbl").build();
上面的代码创建了一个WriteEntity对象 entity,可用于写入数据库 mydb中名为 mytbl的表。
创建 WriteEntity 后,下一步是获取 WriterContext-
HCatWriter writer = DataTransferFactory.getHCatWriter(entity, config);
WriterContext info = writer.prepareWrite();
以上所有步骤都发生在主节点上。主节点然后序列化 WriterContext 对象并使其对所有从节点可用。
在从节点上,您需要使用 WriterContext 获取一个 HCatWriter,如下所示-
HCatWriter writer = DataTransferFactory.getHCatWriter(context);
然后, writer 将迭代器作为 write 方法的参数-
writer.write(hCatRecordItr);
writer 然后在这个迭代器上循环调用 getNext() 并写出所有附加到迭代器的记录。
TestReaderWriter.java 文件用于测试 HCatreader 和 HCatWriter 类。以下程序演示了如何使用 HCatReader 和 HCatWriter API 从源文件读取数据,然后将其写入目标文件。
import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.ObjectInputStream;
import java.io.ObjectOutputStream;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.Iterator;
import java.util.List;
import java.util.Map;
import java.util.Map.Entry;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hive.metastore.api.MetaException;
import org.apache.hadoop.hive.ql.CommandNeedRetryException;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hive.HCatalog.common.HCatException;
import org.apache.hive.HCatalog.data.transfer.DataTransferFactory;
import org.apache.hive.HCatalog.data.transfer.HCatReader;
import org.apache.hive.HCatalog.data.transfer.HCatWriter;
import org.apache.hive.HCatalog.data.transfer.ReadEntity;
import org.apache.hive.HCatalog.data.transfer.ReaderContext;
import org.apache.hive.HCatalog.data.transfer.WriteEntity;
import org.apache.hive.HCatalog.data.transfer.WriterContext;
import org.apache.hive.HCatalog.mapreduce.HCatBaseTest;
import org.junit.Assert;
import org.junit.Test;
public class TestReaderWriter extends HCatBaseTest {
   @Test
   public void test() throws MetaException, CommandNeedRetryException,
      IOException, ClassNotFoundException {
    
      driver.run("drop table mytbl");
      driver.run("create table mytbl (a string, b int)");
    
      Iterator<Entry<String, String>> itr = hiveConf.iterator();
      Map<String, String> map = new HashMap<String, String>();
    
      while (itr.hasNext()) {
         Entry<String, String> kv = itr.next();
         map.put(kv.getKey(), kv.getValue());
      }
    
      WriterContext cntxt = runsInMaster(map);
      File writeCntxtFile = File.createTempFile("hcat-write", "temp");
      writeCntxtFile.deleteOnExit();
    
      // Serialize context.
      ObjectOutputStream oos = new ObjectOutputStream(new FileOutputStream(writeCntxtFile));
      oos.writeObject(cntxt);
      oos.flush();
      oos.close();
    
      // Now, deserialize it.
      ObjectInputStream ois = new ObjectInputStream(new FileInputStream(writeCntxtFile));
      cntxt = (WriterContext) ois.readObject();
      ois.close();
      runsInSlave(cntxt);
      commit(map, true, cntxt);
    
      ReaderContext readCntxt = runsInMaster(map, false);
      File readCntxtFile = File.createTempFile("hcat-read", "temp");
      readCntxtFile.deleteOnExit();
      oos = new ObjectOutputStream(new FileOutputStream(readCntxtFile));
      oos.writeObject(readCntxt);
      oos.flush();
      oos.close();
    
      ois = new ObjectInputStream(new FileInputStream(readCntxtFile));
      readCntxt = (ReaderContext) ois.readObject();
      ois.close();
    
      for (int i = 0; i < readCntxt.numSplits(); i++) {
         runsInSlave(readCntxt, i);
      }
   }
  
   private WriterContext runsInMaster(Map<String, String> config) throws HCatException {
      WriteEntity.Builder builder = new WriteEntity.Builder();
      WriteEntity entity = builder.withTable("mytbl").build();
    
      HCatWriter writer = DataTransferFactory.getHCatWriter(entity, config);
      WriterContext info = writer.prepareWrite();
      return info;
   }
  
   private ReaderContext runsInMaster(Map<String, String> config, 
      boolean bogus) throws HCatException {
      ReadEntity entity = new ReadEntity.Builder().withTable("mytbl").build();
      HCatReader reader = DataTransferFactory.getHCatReader(entity, config);
      ReaderContext cntxt = reader.prepareRead();
      return cntxt;
   }
  
   private void runsInSlave(ReaderContext cntxt, int slaveNum) throws HCatException {
      HCatReader reader = DataTransferFactory.getHCatReader(cntxt, slaveNum);
      Iterator<HCatRecord> itr = reader.read();
      int i = 1;
    
      while (itr.hasNext()) {
         HCatRecord read = itr.next();
         HCatRecord written = getRecord(i++);
      
         // Argh, HCatRecord doesnt implement equals()
         Assert.assertTrue("Read: " + read.get(0) + "Written: " + written.get(0),
         written.get(0).equals(read.get(0)));
      
         Assert.assertTrue("Read: " + read.get(1) + "Written: " + written.get(1),
         written.get(1).equals(read.get(1)));
      
         Assert.assertEquals(2, read.size());
      }
    
      //Assert.assertFalse(itr.hasNext());
   }
  
   private void runsInSlave(WriterContext context) throws HCatException {
      HCatWriter writer = DataTransferFactory.getHCatWriter(context);
      writer.write(new HCatRecordItr());
   }
  
   private void commit(Map<String, String> config, boolean status,
      WriterContext context) throws IOException {
      WriteEntity.Builder builder = new WriteEntity.Builder();
      WriteEntity entity = builder.withTable("mytbl").build();
      HCatWriter writer = DataTransferFactory.getHCatWriter(entity, config);
    
      if (status) {
         writer.commit(context);
      } else {
         writer.abort(context);
      }
   }
  
   private static HCatRecord getRecord(int i) {
      List<Object> list = new ArrayList<Object>(2);
      list.add("Row #: " + i);
      list.add(i);
      return new DefaultHCatRecord(list);
   }
  
   private static class HCatRecordItr implements Iterator<HCatRecord> {
      int i = 0;
    
      @Override
      public boolean hasNext() {
         return i++ < 100 ? true : false;
      }
    
      @Override
      public HCatRecord next() {
         return getRecord(i);
      }
    
      @Override
      public void remove() {
         throw new RuntimeException();
      }
   }
}
上述程序以记录的形式从HDFS中读取数据,并将记录数据写入 mytable
昵称: 邮箱:
Copyright © 2022 立地货 All Rights Reserved.
备案号:京ICP备14037608号-4