Apache Hudi索引实现分析（二）之HoodieGlobalBloomIndex

1. 介绍

前面分析了Hudi默认的索引实现HoodieBloomIndex，其是基于分区记录所在文件，即分区路径+recordKey唯一即可，Hudi还提供了HoodieGlobalBloomIndex的实现，即全局索引实现，只需要recordKey唯一即可，下面分析其实现。

2. 分析

HoodieGlobalBloomIndex是HoodieBloomIndex的子类，其主要重写了父类的如下几个方法

对于加载分区下所有最新文件而言， loadInvolvedFiles 核心代码如下

首先会获取所有的分区路径，然后调用父类方法获取分区下最新数据文件。

对于查找记录对应的文件而言， explodeRecordRDDWithFileComparisons 核心代码如下

可以看到和 HoodieBloomIndex#explodeRecordRDDWithFileComparisons 处理逻辑类似，在使用索引过滤器获取所有匹配的文件和分区路径时，此时比较的是所有分区下的文件，不再是指定的分区路径。

对于将位置信息推回至原始记录而言， tagLocationBacktoRecords 核心代码如下

其处理逻辑与父类处理逻辑相同，也是使用一次左外连接将位置信息推回至原始记录。

3. 总结

对于 HoodieGlobalBloomIndex 而言，其是全局的索引，即会在所有分区内查找指定的recordKey，而非像 HoodieBloomIndex 只在指定的分区内查找，同时在加载分区下所有最新文件时，其会首先获取所有分区，然后再获取所有分区下的最新文件，而非使用从原始记录中解析出来的分区路径。

eiuIjey.png!web

BFFbMbf.jpg!web

jM3Mvie.jpg!web

1. 介绍

2. 分析

3. 总结

Recommend

折叠屏手机又被骂惨了，为什么卖得贵还做不好？

以太坊的经济带宽论：ETH的亿万美元市场

观察+ | 节流和开源如何两手抓？一个连续创业者的万字“战疫”攻略

新潮传媒宣布减员500人开启全员营销

字节跳动面试官：请说一下vuex工作原理（重点就几行代码而已啦）

杨元庆内部信：要做好打大仗的准备我们为谁而战？

导出功能怎么设计？我有一个小做法

三大运营商可以查询最近一个月你去过哪里， CXMYD

How Logz Helps Snyk with Open Source Security

200210-SpringBoot系列教程之RabbitMq初体验

About Joyk