ApacheHudi使用问题汇总（一）

1.如何写入Hudi数据集

通常，你会从源获取部分更新/插入，然后对Hudi数据集执行写入操作。如果从其他标准来源（如Kafka或tailf DFS）中提取数据，那么DeltaStreamer将会非常有用，其提供了一种简单的自我管理解决方案，可将数据写入Hudi。你还可以自己编写代码，使用Spark数据源API从自定义源获取数据，并使用Hudi数据源写入Hudi。

2. 如何部署Hudi作业

写入Hudi的好处是它可以像在YARN/Mesos甚至是K8S群集上运行的任何其他Spark作业一样运行。只需使用Spark UI即可查看写入操作，而无需单独搭建Hudi集群。

3. 如何查询刚写入的Hudi数据集

除非启用了Hive同步，否则与其他任何源一样，通过上述方法写入Hudi的数据集可以简单地通过Spark数据源进行查询。

请注意：当前不支持从Spark数据源读取实时视图。请使用下面的Hive路径。

如果在deltastreamer工具或数据源中启用了Hive Sync，则该数据集会同步到Hive的几张表中，可以使用HiveQL，Presto或SparkSQL进行读取。点击这里查看更多。

4. Hudi如何处理输入中的重复记录

在数据集上执行 upsert 操作时，提供的记录包含给定键的多条记录，然后通过重复调用有效负载类的 preCombine 方法将所有记录合并为一个最终值。默认情况下会选择最大值的记录（由 compareTo 决定）。

对于 insert 或 bulk_insert 操作，不执行 preCombine 。因此，如果你的输入包含重复项，则数据集也将包含重复项。如果您不希望重复的记录，请使用upsert或在数据源或deltastreamer中指定删除重复数据的配置项。

5. 可以实现自定义合并逻辑处理输入记录和存储的记录吗

与上面类似，定义有效负载类定义的方法（combineAndGetUpdateValue()，getInsertValue()），这些方法控制如何将存储的记录与输入的更新/插入组合以生成最终值以写回到存储中。

6. 如何删除数据集中的记录

GDPR使删除成为数据管理工具箱中的必备工具。Hudi支持软删除和硬删除。有关如何实际执行它们，请参见此处。

7. 如何将数据迁移到Hudi

Hudi对迁移提供了内置支持，可使用 hudi-cli 提供的 HDFSParquetImporter 工具将整个数据集一次性写入Hudi。也可以使用Spark数据源API读取和写入数据集。迁移后，可以使用此处讨论的常规方法执行写操作。这里也详细讨论该问题，包括部分迁移的方法。

8. 如何将Hudi配置传递给Spark作业

这里涵盖了数据源和Hudi写入客户端（deltastreamer和数据源都会内部调用）的配置项。在DeltaStreamer之类的工具上调用 --help 都会打印所有使用选项。许多控制 upsert 、调整文件大小的选项是在客户端级别定义的，下面是将它们传递给可用于写数据配置项的方式。

1). 对于Spark DataSource，可以使用DataFrameWriter的 options API来传递这些配置项。

2). 直接使用HoodieWriteClient时，只需使用配置来构造HoodieWriteConfig对象。

3). 使用HoodieDeltaStreamer工具提取时，可以在属性文件中设置配置项，并将该文件作为命令行参数 --props 传递。

9. 可以在Apache Hive Metastore中注册Hudi数据集吗

可以，可以通过独立的Hive Sync工具或使用deltastreamer工具或数据源中的选项来执行此操作。

10. Hudi索引的工作原理及其好处是什么

索引是Hudi写入的关键部分，它始终将给定的 recordKey 映射到Hudi内部的文件组（ FileGroup ）。这样可以更快地识别受给定写入操作影响的文件组。

Hudi支持以下几种索引配置

HoodieBloomIndex（默认）：使用bloom过滤器和范围信息，并在parquet/基础文件（不久后的日志文件也支持）的页脚中放置该信息。
HoodieGlobalBloomIndex：默认索引仅在单个分区内强制执行键的唯一性，即要求用户知道存储给定记录键的分区。这可以帮助非常大的数据集很好地建立索引。但是，在某些情况下，可能需要在所有分区上执行重复数据删除/强制唯一性操作，这就需要全局索引。如果使用此选项，则将传入记录与整个数据集中的文件进行比较，并确保仅在一个分区中存在 recordKey 。
HBaseIndex：Apache HBase是一个键值存储，可以将索引存储在HBase内，如果已经在使用HBase，这将会非常方便。

也可以自定义索引，需要实现HoodieIndex类并在配置中配置索引类名称。

欢迎Star&Fork. https://github.com/apache/incubator-hudi

eiuIjey.png!web

BFFbMbf.jpg!web

1.如何写入Hudi数据集

2. 如何部署Hudi作业

3. 如何查询刚写入的Hudi数据集

4. Hudi如何处理输入中的重复记录

5. 可以实现自定义合并逻辑处理输入记录和存储的记录吗

6. 如何删除数据集中的记录

7. 如何将数据迁移到Hudi

8. 如何将Hudi配置传递给Spark作业

9. 可以在Apache Hive Metastore中注册Hudi数据集吗

10. Hudi索引的工作原理及其好处是什么

Recommend

Hudi问题|Apache Hudi使用问题汇总（二）

敏捷却迟到！项目延迟六大原因，该如何避免？

盘点迄今为止 AI 最具影响力人物

【惊】为何人人都说.Net Core 3.1，这匹黑马，2020年值得所有程序员重视！

从零开始入门 K8s：etcd 性能优化实践

Design Flaws in Futhark

【技术圈】谷歌新提案：可在脱机状态实现内容分发、大四学生开源文言文编程语言，star...

从“柳传志的女儿”到“柳青的父亲”

深交所向暴风集团下发关注函：说明“风行网已收购暴风 TV“是否属实

青松基金完成3亿“智慧基金”募资聚焦科技，已启动“四期基金”，募资目标10亿

About Joyk