详解 HBase 的架构和基本原理

创作时间:

作者:

@小白创作中心

详解 HBase 的架构和基本原理

引用

CSDN

https://m.blog.csdn.net/weixin_44480009/article/details/139740454

一、基本架构

StoreFile：保存实际数据的物理文件，StoreFile 以 HFile 的格式（键值对）存储在 HDFS 上。每个 Store 会有一个或多个 StoreFile（HFile），数据在每个 StoreFile 中都是有序的。
MemStore：写缓存，由于 HFile 中的数据要求是有序的，所以数据是先存储在 MemStore 中，排好序后，等到达刷写时机才会刷写到 HFile，每次刷写都会形成一个新的 HFile。
WAL（Write-Ahead Log）：由于数据要经 MemStore 排序后才能刷写到 HFile，但把数据保存在内存中会有很高的概率导致数据丢失，为了解决这个问题，数据会先写在一个叫做 Write-Ahead logfile 的文件中，然后再写入 MemStore 中。所以在系统出现故障的时候，数据可以通过这个日志文件重建。

二、写流程原理

HBase 的读操作比写操作慢，且读写流程没有 master 参与。

老版本：Zookeeper 中存储的是

-root- 表的位置信息
-root- 表存储的 meta 表的位置信息（防止 meta 表进行切分）

Client 先访问 Zookeeper，获取 hbase:meta 表位于哪个 Region Server
访问对应的 Region Server，获取 hbase:meta 表数据，根据写请求的 namespace:table/rowkey 信息查询出目标数据位于哪个 Region Server 中的哪个 Region 中，并将该 table 的 region 信息以及 meta 表的位置信息缓存在客户端的 meta cache，方便下次快速访问
与目标表所在的 Region Server 进行通讯
将写请求命令顺序写入（追加）到内存的 WAL，此时 wal 没有同步到 HDFS
将数据写入对应的 MemStore，数据会在 MemStore 进行排序
同步 wal 到 HDFS，若失败则回滚清空 MemStore 写入的数据
向客户端发送 ack，此时的写请求已经完成
等达到 MemStore 的刷写时机后，将数据刷写到 HFile

三、MemStore Flush

MemStore Flush：刷写，将 Region 中存储在内存中的数据刷写到 HDFS 的磁盘中
Flush 时机：
RegionServer 级别：
当 RegionServer 中 memstore 的总大小达到 javaHeapSize × hbase.regionserver.global.memstore.size(默认 0.4) × hbase.regionserver.global.memstore.size.lower.limit(默认 0.95) 时，所有 region 会按照其所有 memstore 的大小顺序（由大到小）依次进行刷写。直到 RegionServer 中所有 memstore 的总大小减小到上述值以下；当 RegionServer 中 memstore 的总大小达到 javaHeapsize × hbase.regionserver.global.memstore.size 时，会停止继续往所有的 memstore 写数据操作
当 memstore 中最后一条数据的写入时间达到 hbase.regionserver.optionalcacheflushinterval(默认 1h) 的值时，触发 memstore flush
当 WAL 文件的数量超过 hbase.regionserver.max.logs，region 会按照时间顺序依次进行刷写，直到 WAL 文件数量减小到 hbase.regionserver.max.log 以下（该属性名已经废弃，现无需手动设置，最大值为 32），该参数用于防止生产上内存配置过大导致刷写时数据积累过大
Region 级别：
当某个 region 的 memstore 的大小达到了 hbase.hregion.memstore.flush.size(默认 128M) 时，这个 region 的所有 memstore 都会刷写
当某个 region 的 memstore 的大小达到了 hbase.hregion.memstore.flush.size(默认 128M) × hbase.hregion.memstore.block.multiplier(默认 4) 时，会停止继续往该 memstore 写数据

四、读流程原理

Client 先访问 Zookeeper，获取 hbase:meta 表位于哪个 Region Server
访问对应的 Region Server，获取 hbase:meta 表，根据读请求的 namespace:table/rowkey 信息查询出目标数据位于哪个 Region Server 中的哪个 Region 中，并将该 table 的 region 信息以及 meta 表的位置信息缓存在客户端的 meta cache，方便下次访问
与目标 Region Server 进行通讯
分别在 BlockCache（读缓存）、MemStore 和 StoreFile（HFile）中查询目标数据，并将查到的所有数据进行合并（merge）。此处所有数据是指同一条数据的不同版本（timestamp）或者不同的类型（Put/Delete）
将从 StoreFile 中查询到的数据块（Block，HFile 数据存储单元，默认大小为 64KB）缓存到 BlockCache
将合并后 timestamp 最大的数据返回给客户端

五、StoreFile Compaction

背景：由于 memstore 每次刷写都会生成一个新的 HFile，且同一个字段的不同版本（timestamp）和不同类型（Put/Delete）有可能会分布在不同的 HFile 中，因此查询时需要遍历所有的 HFile
为了减少 HFile 的个数，以及清理掉过期和删除的数据，HBase 会进行 StoreFile Compaction
StoreFile Compaction 分为两种：
Minor Compaction：会将临近的若干个较小的 HFile 合并成一个较大的 HFile，但不会清理过期和删除的数据，shell 命令为 compact
Major Compaction：会将一个 Store 下的所有的 HFile 合并成一个大 HFile，并且会清理掉过期和删除的数据，shell 命令为 major_compact
Major Compaction 触发条件：
HFile 存储时长达到 hbase.hregion.majorcompaction(默认 7 天) 的值时自动进行 Major Compaction，但生产上一般会关闭（设置为 0）
当一个 store 中的 hfile 个数达到或超过 hbase.hstore.compactionThreshold(默认 3) 的值时自动进行 Major Compaction，或手动执行 compact 命令时也进行 Major Compaction

六、数据真正删除

触发数据删除的条件：MemStore Flush 和 Major Compaction
当同一个字段的不同版本数据都在内存中， MemStore Flush 会删除版本小的数据，只将最大版本的数据刷写到磁盘；当同一个字段的不同类型数据都在内存中， MemStore Flush 只会删除 put 类型的数据（delete 类型可能还要限制磁盘中的同字段数据）；当同一个字段的不同版本数据在不同的文件，此时 MemStore Flush 不会删除数据
Major Compaction 会删除需要保留的版本数之外的所有过时版本和 delete 类型的数据

七、Region Split

默认情况下，每个 Table 起初只有一个 Region，随着数据的不断写入增加，Region 会触发自动进行拆分。刚拆分时，两个子 Region 都位于当前的 Region Server，但处于负载均衡的考虑，HMaster 有可能会将某个 Region 转移给其他的 Region Server
Region Split 触发时机：
0.94 版本之前：当 1 个 region 中的某个 Store 下所有 StoreFile 的总大小超过 hbase.hregion.max.filesize(默认 10G)，该 Region 就会进行拆分
0.94 版本之后：当 1 个 region 中的某个 Store 下所有 StoreFile 的总大小超过 min(R^2 × hbase.hregion.memstore.flush.size, hbase.hregion.max.filesize)，该 Region 就会进行拆分，其中 R 为当前 Region Server 中属于该 Table 的 region 个数
自动切分会造成数据倾斜，产生数据热点问题，在生产上一般不使用，而是在建表时先进行预分区，后续插入数据时轮询的插入到不同的分区
官方建议使用一个列族，避免切分全局 flush 时产生大量小文件