分布式数据库HBase：从零开始了解列式存储

创作时间:

作者:

@小白创作中心

分布式数据库HBase：从零开始了解列式存储

引用

CSDN

https://blog.csdn.net/weixin_42236936/article/details/140148144

在接触过大量的传统关系型数据库后你可能会有一些新的问题：无法整理成表格的海量数据该如何储存？在数据非常稀疏的情况下也必须将数据存储成关系型数据库吗？除了关系型数据库我们是否还有别的选择以应对Web2.0时代的海量数据？

如果你也曾经想到过这些问题，那么HBase将是其中的一个答案，它是非常经典的列式存储数据库。本文首先介绍HBase的由来以及其与关系数据库的区别，其次介绍其访问接口、数据模型、实现原理和运行机制。即便之前没有接触过HBase的相关知识也不影响阅读该文章。

概述

HBase是谷歌公司BigTable的开源实现。而BigTable是一个分布式存储系统，使用谷歌分布式文件系统GFS作为底层存储，主要用来存储非结构化和半结构化的松散数据。HBase的目标是处理非常庞大的表，可以通过水平扩展的方式利用廉价计算机集群处理超过10亿行数据和百万列元素组成的数据表。

GFS、HDFS、BigTable、HBase的关系：

HDFS是GFS的开源实现。HBase是BigTable的开源实现。
GFS是BigTable的底层文件系统，BigTable的数据存储在GFS上。
HDFS是HBase的底层存储方式。虽然HBase可以使用本地文件系统，但是为了提高数据可靠性一般还是会选择HDFS作为底层存储。

HBase和BigTable底层技术对应关系

项目	BigTable	HBase
文件存储系统	GFS	HDFS
海量数据处理系统	MapReduce	Hadoop MapReduce
协同服务系统	Chubby	Zookeeper

与传统的数据库相比主要区别在于：

数据类型：关系数据库采用关系模型，HBase则采用更加简单的数据模型——将数据存储为未经解释的字符串。
数据操作：关系数据库通常包括丰富的操作，涉及复杂的多表连接。HBase则不存在复杂的多表关系，只有简单的增删查改。
存储模式：关系数据库是基于行模式存储的，元组或行被连续地存储在磁盘中。HBase是基于列存储的。
数据索引：关系数据库可以针对不同列构建复杂的多个索引以提高访问效率。HBase则只有一个索引——行键。
数据维护：关系数据库中更新操作会用新值替换旧值。HBase则会保留旧数据，仅仅生成一个新的版本。
可伸缩性：关系数据库很难进行横向扩展，纵向扩展的空间也比较有限。HBase作为分布式数据库可以轻易地通过增加集群中的机器数量来达到性能的伸缩。

访问接口

HBase提供了多种访问方式，不同的方式适用于不同的场景。

类型	特点	场合
Native Java API	最常规高效的访问方式	适合Hadoop MapReduce作业并行批处理HBase表数据
HBase Shell	HBase的命令行工具，最简单的接口	适合HBase管理
Thrift Gateway	利用Thrift序列化技术，支持C++、PHP、Python等多种语言	适合其他异构系统访问HBase
REST Gateway	解除语言限制	支持REST风格的HTTP API访问HBase
Pig	使用Pig Latin流式编程语言来处理HBase的数据	适合做数据统计
Hive	简单	可以用类似SQL语言的方式来访问

数据模型

数据模型是一个数据库产品的核心，接下来将介绍HBase列族数据模型并阐述HBase数据库的概念视图和物理视图的差异。

数据坐标

相较于我们所熟悉的关系数据库，HBase无法仅使用行号和列号确定一个数据。在HBase中，我们需要：行键、列族、列限定符和时间戳这4个东西来确定一个数据。[行键, 列族, 列限定符, 时间戳]被称为是HBase的坐标，可以通过这个坐标来直接访问数据。在这种层面上讲，HBase也可以被视为一个键值数据库。