资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

图解Hadoop生态系统及其组件

创作时间:

作者:

@小白创作中心

图解Hadoop生态系统及其组件

引用

来源

http://www.kler.cn/a/91795.html

Hadoop生态系统及其组件概述

在深入了解Hadoop生态系统及其组件之前，我们首先需要了解Hadoop的三大核心组件：HDFS、MapReduce和YARN。这三者共同构成了Hadoop分布式计算框架的基础。

HDFS（Hadoop分布式文件系统）

HDFS是Hadoop的分布式文件系统，设计用于在廉价硬件上存储大规模数据集。它具有高度容错能力，并为应用程序提供高吞吐量。HDFS最适合处理非常大的数据集。

HDFS采用Master-Slave架构。主节点运行Namenode守护进程，负责管理文件系统的命名空间和客户端对文件的访问。从节点运行Datanode守护进程，负责存储实际的数据块。

MapReduce

MapReduce是Hadoop的数据处理层，它将大规模数据处理任务分解为多个小任务，并通过网络将这些任务分配给多台机器进行并行处理。MapReduce的核心思想是将数据处理分为Map和Reduce两个阶段：Map阶段将数据分解成多个小块进行处理，Reduce阶段将处理结果合并。

MapReduce所需的基本细节是键值对。所有数据，无论是否结构化，在通过MapReduce模型传递之前都需要转换为键值对。在MapReduce框架中，处理单元被移至数据，而不是将数据移至处理单元。

YARN（Yet Another Resource Negotiator）

YARN是Hadoop的资源管理器，负责为多个应用程序分配和管理计算资源。YARN的主要思想是将作业调度和资源管理拆分到不同的进程中进行操作。

YARN提供了两个主要守护进程：资源管理器（Resource Manager）和节点管理器（Node Manager）。资源管理器运行在Hadoop集群的主节点上，负责协调所有应用程序的资源分配。节点管理器托管在所有从节点上，负责监控容器、资源使用情况（如CPU、内存、磁盘和网络）并向资源管理器报告详细信息。

Hadoop生态系统中的其他重要组件

除了上述三大核心组件外，Hadoop生态系统还包括多个扩展组件，这些组件提供了更丰富的功能和更高的灵活性。

Hive

Hive是Hadoop的数据仓库项目，旨在促进非正式数据汇总、即席查询和大量数据的解释。HiveQL是Hive提供的类SQL查询语言，用户可以使用它对存储在HDFS中的数据集执行查询，并进行进一步分析。

Hive处理SQL查询的过程包括：

用户通过命令行或Web UI提交查询
驱动程序使用查询编译器解析查询
编译器向元数据数据库发送元数据请求
Metastore提供元数据
编译器验证规范并将计划重新发送给驱动程序
驱动程序将执行计划发送给执行引擎
执行引擎将查询作为MapReduce作业执行
执行引擎从数据节点接收结果
执行引擎将结果值发送给驱动程序
驱动程序将结果发送给用户界面

Pig

Pig是由Yahoo开发的用于分析存储在Hadoop HDFS中的大数据的平台。Pig提供了一个高级语言用于通信数据分析应用程序，并与用于评估这些程序的基础设施相链接。Pig的关键属性包括优化机会和可扩展性，支持创建用户定义函数以进行特殊用途处理。

Mahout

Mahout是一个用于创建机器学习应用程序的框架。它提供了一组丰富的组件，用户可以通过选择的算法构建定制的推荐系统。Mahout的开发目的是提供执行、可扩展性和合规性。

Mahout的关键接口包括：

DataModel
UserSimilarity
ItemSimilarity
UserNeighborhood

HBase

HBase是基于Google Bigtable的分布式、开源、版本化、非关系型数据库。它是Hadoop生态系统的重要组件，利用HDFS的容错功能，提供对数据的实时读写访问。尽管HBase是数据库，但与传统的关系型数据库相比，它不提供触发器、查询语言和二级索引等功能。

HBase的主要功能包括：

持续的模块化可扩展性
定期的读写支持
直观且可配置的表分片
RegionServer之间的自动故障转移支持
支持Hadoop MapReduce作业
简单的Java API客户端访问
服务器端过滤器支持
提供Thrift网关和RESTful Web服务

Zookeeper

Zookeeper充当Hadoop不同服务之间的协调者，用于维护配置信息、命名、提供分布式同步、提供群组服务。Zookeeper用于修复这些新部署在分布式环境中的应用程序的错误和竞争条件。

Sqoop

Sqoop是一个数据传输工具，用于在Hadoop和关系数据库之间传输数据。它支持将数据从关系数据库管理系统（如MySQL或Oracle）导入到Hadoop（HDFS），并在Hadoop MapReduce中转换数据。它还支持将数据导出回RDBMS。Sqoop使用MapReduce来导入和导出数据，因此具有并行处理和容错特性。

Flume

Flume是一种日志传输工具，专门用于处理非结构化数据（如日志）。它是一个可靠、分布式且可用的系统，用于高效地收集、聚合大量日志数据并将其从许多不同的源移动到HDFS。Flume不仅限于日志数据聚合，还可以用于传输大量事件数据。

Flume的主要组件包括：

Source：数据源
Channel：数据传输通道
Sink：数据接收端

Oozie

Oozie是一个工作流调度框架，用于调度Hadoop Map/Reduce和Pig作业。Apache Oozie工作流程是Hadoop Map/Reduce作业、Pig作业等操作的集合，排列在控制依赖DAG（有向无环图）中。从一个动作到另一个动作的“控制依赖性”表明，除非第一个动作完成，否则另一个动作不会开始。

Oozie工作流包含两个主要节点：