资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

大数据体系结构样式

创作时间:

作者:

@小白创作中心

大数据体系结构样式

引用

来源

https://learn.microsoft.com/zh-cn/azure/architecture/guide/architecture-styles/big-data

大数据体系结构旨在处理对传统数据库系统来说太大或过于复杂的数据的引入、处理和分析。本文将详细介绍大数据体系结构的各个组件、工作流程、优势、挑战以及最佳实践，并探讨其在IoT领域的应用。

大数据体系结构的主要组件

大数据解决方案通常涉及以下一种或多种工作负荷：

静态大数据的批处理
动态实时处理大数据
对大数据的交互式探索
预测分析和机器学习

大多数大数据体系结构包括以下部分或全部组件：

数据源

所有大数据解决方案都以一个或多个数据源开头。示例包括：

应用程序数据存储，例如关系数据库
应用程序生成的静态文件，例如Web服务器日志文件
实时数据源，例如IoT设备

数据存储

批处理操作的数据通常存储在分布式文件存储中，可以采用各种格式保存大量大型文件。此类存储通常称为数据湖。实现此存储的选项包括Azure Data Lake Store或Azure存储中的Blob容器。

批处理

由于数据集太大，因此大数据解决方案通常必须使用长时间运行的批处理作业来处理数据文件，以便筛选、聚合，否则准备数据进行分析。通常，这些作业涉及读取源文件、处理源文件以及将输出写入新文件。选项包括使用数据流、Microsoft Fabric中的数据管道。

实时消息引入

如果解决方案包含实时源，则体系结构必须包含捕获和存储实时消息以供流处理的方法。这可能是一个简单的数据存储，其中传入的邮件被放入文件夹中进行处理。但是，许多解决方案需要消息引入存储来充当消息的缓冲区，并支持横向扩展处理、可靠传递和其他消息队列语义。选项包括Azure事件中心、Azure IoT中心和Kafka。

流处理

捕获实时消息后，解决方案必须通过筛选、聚合和其他准备数据进行分析来处理它们。然后，处理过的流数据将写入输出接收器。Azure流分析提供托管流处理服务，该服务基于对未绑定流运行的永久运行的SQL查询。另一个选项是在Microsoft Fabric中使用实时智能，这样就可以在引入数据时运行KQL查询。

分析数据存储

许多大数据解决方案准备数据进行分析，然后使用分析工具以结构化格式提供处理的数据。用于为这些查询提供服务的分析数据存储可以是金球式的关系数据仓库，如大多数传统商业智能（BI）解决方案或具有奖牌体系结构（铜牌、白银和黄金）的Lakehouse所示。Azure Synapse Analytics为大规模基于云的数据仓库提供托管服务。或者，Microsoft Fabric提供了可分别使用SQL和Spark查询的选项-仓库和Lakehouse。

分析和报告

大多数大数据解决方案的目标是通过分析和报告来深入了解数据。为了允许用户分析数据，体系结构可能包括数据建模层，例如Azure Analysis Services中的多维OLAP多维数据集或表格数据模型。它还可能支持自助服务BI，在Microsoft Power BI或Microsoft Excel中使用建模和可视化技术。分析和报告也可以采用数据科学家或数据分析师的交互式数据浏览形式。对于这些方案，Microsoft Fabric提供了一些工具，例如笔记本，用户可以选择SQL或所选编程语言。

业务流程

大多数大数据解决方案包括重复的数据处理操作，封装在工作流中，用于转换源数据、在多个源和接收器之间移动数据、将处理的数据加载到分析数据存储，或将结果直接推送到报表或仪表板。若要自动执行这些工作流，可以使用Azure数据工厂或Microsoft结构管道等业务流程技术。

Azure大数据服务

Azure包含许多可在大数据体系结构中使用的服务。它们大致分为两类：

托管服务，包括Microsoft Fabric、Azure Data Lake Store、Azure Synapse Analytics、Azure流分析、Azure事件中心、Azure IoT中心和Azure数据工厂。
基于Apache Hadoop平台的开源技术，包括HDFS、HBase、Hive、Spark和Kafka。Azure HDInsight服务中提供了这些技术。

这些选项并非互斥，许多解决方案将开源技术与Azure服务相结合。

何时使用此体系结构

需要以下条件时，请考虑此体系结构样式：

在卷中存储和处理数据对于传统数据库来说太大。
转换非结构化数据进行分析和报告。
实时捕获、处理和分析无限数据流，或延迟较低。
使用Azure机器学习或Azure AI服务。

优势

技术选择。可以在HDInsight群集中混合和匹配Azure托管服务和Apache技术，以利用现有的技能或技术投资。
通过并行性能。大数据解决方案利用并行度，实现可扩展到大量数据的高性能解决方案。
弹性缩放。大数据体系结构中的所有组件都支持横向扩展预配，以便你可以将解决方案调整为小型或大型工作负荷，并仅为使用的资源付费。
与现有解决方案的互操作性。大数据体系结构的组件也用于IoT处理和企业BI解决方案，使你能够跨数据工作负载创建集成解决方案。

挑战

复杂性。大数据解决方案可能非常复杂，其中包含许多组件来处理来自多个数据源的数据引入。构建、测试和排查大数据进程的问题可能很困难。此外，在多个系统之间可能存在大量配置设置，必须使用这些设置来优化性能。
技能组。许多大数据技术高度专业化，并且使用框架和语言，这些框架和语言并非更常规的应用程序体系结构的典型。另一方面，大数据技术正在演变基于更成熟的语言构建的新API。
技术成熟度。大数据中使用的许多技术正在演变。虽然Hive和spark等核心Hadoop技术已经稳定下来，但增量或冰山等新兴技术引入了广泛的变化和增强功能。与其他Azure服务相比，Microsoft Fabric等托管服务相对较年轻，并且可能会随着时间的推移而发展。
安全。大数据解决方案通常依赖于将所有静态数据存储在集中式Data Lake中。保护对此数据的访问可能具有挑战性，尤其是在多个应用程序和平台必须引入和使用数据时。

最佳实践

利用并行度。大多数大数据处理技术在多个处理单元之间分配工作负荷。这要求以可拆分格式创建和存储静态数据文件。HDFS等分布式文件系统可以优化读取和写入性能，实际处理由多个群集节点并行执行，从而减少了整个作业时间。强烈建议使用可拆分的数据格式，例如Parquet。
分区数据。批处理通常按定期计划进行，例如每周或每月。根据与处理计划匹配的临时时间段对数据文件和数据结构（如表）进行分区。这样可以简化数据引入和作业计划，并更轻松地排查故障。此外，在Hive、spark或SQL查询中使用的分区表可以显著提高查询性能。
应用读取中的架构语义。使用Data Lake可以组合多种格式的文件存储，无论是结构化、半结构化还是非结构化文件。使用读取架构语义，该语义在处理数据时（而不是存储数据时）将数据投影到数据上。这会在解决方案中构建灵活性，并防止数据验证和类型检查导致的数据引入过程中出现瓶颈。
就地处理数据。传统的BI解决方案通常使用提取、转换和加载（ETL）过程将数据移到数据仓库中。对于较大的卷数据以及更多格式，大数据解决方案通常使用ETL的变体，例如转换、提取和加载（TEL）。使用此方法，在分布式数据存储中处理数据，将其转换为所需的结构，然后再将转换后的数据移动到分析数据存储。
平衡利用率和时间成本。对于批处理作业，必须考虑两个因素：计算节点的按单位成本，以及使用这些节点完成作业的每分钟成本。例如，批处理作业可能需要8小时，四个群集节点。但是，事实证明，作业仅在前两小时内使用所有四个节点，之后只需要两个节点。在这种情况下，在两个节点上运行整个作业会增加作业总时间，但不会加倍，因此总成本会减少。在某些业务方案中，较长的处理时间可能比使用未充分利用的群集资源的成本更高。
单独的资源。尽可能将基于工作负荷的资源分开，以避免像一个工作负荷一样使用所有资源，而另一个工作负荷正在等待。
协调数据引入。在某些情况下，现有业务应用程序可能会将数据文件直接写入Azure存储Blob容器，其中下游服务（如Microsoft Fabric）可以使用这些文件。但是，通常需要协调从本地或外部数据源引入到Data Lake中的数据。使用业务流程工作流或管道（例如Azure数据工厂或Microsoft Fabric支持）以可预测且集中管理的方式实现此目的。
早期清理敏感数据。数据引入工作流应尽早清理敏感数据，以避免将其存储在Data Lake中。