大数据平台:统一元数据管理
大数据平台:统一元数据管理
元数据管理是数据治理的基础与核心,为避免数据孤岛,企业内部通常会搭建统一元数据平台,将元数据汇总进行统一管理,对外提供统一服务,对内进行统一治理优化。本文通过背景介绍、元数据类型、元数据标准、元数据管理流程从理论上介绍统一元数据管理,后续将针对各个流程子项进行详细说明。
背景介绍
元数据管理包括元数据采集、存储、管理及应用等关键环节,是数据治理的基础与核心。但元数据管理实践过程中通常会面临元数据来源众多且分散在不同系统中、元数据类型多样以及元数据频繁变更等问题。因此构建一个基于统一标准规范实现的,通用可扩展的元数据管理体系是至关重要。
统一元数据:实现异构数据源统一、标准统一、系统运管统一,整合元数据在线数据目录和离线治理分析功能。更泛化理解,如图展示腾讯云数据湖的统一元数据架构:支持在线数据目录和离线数据治理的统一
元数据类型
元数据类型按照使用领域与功能可以分为:技术元数据、业务元数据、操作元数据、管理元数据
- 技术元数据:用于描述数据的技术信息,需要具备以下信息包括数据的存储系统,格式,坐标,分层等物理信息
- 业务元数据:用于描述数据系统中业务领域相关概念、关系和规则的数据;应该包括业务术语、信息分类、指标、统计口径等
- 操作元数据:用于描述数据的操作行为,便于落实数据管理责任机制,是实现数据安全的基础
- 管理元数据:用户描述数据的管理信息,例如表的负责人,归属人、生命周期等;
元数据标准
MOF元模型标准指的是“元对象设施”(Meta-Object Facility,简称MOF)标准,由对象管理组织(Object Management Group,简称OMG)制定。作为模型的基础描述规范,可以描述不同类型的模型标准,为不同类型的模型管理建立基础。
- M0层:实际数据层,数据库中存储的具体信息、对象
- M1层:模型层,对应元模型实例,即元数据,对M0层数据的结构化描述,例如具体的表定义
- M2层:元模型,如CWM模型,定义了M1层模型的结构和语义,例如定义元数据的类别:库、表、字段
- M3层:元元模型,也是MOF自身所在的层次,定义了M2层元模型的结构和语义。提供了构建元模型的语言和工具,例如包、类等
元数据管理
常规的元数据管理流程可分为如下5个步骤:元模型定义、元数据采集、元数据加工、元数据存储、元数据应用。
元模型定义
基于MOF标准,元模型是对元数据的抽象描述,用于定义和组织元数据的结构、类型和关系。元模型为描述数据资产的元数据提供了一组规则和标准,确保元数据的一致性、可理解性和可交互性。例如,Hive Metastore底层库表的定义即为元模型,DBS为描述db的元模型,TBLS为描述tables的元模型。
元模型定义主要包括:分组、模型、属性、数据类型等关键要素。分组从逻辑上聚类不同的模型集合,例如Hive元模型、MySQL元模型 可以划分在关系型元模型分组。模型定义元数据对象结构,由模型属性以及模型间关系组成。
元数据采集
元数据采集主要包括:接入、适配、入库三个阶段:
按照元数据采集的接入方式,可分为:
- 主动采集:基于调度系统,进行定时周期性采集,采集周期应支持设定,以适配数据源差异化的更新频率
- 被动采集:人工发起或外部系统通过API主动上报。人工发起时,可采用手动上传元数据文件或主动启动采集任务的方式
采集接入方式应动态适配相应的接口适配器,适配器支持以插件方式扩展不同的数据源类型和元数据类型。
元数据入库的主要流程包括:
- 发现变更项:自动识别元数据变更,包括:新增、删除、更新操作
- 变更确认:可由相关责任人手动确认,也可系统自动确认;确认过程应保存相应的记录,以备后续追踪溯源
- 更新元数据:基于变更项更新元数据
- 历史元数据归档:对于高敏感的元数据类别,在变更前应对历史元数据进行版本归档,以备后续版本回滚
元数据加工
元数据加工:在入库之前、对原始元数据进行转换(Transform)的过程,以便满足元数据管理和维护的需求。元数据加工需满足以下原则:完整性、准确性、客观性、可扩展性。常见的加工转换操作有:
- 清洗:修正或删除错误的、不完整的、不一致的、重复的数据
- 计算:根据业务规则或算法进行计算处理,包括运算、聚合、排序、合并、分割等操作
- 标准化:确保采集的元数据符合一致的格式和度量标准
统一数据ID加工:元数据系统内部应生成唯一的数据ID,与原始平台的数据ID形成一对一的映射关系,便于元数据进行全流程追溯和适配不同平台。
元数据存储
由于元数据结构和使用场景的不同,通常需使用不同类型的存储系统,根据元数据结构可分为以下类别:
- 结构型元数据:以结构模式描述元数据,例如库、表、字段、业务属性、生命周期等元数据,可使用结构化数据(即关系型数据库)来表示和存储,如果用于检索功能,可基于索引数据库(如ES)进行查询优化
- 关联型元数据:以关联模式描述元数据,例如数据血缘,以表作为顶点,关系作为边描述,可使用图数据库来表示和存储
不同结构类型的元数据对存储系统的要求存在差异,需要适配不同的存储系统,存储元数据的数据库应满足要求:
- 考虑容量和性能的可伸缩性,支持主备或分布式部署方式;
- 考虑系统的可靠性要求,支持数据备份和回溯;
元数据应用
元数据应用指能够利用元数据发现数据之间的关联性,助力数据治理,避免避免大量低质量的数据汇聚而导致“数据沼泽”,统一元数据提供的应用能力体系可分为:
- 数据地图:全面掌握数据资产现状及盘点,提供全局元数据的检索能力,实现数据大盘可视化,支持数据总览和数据变化趋势图,让使用者能快速识别整体数据资产的变动趋势,为业务应用和数据获取夯实基础;
- 数据血缘:支持多方言(HiveSQL、SparkSQL、FlinkSQL等)的SQL血缘解析,获取数据的产生链路和上下游关系,支持血缘信息向上追溯和向下推导,实现表级别和字段级别的血缘解析;
- 数据规范:制定企业内部统一的数据标准规范,支持自定义数据类目,建立数据仓库模型,数据主题,建立数据共享制度,打破数据孤岛,实现企业内数据高效共享;
- 数据质量:通过建立一套切实可行的数据质量监控体系,设计数据质量稽核规则,加强从数据源头控制数据质量,形成覆盖数据全生命周期的数据质量管理,实现数据湖原始数据向优质资产的转变;
- 数据安全:通过制定完善的数据安全策略、建立体系化的数据安全措施、执行数据安全审计,对敏感数据脱敏,设置数据安全分级机制,进行全方位安全管控,确保数据获取和使用合法合规,为数据价值的充分挖掘提供了安全可靠的环境;
总结
元数据管理是数据治理的基础和核心,为避免数据孤岛,企业内部通常会搭建统一元数据平台,将元数据汇总进行统一管理,对外提供统一服务,对内进行统一治理优化。本文通过背景介绍、元数据类型、元数据标准、元数据管理流程从理论上介绍统一元数据管理,后续将针对各个流程子项进行详细说明。