围绕数据全生命周期的数据管理,你真的懂吗?
围绕数据全生命周期的数据管理,你真的懂吗?
数据全生命周期管理是围绕数据从产生到销毁的全过程开展的一系列管理活动,涉及数据质量、数据建模、数据分析等多个方面。本文将结合DAMA知识体系,深入探讨在数据生命周期的各个阶段应开展的具体工作。
一、数据产生
在企业的视角里,数据一产生就要进行管理,原则上是谁产生,谁负责。在这个生命周期里,会和DAMA车轮图里的“数据架构”,“数据建模和设计”,“数据存储和操作”,“数据安全”和“数据集成和互操作”领域强有关。具体重点如下:
- 选择合适的建模方法:根据使用场景、数据规模、使用偏好选择适当的建模方法
- 满足数据架构:符合企业架构和数据架构要求,并且满足数据质量标准
- 清晰记录血缘关系:血缘关系对之后的变更分析和影响评估至关重要
- 加强模型评审:模型审批减少需求遗漏,提高模型质量
- 明确模型边界:事先明确建设模型的范围以及边界
- 加强模型维护:细致的模型维护有效减少版本覆盖、误操作等带来的风险
二、数据采集
数据采集从规划、评估和合并新的数据源到确定主数据管理解决方案必须是一个可靠的、可重复的过程。在这个生命周期里,会和DAMA车轮图里的“数据存储和操作”,“数据安全”,“数据集成和互操作”和“元数据”领域强有关,数据采集活动包括:
- 接收并应对新的数据源采集的要求
- 使用数据清理和数据分析工具进行快速、即时、匹配和高阶的数据质量评估
- 评估数据并将数据整合的复杂性传递给请求者,以帮助他们进行成本效益分析
- 试点数据采集及其对匹配规则的影响
- 为新数据源确定数据质量指标
- 确定由谁负责监控和维护新数据源数据的质量
- 完成与整体数据管理环境的集成
三、数据处理
这一生命周期与 DAMA 车轮图里的“数据存储和操作”,“数据安全”,“数据集成和互操作”,“参考数据和主数据”,“数据仓库和商务智能”,“元数据”和“数据质量”领域强有关,在数据处理过程中,数据质量始终是关键的考量因素。数据质量具体重点如下:
四、数据使用
这一生命周期与 DAMA车轮图里的“数据安全”,“数据集成和互操作”,“数据仓库和商务智能”,“元数据”和“数据质量”领域强有关,常见的使用场景包括:
- 从数据仓库中进行数据分析,挖掘数据的潜在价值,为企业决策提供有力支持。
- 制作 BI 报表,以直观、清晰的方式展现数据,帮助企业管理层快速了解业务状况。
- 应用于 AI 实现人工智能场景,例如智能小助手,提升用户体验和服务质量。
五、数据归档/销毁
这一生命周期与 DAMA 车轮图里的“数据存储和操作”、“数据安全”、“数据集成和互操作”以及“数据质量”等领域紧密相连。相关的重点如下:
- 数据归档:不经常使用的数据可以移动到成本较低的备用存储解决方案。监控是归档技术中的重要环节,确保数据的可访问性,同时需要考虑归档数据的技术、格式以及法律要求。
- 清除销毁:从存储介质中彻底删除数据并使其无法恢复的过程。清除数据可以降低成本和风险。
总之,数据全生命周期管理是一项复杂而关键的任务,需要综合运用多种技术和方法,遵循相关的规范和标准。对于从事数据管理工作的人员来说,深入学习和掌握 DAMA 认证的 CDMP(Certified Data Management Professional)和 CDGA(Certified Data Governance Associate)知识体系,将有助于提升专业能力,更好地应对数据管理工作中的各种挑战,为企业的数据管理和利用提供有力的支持和保障。