数据仓库建设规范方案
创作时间:
作者:
@小白创作中心
数据仓库建设规范方案
引用
CSDN
1.
https://blog.csdn.net/weixin_44292902/article/details/136905195
数据仓库建设规范是确保数据仓库项目成功的关键。规范约束的是数仓建设的全流程,以及后续的迭代和运维。事实上,数仓规范文档,应该随着架构设计文档,在数仓开发启动之前,分发给所有相关人员,且是所有人都必须严格遵守的约定。
在数据仓库建设过程中,经常会遇到一些困惑,比如不知道该从哪张表出数,表A和表B似乎都可以,但实际操作时却发现数据对不上,最后不得不从源头重新计算。为了避免这类问题,建立一套完善的数仓建设规范显得尤为重要。
分层设计规范
分层设计是数据架构设计的产出之一,在模型设计环节做为强制规范遵守。数据仓库通常分为以下几层:
- 应用层:面向最终应用,生命周期与应用同步。
- 汇总数据层+主题宽表:对数据源做清洗、转换、补全、编码转换后加载到明细数据层。
- 贴源层:原始数据不做变化或者仅做最简单的补全后存入。
各层之间的调用规范如下:
- ODS 只能被 DWD 调用。
- DWD 可以被 DWS 和 ADS 调用。
- DWS 只能被 ADS 调用。
- 数据应用可以调用 DWD、DWS、ADS,但建议优先考虑使用汇总度高的数据。
主题域划分规范
主题域通常是联系较为紧密的数据主题的集合,方便寻找和使用数据。基本原则包括高内聚、低耦合,数量不宜过多(建议不超过十个),必须保持稳定等。
主题域的划分依据可以是:
- 业务或业务过程:如广告域、客户域等。
- 需求方:如财务主题域。
- 功能或应用:如朋友圈数据域。
- 部门:如运营域、技术域等。
流程规范
上线支持团队就绪,严格按照上线操作步骤执行,失败时需要有回滚机制。同时,需要确保内外网隔离,核心数据存储和功能模块只开放给特定人员。至少要做到表级别的权限控制,对于特别敏感的数据(如用户年龄、号码等)应该放到专门的数据库中。
其他要求
- 表、字段的备注信息必须言简意赅。
- 字段类型的约束要明确,比如字符串用 String,数值用 Int,日期用 yyyyMMdd 等格式。
本文从设计规范、流程规范、质量管控、数据安全四个方面,详细阐述了数仓规范,基本涵盖了数仓规范的方方面面,供参考。
热门推荐
为什么工作清单的重要性和意义不容忽视?
脑震荡会不会对智力产生影响
2025年白银投资分析与关键指标预测:关税冲击下的市场异动及趋势研判
综述文章:聚焦人工智能赋能中医药创新发展
消防演练中几个常见的误区
一一对应联想法:精准记忆的利器
期货贴水会产生怎样的市场影响?这种影响如何应对?
理解劳务费:定义、支付方式及法律问题的全面解析
学琴容易吗?细数电子琴是新手最佳起点的九个理由
湖人传奇高度评价约基奇!30岁巨星荣誉满载,未来前景广阔
李宇嘉:广州楼市新政超预期 取消二手限售将促进“卖一买一”
如何衡量镍的市场价值?这种市场价值的评估方法有哪些?
如何提升笔记的效率与质量?
哪里修车好?4S店 vs 独立修车厂 vs 快修连锁店
Arduino 第十一章:温度传感器
睡眠领域新突破!陆军军医大胡志安团队解析褪黑素促进睡眠重要靶点
Win11升级时经常遇到的问题解决汇总
如何进行基金的客观评价与分析?基金客观评价与分析方法概述
服用氯吡格雷,出现这4种情况需及时停药
“段元诚:从土壤到餐桌的香菜种植全攻略”
局域网内配置IP及DNS服务器方法
人工智能如何运用到审计
企业制度有效执行的六大关键环节
窑洞里的文化基因与生存诗学
Docker Swarm集群搭建指南:5节点实战(3管理+2工作节点)
透过“包公戏”看宋代司法文明
卫生间瓷砖墙压地还是地压墙
卫生间防水材料选择与施工指南
狗狗舌头有三点黑色,是正常还是异常?探究狗狗舌头黑色斑点的原因及治疗方法
NBA新赛季表现最佳10大球星:约基奇制霸四项数据,湖人真核上榜