数据仓库建设规范方案
创作时间:
作者:
@小白创作中心
数据仓库建设规范方案
引用
CSDN
1.
https://blog.csdn.net/weixin_44292902/article/details/136905195
数据仓库建设规范是确保数据仓库项目成功的关键。规范约束的是数仓建设的全流程,以及后续的迭代和运维。事实上,数仓规范文档,应该随着架构设计文档,在数仓开发启动之前,分发给所有相关人员,且是所有人都必须严格遵守的约定。
在数据仓库建设过程中,经常会遇到一些困惑,比如不知道该从哪张表出数,表A和表B似乎都可以,但实际操作时却发现数据对不上,最后不得不从源头重新计算。为了避免这类问题,建立一套完善的数仓建设规范显得尤为重要。
分层设计规范
分层设计是数据架构设计的产出之一,在模型设计环节做为强制规范遵守。数据仓库通常分为以下几层:
- 应用层:面向最终应用,生命周期与应用同步。
- 汇总数据层+主题宽表:对数据源做清洗、转换、补全、编码转换后加载到明细数据层。
- 贴源层:原始数据不做变化或者仅做最简单的补全后存入。
各层之间的调用规范如下:
- ODS 只能被 DWD 调用。
- DWD 可以被 DWS 和 ADS 调用。
- DWS 只能被 ADS 调用。
- 数据应用可以调用 DWD、DWS、ADS,但建议优先考虑使用汇总度高的数据。
主题域划分规范
主题域通常是联系较为紧密的数据主题的集合,方便寻找和使用数据。基本原则包括高内聚、低耦合,数量不宜过多(建议不超过十个),必须保持稳定等。
主题域的划分依据可以是:
- 业务或业务过程:如广告域、客户域等。
- 需求方:如财务主题域。
- 功能或应用:如朋友圈数据域。
- 部门:如运营域、技术域等。
流程规范
上线支持团队就绪,严格按照上线操作步骤执行,失败时需要有回滚机制。同时,需要确保内外网隔离,核心数据存储和功能模块只开放给特定人员。至少要做到表级别的权限控制,对于特别敏感的数据(如用户年龄、号码等)应该放到专门的数据库中。
其他要求
- 表、字段的备注信息必须言简意赅。
- 字段类型的约束要明确,比如字符串用 String,数值用 Int,日期用 yyyyMMdd 等格式。
本文从设计规范、流程规范、质量管控、数据安全四个方面,详细阐述了数仓规范,基本涵盖了数仓规范的方方面面,供参考。
热门推荐
【枪械讲堂】承前启后的柯尔特M1872军用转轮手枪
朱崇坤:新《公司法》对股东出资义务的修订要点
新公司法下,“不等比减资”的实操要点及难点破解
带状疱疹手指肿胀怎么消退
拼多多被调包如何维权?法律途径全解析
中医病因病机
《黑神话:悟空》不空和尚打法攻略
电容通交流阻直流原理是什么?电容的功能和作用
雷地豫卦详解:古老卦象中的平衡智慧
林的意思~(林字的含义与象征)
帧率又不对了?详解达芬奇帧率的N个问题
打针后猫咪多久可安全沐浴指南
男性152-188cm标准体重对照表,看你“达标”了吗?
2035广州交通:55地铁,45分钟通勤,“电鸡”有序……
静脉曲张何时进行干预?避免延误的最佳选择
氧化铝的化学式及其特性分析(氧化铝深度研究)
肺栓塞的治疗方法及药物有哪些
肺梗塞的治疗
南沙国际邮轮母港进入常态化运营新阶段,湾区城市联动加强
蒙顶甘露:绿茶中的贵族,凭什么与众不同?
艾滋病终身治疗:揭秘抗逆转录病毒药物的奥秘
关于做好2025年春季新冠病毒感染等重点传染病防治工作的通知
一颗小行星如何终结恐龙时代?揭秘6500万年前的地球浩劫
阿美替尼耐药后怎么治疗
如何评估政策变动对投资的影响
欧奈尔的投资思路拆解!
方大同抗病5年突离世 2星期前刚发布新歌
雅阁混动和凯美瑞混动哪个好
氧化锌再“万能”,有这2种情况时也不能给宝宝用!
深圳医保异地生育报销标准+流程+材料