数据仓库建设规范方案
创作时间:
作者:
@小白创作中心
数据仓库建设规范方案
引用
CSDN
1.
https://blog.csdn.net/weixin_44292902/article/details/136905195
数据仓库建设规范是确保数据仓库项目成功的关键。规范约束的是数仓建设的全流程,以及后续的迭代和运维。事实上,数仓规范文档,应该随着架构设计文档,在数仓开发启动之前,分发给所有相关人员,且是所有人都必须严格遵守的约定。
在数据仓库建设过程中,经常会遇到一些困惑,比如不知道该从哪张表出数,表A和表B似乎都可以,但实际操作时却发现数据对不上,最后不得不从源头重新计算。为了避免这类问题,建立一套完善的数仓建设规范显得尤为重要。
分层设计规范
分层设计是数据架构设计的产出之一,在模型设计环节做为强制规范遵守。数据仓库通常分为以下几层:
- 应用层:面向最终应用,生命周期与应用同步。
- 汇总数据层+主题宽表:对数据源做清洗、转换、补全、编码转换后加载到明细数据层。
- 贴源层:原始数据不做变化或者仅做最简单的补全后存入。
各层之间的调用规范如下:
- ODS 只能被 DWD 调用。
- DWD 可以被 DWS 和 ADS 调用。
- DWS 只能被 ADS 调用。
- 数据应用可以调用 DWD、DWS、ADS,但建议优先考虑使用汇总度高的数据。
主题域划分规范
主题域通常是联系较为紧密的数据主题的集合,方便寻找和使用数据。基本原则包括高内聚、低耦合,数量不宜过多(建议不超过十个),必须保持稳定等。
主题域的划分依据可以是:
- 业务或业务过程:如广告域、客户域等。
- 需求方:如财务主题域。
- 功能或应用:如朋友圈数据域。
- 部门:如运营域、技术域等。
流程规范
上线支持团队就绪,严格按照上线操作步骤执行,失败时需要有回滚机制。同时,需要确保内外网隔离,核心数据存储和功能模块只开放给特定人员。至少要做到表级别的权限控制,对于特别敏感的数据(如用户年龄、号码等)应该放到专门的数据库中。
其他要求
- 表、字段的备注信息必须言简意赅。
- 字段类型的约束要明确,比如字符串用 String,数值用 Int,日期用 yyyyMMdd 等格式。
本文从设计规范、流程规范、质量管控、数据安全四个方面,详细阐述了数仓规范,基本涵盖了数仓规范的方方面面,供参考。
热门推荐
2024年中国锑行业产业链现状及市场竞争格局分析
看病买药忘带卡?一“码”全搞定!
教授的水平决定大学的水平,教授的高度代表大学的高度
盘点国内顶级文案大师:揭秘谁才是创意写作的领军人物
大罗、梅西等4人谁是历史最伟大前锋?一人是完美前锋的模板!
中国最火辣的夜宵大省,半条街都是小龙虾味
Win11学院:如何在Windows 11装机时禁用BitLocker磁盘加密
“说教”不难听,关键看家长怎么说,道理这样讲,孩子瞬间变乖巧
常用补血药:种类与功效全解析
手冲咖啡技巧大公开 - 职人分享必学秘诀
地球上已知最小的动物是什么?
法律上对于互殴双方如何处罚
揭秘:游戏中FPS的真正含义是什么?
唐朝时期,统治者实行的维护权威的措施
刑事案件开庭不宣判怎么办
5种高价值特色蔬菜,亩产值最高可达13万元
爬虫如何避免重复数据库
正常人的智商是多少?中国智商120的人多吗?
曲牌名简介:古代的曲很长,一首曲的部分小节的名字
伤官坐七杀是什么意思 伤官制杀成格条件详解
铜领未来:实现0.5mg/w纯银耗量,HJT成本优势逐渐凸显
如何进行协议客户管理
绿松石,千万年的奇迹
喷漆色差的原因是什么?如何避免和处理喷漆色差问题?
系统脱敏训练疗法:理解和应对心理障碍的新方法
中华田园犬饲养全攻略:打造健康快乐的宠物生活
文档项目封面如何做图片
案子到法院开庭后多久宣判
化妆品备案号查询需要提供什么信息
鲜菠萝块(如何正确地切菠萝)