数据仓库:概念、特征与开发流程详解
创作时间:
作者:
@小白创作中心
数据仓库:概念、特征与开发流程详解
引用
CSDN
1.
https://m.blog.csdn.net/qq_49894233/article/details/144241512
数据仓库是企业决策支持系统的核心组件,通过对历史数据的存储、计算和分析,为企业提供数据驱动的决策支持。本文将详细介绍数据仓库的基本概念、特征、开发流程以及离线和实时数据仓库的差异。
数仓介绍
数据仓库就是对公司的
过往历史数据
进行计算分析,为公司决策提供数据支撑
数据仓库本质就是一套
智能决策系统
- 数据存储
- Hadoop的HDFS
- 数据计算
- Hadoop的Mapreduce和Yarn
- Hive查询引擎
- 数据分析展示
- FineBI
- FineReport
数据仓库 ,主要功能是将
联机事务处理(OLTP)
经年累月所累积的大量数据资料,通过数据仓库理论所特有的资料储存架构,进行系统的分析整理,利各种分析方法,如
联机分析处理(OLAP)
、
数据挖掘(Data Mining)
等,帮助决策者能快速有效的从大量资料中,分析出有价值的资讯,方便决策拟定和快速应对外在环境变动,帮助建构
商业智能(BI)
。
联机事务处理OLTP属于客户服务器结构的应用范畴CS结构, 它有两个特征:
其一是
联机
,即客户机与服务器必须能够实时通信,由客户机发起请求,直到收到服务器的确认应答后,整个事物才能完成;
其二是
事务
(或称交易),即客户端与服务器之间通过交易的形式进行协作。
随着时间的推移,业务在不断的发展壮大,联机事务处理已不能满足终端用户对数据库查询分析的要求,SQL对大容量数据库的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量的计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,
多维数据库和多维分析
的概念便应运而出,即OLAP。
OLAP委员会对联机分析处理的定义为:使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互的存取,从而获得对数据更深入了解的一类软件技术。
总结:
OLAP和OLTP是数据处理的两种方式
OLTP主要在
业务开发(前后端的开发)
时使用 采用事务进行数据的增删改查
OLAP主要在
数仓开发
中使用 采用多维分析方式对数据进行查询分析
数仓特征
- 面向主题的(Subject-Oriented )
- 根据分析的内容确认分析主题
- 方式一:业务部门划分主题
- 不同业务部门有不同的数据,并且分析的需求不一样
- 销售部门 销售主题 主要分析销售相关数据
- 销售额 销售量
- 人事部门 人事主题 了解公司员工情况
- 总招聘量 有效招聘量
- 平均考勤时长
- 集成的(Integrated)
- 根据分析内容将相关不同数据源数据收集在一起,将数据保存在数仓中
- 销售主题
- 订单基本信息表
- 订单详情表
- 退款订单表
- 订单评价表
- 非易失的(Non-Volatile)
- 数仓数据不进行删除,只进行读写操作,并且进行持久保存
- 时变的(Time-Variant )
- 随着时间的变化,分析需求也在不断变化,数仓中的分析数据也在不断变化
- 数据仓库开发的需求在不断产生,产生新需求就要导入新数据
数仓开发流程
- 项目立项
- 业务负责人:
老板
,
项目经理 - 产品调研,编写立项报告,立项评审(周期一个月)
- 项目设计
- 技术负责人:
架构师
,技术大拿 - 技术选型设计:采用哪些开发工具
- 数仓设计:维度建模:如何设计数仓中的表
- 编写设计文档,进行团队讨论,确认最终方案
- 项目开发
- 开发人员:
数仓开发人员 - 领取开发任务
- 参加每日例会,汇报开发进度
- 整个开发进度由项目经理管理
- 项目展示
- 数据分析人员
: 对数仓计算的结果采用
分析理论
进行数据分析加工 - 数仓开发人员计算数据: 访问量,注册量,下单量,支付量
- 数据分析人员采用
漏斗模型 - 访问量 1000
- 注册量 500 产品没有吸引力
- BI报表开发工程师
:负责数据的展示
数仓形式
离线和实时主要体现在对数据处理的
时效上
离线数仓
- 离线数据计算,通常也称为“批处理”,表示那些离线批量、延时较高的静态数据处理过程。
- 批数据处理是指在
一个预定时间内收集一批数据
,然后一次性对这批数据进行处理。数据是成批处理的,而不是逐条处理。 - 处理时效性:批处理通常不是实时的,处理的延迟可能是分钟、小时甚至更长。
- MapReduce无法进行实时数据处理,只能进行批处理,所以Mapreduce只能用来进行离线数仓开发
- 公司实际开发中,离线的时间间隔是: T+1,今天处理昨天产生的数据,数据延迟一天处理
- 实时数仓
- 实时计算,通常也称为“实时流计算”、“流式计算”,表示那些实时或者低延时的流数据处理过程。
- 流数据处理是指实时、连续地处理数据流。数据在被产生或接收后立即处理,并不需要等待所有数据到齐。数据的处理和传输是“逐条”进行的。
- 处理时效性:由于数据被实时处理,系统响应时间非常短,通常在毫秒或秒级
热门推荐
中国类脑智能研究成果再登Nature封面
实现从退役到就业无缝衔接 多地为退役军人举办专场招聘会
男朋友说他很累:如何理解与应对他的疲惫情绪
柴胡疏肝散与柴胡舒肝丸:两种传统中药方剂的对比分析
四川奔驰666后续:网传谭乔被她搞下课?女车主12年后还原真相!
全飞秒手术后能否外出活动?医生的专业解答来了
咳嗽完全攻略:咳嗽不止常见原因跟止咳方法,看这一篇就够了!
家用宽带带宽只有200兆,够用吗?
盐酸使用安全培训
视频大模型无损提速:删除多余token,训练时间减少30%
宁波到普陀山最佳方案 需要避开几个日子,景区交通选择多
牛黄上清片的功效与作用及副作用
一文读懂“肌酐”,了解自己的肾健康!
《灵魂潜行者》特色玩法内容
浮萍的象征意义:自由漂泊与脆弱无根的人生哲学探索
射波刀治疗肺癌出院指导:从饮食到心理的全方位健康管理
详解声卡与音箱连接的关键步骤,让音频效果不再打折
培育科技创新的“热带雨林”:走进成都科创生态岛
宝宝指甲护理方法
多家平台已封禁AI生成内容,自媒体人需谨慎使用
牙隐裂病变导致神经痛如何治疗
中国传统文化中的黄历与皇历:定义、起源与区别
膳食替代是什么?为什么进行膳食替代?
狗狗掉毛吃什么改善?这份清单快收藏
社交媒体与SEO:如何利用社交平台提升网站流量
狗狗身上腥臭味很重怎么办
如何处理合租中的纠纷?这种处理方法有哪些优缺点?
医生推荐:这些药物可以有效收缩毛孔
读懂3位经济学诺奖得主的贡献:用自然实验解答社会核心问题
鼻炎的确诊与治疗:从检查到方案的全面解析