数据仓库:概念、特征与开发流程详解
创作时间:
作者:
@小白创作中心
数据仓库:概念、特征与开发流程详解
引用
CSDN
1.
https://m.blog.csdn.net/qq_49894233/article/details/144241512
数据仓库是企业决策支持系统的核心组件,通过对历史数据的存储、计算和分析,为企业提供数据驱动的决策支持。本文将详细介绍数据仓库的基本概念、特征、开发流程以及离线和实时数据仓库的差异。
数仓介绍
数据仓库就是对公司的
过往历史数据
进行计算分析,为公司决策提供数据支撑
数据仓库本质就是一套
智能决策系统
- 数据存储
- Hadoop的HDFS
- 数据计算
- Hadoop的Mapreduce和Yarn
- Hive查询引擎
- 数据分析展示
- FineBI
- FineReport
数据仓库 ,主要功能是将
联机事务处理(OLTP)
经年累月所累积的大量数据资料,通过数据仓库理论所特有的资料储存架构,进行系统的分析整理,利各种分析方法,如
联机分析处理(OLAP)
、
数据挖掘(Data Mining)
等,帮助决策者能快速有效的从大量资料中,分析出有价值的资讯,方便决策拟定和快速应对外在环境变动,帮助建构
商业智能(BI)
。
联机事务处理OLTP属于客户服务器结构的应用范畴CS结构, 它有两个特征:
其一是
联机
,即客户机与服务器必须能够实时通信,由客户机发起请求,直到收到服务器的确认应答后,整个事物才能完成;
其二是
事务
(或称交易),即客户端与服务器之间通过交易的形式进行协作。
随着时间的推移,业务在不断的发展壮大,联机事务处理已不能满足终端用户对数据库查询分析的要求,SQL对大容量数据库的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量的计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,
多维数据库和多维分析
的概念便应运而出,即OLAP。
OLAP委员会对联机分析处理的定义为:使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互的存取,从而获得对数据更深入了解的一类软件技术。
总结:
OLAP和OLTP是数据处理的两种方式
OLTP主要在
业务开发(前后端的开发)
时使用 采用事务进行数据的增删改查
OLAP主要在
数仓开发
中使用 采用多维分析方式对数据进行查询分析
数仓特征
- 面向主题的(Subject-Oriented )
- 根据分析的内容确认分析主题
- 方式一:业务部门划分主题
- 不同业务部门有不同的数据,并且分析的需求不一样
- 销售部门 销售主题 主要分析销售相关数据
- 销售额 销售量
- 人事部门 人事主题 了解公司员工情况
- 总招聘量 有效招聘量
- 平均考勤时长
- 集成的(Integrated)
- 根据分析内容将相关不同数据源数据收集在一起,将数据保存在数仓中
- 销售主题
- 订单基本信息表
- 订单详情表
- 退款订单表
- 订单评价表
- 非易失的(Non-Volatile)
- 数仓数据不进行删除,只进行读写操作,并且进行持久保存
- 时变的(Time-Variant )
- 随着时间的变化,分析需求也在不断变化,数仓中的分析数据也在不断变化
- 数据仓库开发的需求在不断产生,产生新需求就要导入新数据
数仓开发流程
- 项目立项
- 业务负责人:
老板
,
项目经理 - 产品调研,编写立项报告,立项评审(周期一个月)
- 项目设计
- 技术负责人:
架构师
,技术大拿 - 技术选型设计:采用哪些开发工具
- 数仓设计:维度建模:如何设计数仓中的表
- 编写设计文档,进行团队讨论,确认最终方案
- 项目开发
- 开发人员:
数仓开发人员 - 领取开发任务
- 参加每日例会,汇报开发进度
- 整个开发进度由项目经理管理
- 项目展示
- 数据分析人员
: 对数仓计算的结果采用
分析理论
进行数据分析加工 - 数仓开发人员计算数据: 访问量,注册量,下单量,支付量
- 数据分析人员采用
漏斗模型 - 访问量 1000
- 注册量 500 产品没有吸引力
- BI报表开发工程师
:负责数据的展示
数仓形式
离线和实时主要体现在对数据处理的
时效上
离线数仓
- 离线数据计算,通常也称为“批处理”,表示那些离线批量、延时较高的静态数据处理过程。
- 批数据处理是指在
一个预定时间内收集一批数据
,然后一次性对这批数据进行处理。数据是成批处理的,而不是逐条处理。 - 处理时效性:批处理通常不是实时的,处理的延迟可能是分钟、小时甚至更长。
- MapReduce无法进行实时数据处理,只能进行批处理,所以Mapreduce只能用来进行离线数仓开发
- 公司实际开发中,离线的时间间隔是: T+1,今天处理昨天产生的数据,数据延迟一天处理
- 实时数仓
- 实时计算,通常也称为“实时流计算”、“流式计算”,表示那些实时或者低延时的流数据处理过程。
- 流数据处理是指实时、连续地处理数据流。数据在被产生或接收后立即处理,并不需要等待所有数据到齐。数据的处理和传输是“逐条”进行的。
- 处理时效性:由于数据被实时处理,系统响应时间非常短,通常在毫秒或秒级
热门推荐
如何确定太阳能电池板和电池的配置
国际商务专业学什么?揭秘商界外交官的黄金修炼手册
“老赖”微信年流水过百万,靖边法院巧用搜查令执结交叉执行案件
指数基金投资的优势与风险分析
新床单洗衣机洗应该选择什么功能
如何选择适合的外贸获客平台?
糖尿病烂脚的原因及治疗方法
离婚后还可以变更离婚协议吗?
胡宗宪:明朝抗倭名将,一生为国为民,却被严嵩牵连,在狱中惨死
探秘美联储:全球经济背后的神秘力量
关于视频展示卡顿的分析及优化
顺风车合法吗?发生意外怎么办?
精打细算,购车贷款手续费如何划算?
普通又极不平凡的盐,贯穿了整个人类文明发展史
患有肠癌的患者应该食用哪些食品
美国留学高中费用需要了解哪些?
芦笋未焯水食用会否中毒?详解风险与应对
“愈”见微创丨告别癌性腹痛!精准微创治疗让晚期胰腺癌患者重获新生
上眼皮肿了?可能是这些原因!
宋江与刘备:两位历史人物的对比与评价
古代女子讲究三从四德 她们不出门每天在家做什么
厨房温度计的选购与使用指南:让料理更完美
三招让你不再认床
产品经理如何应对产品失败?
工资薪酬低的十大职业 哪些职业工资低 有些不赚钱还很累
车上的灯光图标和使用方法
如何有效应对网络恶意爬虫的侵扰?
黄山五日游详细攻略推荐,黄山旅游五天攻略分享,看完明白
盛京遗韵,工业重镇,暑期去沈阳怎么玩?
家用充电桩该选多少千瓦?