数据仓库:概念、特征与开发流程详解
创作时间:
作者:
@小白创作中心
数据仓库:概念、特征与开发流程详解
引用
CSDN
1.
https://m.blog.csdn.net/qq_49894233/article/details/144241512
数据仓库是企业决策支持系统的核心组件,通过对历史数据的存储、计算和分析,为企业提供数据驱动的决策支持。本文将详细介绍数据仓库的基本概念、特征、开发流程以及离线和实时数据仓库的差异。
数仓介绍
数据仓库就是对公司的
过往历史数据
进行计算分析,为公司决策提供数据支撑
数据仓库本质就是一套
智能决策系统
- 数据存储
- Hadoop的HDFS
- 数据计算
- Hadoop的Mapreduce和Yarn
- Hive查询引擎
- 数据分析展示
- FineBI
- FineReport
数据仓库 ,主要功能是将
联机事务处理(OLTP)
经年累月所累积的大量数据资料,通过数据仓库理论所特有的资料储存架构,进行系统的分析整理,利各种分析方法,如
联机分析处理(OLAP)
、
数据挖掘(Data Mining)
等,帮助决策者能快速有效的从大量资料中,分析出有价值的资讯,方便决策拟定和快速应对外在环境变动,帮助建构
商业智能(BI)
。
联机事务处理OLTP属于客户服务器结构的应用范畴CS结构, 它有两个特征:
其一是
联机
,即客户机与服务器必须能够实时通信,由客户机发起请求,直到收到服务器的确认应答后,整个事物才能完成;
其二是
事务
(或称交易),即客户端与服务器之间通过交易的形式进行协作。
随着时间的推移,业务在不断的发展壮大,联机事务处理已不能满足终端用户对数据库查询分析的要求,SQL对大容量数据库的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量的计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,
多维数据库和多维分析
的概念便应运而出,即OLAP。
OLAP委员会对联机分析处理的定义为:使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互的存取,从而获得对数据更深入了解的一类软件技术。
总结:
OLAP和OLTP是数据处理的两种方式
OLTP主要在
业务开发(前后端的开发)
时使用 采用事务进行数据的增删改查
OLAP主要在
数仓开发
中使用 采用多维分析方式对数据进行查询分析
数仓特征
- 面向主题的(Subject-Oriented )
- 根据分析的内容确认分析主题
- 方式一:业务部门划分主题
- 不同业务部门有不同的数据,并且分析的需求不一样
- 销售部门 销售主题 主要分析销售相关数据
- 销售额 销售量
- 人事部门 人事主题 了解公司员工情况
- 总招聘量 有效招聘量
- 平均考勤时长
- 集成的(Integrated)
- 根据分析内容将相关不同数据源数据收集在一起,将数据保存在数仓中
- 销售主题
- 订单基本信息表
- 订单详情表
- 退款订单表
- 订单评价表
- 非易失的(Non-Volatile)
- 数仓数据不进行删除,只进行读写操作,并且进行持久保存
- 时变的(Time-Variant )
- 随着时间的变化,分析需求也在不断变化,数仓中的分析数据也在不断变化
- 数据仓库开发的需求在不断产生,产生新需求就要导入新数据
数仓开发流程
- 项目立项
- 业务负责人:
老板
,
项目经理 - 产品调研,编写立项报告,立项评审(周期一个月)
- 项目设计
- 技术负责人:
架构师
,技术大拿 - 技术选型设计:采用哪些开发工具
- 数仓设计:维度建模:如何设计数仓中的表
- 编写设计文档,进行团队讨论,确认最终方案
- 项目开发
- 开发人员:
数仓开发人员 - 领取开发任务
- 参加每日例会,汇报开发进度
- 整个开发进度由项目经理管理
- 项目展示
- 数据分析人员
: 对数仓计算的结果采用
分析理论
进行数据分析加工 - 数仓开发人员计算数据: 访问量,注册量,下单量,支付量
- 数据分析人员采用
漏斗模型 - 访问量 1000
- 注册量 500 产品没有吸引力
- BI报表开发工程师
:负责数据的展示
数仓形式
离线和实时主要体现在对数据处理的
时效上
离线数仓
- 离线数据计算,通常也称为“批处理”,表示那些离线批量、延时较高的静态数据处理过程。
- 批数据处理是指在
一个预定时间内收集一批数据
,然后一次性对这批数据进行处理。数据是成批处理的,而不是逐条处理。 - 处理时效性:批处理通常不是实时的,处理的延迟可能是分钟、小时甚至更长。
- MapReduce无法进行实时数据处理,只能进行批处理,所以Mapreduce只能用来进行离线数仓开发
- 公司实际开发中,离线的时间间隔是: T+1,今天处理昨天产生的数据,数据延迟一天处理
- 实时数仓
- 实时计算,通常也称为“实时流计算”、“流式计算”,表示那些实时或者低延时的流数据处理过程。
- 流数据处理是指实时、连续地处理数据流。数据在被产生或接收后立即处理,并不需要等待所有数据到齐。数据的处理和传输是“逐条”进行的。
- 处理时效性:由于数据被实时处理,系统响应时间非常短,通常在毫秒或秒级
热门推荐
如何用PHP获取网站内容并检测其是否违规?
摄影曝光指南:5个常见问题及解决方案
真的想问:夫妻为何“同甘”容易 “共苦”却很难
10种又小又清晰压缩视频的方法
张雪峰评价辽宁几所大学:哪些大学值得你重点关注?
全面了解臭氧检测仪使用方法与常见问题解答
北方的映山红,先开花后长叶,耐低温,花期长,性价比很高
小程序开发指南:如何实现页面跳转功能
如何选择适合企业需求的邮件推送API服务提供商?
当事人在起诉或答辩的时候都是要准备哪些证据
网络诈骗的隐秘陷阱:揭开“仙人跳”的真相与防范策略
如何选择电梯门套:美观与性价比的完美结合
游戏设计的反馈与提升
探索东南美景:天水至厦门五日深度游路线
1-1!2-2!U20亚洲杯8强对阵出炉:日本队压哨出线,国足对沙特
假声技巧解析:高音演唱的实用方法与练习手册
9年前,那个酷似“马云”的江西7岁小男孩范小勤,如今怎么样了?
Matlab箱线图详解,从原理到实战应用
怎样搭建数字人绿幕直播间
中国六代机现出真身后,“轰-20”的出现,反而让人大失所望?
在演讲中如何巧妙运用肢体语言来增强感染力
年化率的计算与应用:助力投资决策与比较收益
芝麻的功效与作用
公务员考试中竞争压力较小的四类岗位分析
期权交易中的验资要求是什么?未验资对交易有何限制?
审判的独角神兽:獬豸与中国传统文化中的司法象征
如何为我的需求选择合适的磨刀器?
HRM系统如何管理员工考勤和请假流程
如何冲破植物神经紊乱的枷锁?
植物神经功能紊乱中西医治疗区别