数据仓库:概念、特征与开发流程详解
创作时间:
作者:
@小白创作中心
数据仓库:概念、特征与开发流程详解
引用
CSDN
1.
https://m.blog.csdn.net/qq_49894233/article/details/144241512
数据仓库是企业决策支持系统的核心组件,通过对历史数据的存储、计算和分析,为企业提供数据驱动的决策支持。本文将详细介绍数据仓库的基本概念、特征、开发流程以及离线和实时数据仓库的差异。
数仓介绍
数据仓库就是对公司的
过往历史数据
进行计算分析,为公司决策提供数据支撑
数据仓库本质就是一套
智能决策系统
- 数据存储
- Hadoop的HDFS
- 数据计算
- Hadoop的Mapreduce和Yarn
- Hive查询引擎
- 数据分析展示
- FineBI
- FineReport
数据仓库 ,主要功能是将
联机事务处理(OLTP)
经年累月所累积的大量数据资料,通过数据仓库理论所特有的资料储存架构,进行系统的分析整理,利各种分析方法,如
联机分析处理(OLAP)
、
数据挖掘(Data Mining)
等,帮助决策者能快速有效的从大量资料中,分析出有价值的资讯,方便决策拟定和快速应对外在环境变动,帮助建构
商业智能(BI)
。
联机事务处理OLTP属于客户服务器结构的应用范畴CS结构, 它有两个特征:
其一是
联机
,即客户机与服务器必须能够实时通信,由客户机发起请求,直到收到服务器的确认应答后,整个事物才能完成;
其二是
事务
(或称交易),即客户端与服务器之间通过交易的形式进行协作。
随着时间的推移,业务在不断的发展壮大,联机事务处理已不能满足终端用户对数据库查询分析的要求,SQL对大容量数据库的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量的计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,
多维数据库和多维分析
的概念便应运而出,即OLAP。
OLAP委员会对联机分析处理的定义为:使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互的存取,从而获得对数据更深入了解的一类软件技术。
总结:
OLAP和OLTP是数据处理的两种方式
OLTP主要在
业务开发(前后端的开发)
时使用 采用事务进行数据的增删改查
OLAP主要在
数仓开发
中使用 采用多维分析方式对数据进行查询分析
数仓特征
- 面向主题的(Subject-Oriented )
- 根据分析的内容确认分析主题
- 方式一:业务部门划分主题
- 不同业务部门有不同的数据,并且分析的需求不一样
- 销售部门 销售主题 主要分析销售相关数据
- 销售额 销售量
- 人事部门 人事主题 了解公司员工情况
- 总招聘量 有效招聘量
- 平均考勤时长
- 集成的(Integrated)
- 根据分析内容将相关不同数据源数据收集在一起,将数据保存在数仓中
- 销售主题
- 订单基本信息表
- 订单详情表
- 退款订单表
- 订单评价表
- 非易失的(Non-Volatile)
- 数仓数据不进行删除,只进行读写操作,并且进行持久保存
- 时变的(Time-Variant )
- 随着时间的变化,分析需求也在不断变化,数仓中的分析数据也在不断变化
- 数据仓库开发的需求在不断产生,产生新需求就要导入新数据
数仓开发流程
- 项目立项
- 业务负责人:
老板
,
项目经理 - 产品调研,编写立项报告,立项评审(周期一个月)
- 项目设计
- 技术负责人:
架构师
,技术大拿 - 技术选型设计:采用哪些开发工具
- 数仓设计:维度建模:如何设计数仓中的表
- 编写设计文档,进行团队讨论,确认最终方案
- 项目开发
- 开发人员:
数仓开发人员 - 领取开发任务
- 参加每日例会,汇报开发进度
- 整个开发进度由项目经理管理
- 项目展示
- 数据分析人员
: 对数仓计算的结果采用
分析理论
进行数据分析加工 - 数仓开发人员计算数据: 访问量,注册量,下单量,支付量
- 数据分析人员采用
漏斗模型 - 访问量 1000
- 注册量 500 产品没有吸引力
- BI报表开发工程师
:负责数据的展示
数仓形式
离线和实时主要体现在对数据处理的
时效上
离线数仓
- 离线数据计算,通常也称为“批处理”,表示那些离线批量、延时较高的静态数据处理过程。
- 批数据处理是指在
一个预定时间内收集一批数据
,然后一次性对这批数据进行处理。数据是成批处理的,而不是逐条处理。 - 处理时效性:批处理通常不是实时的,处理的延迟可能是分钟、小时甚至更长。
- MapReduce无法进行实时数据处理,只能进行批处理,所以Mapreduce只能用来进行离线数仓开发
- 公司实际开发中,离线的时间间隔是: T+1,今天处理昨天产生的数据,数据延迟一天处理
- 实时数仓
- 实时计算,通常也称为“实时流计算”、“流式计算”,表示那些实时或者低延时的流数据处理过程。
- 流数据处理是指实时、连续地处理数据流。数据在被产生或接收后立即处理,并不需要等待所有数据到齐。数据的处理和传输是“逐条”进行的。
- 处理时效性:由于数据被实时处理,系统响应时间非常短,通常在毫秒或秒级
热门推荐
膝盖长骨刺吃什么药好使呢
探秘奇幻世界:妖怪、妖精、鬼与幽灵的异同
停车场自动缴费系统怎么用?自动缴费停车场怎么缴费?
一文读懂全抛式胰岛素泵驱动方式的现状和未来
互殴案件伤情认定标准详解
CCF YOCSEF保定论坛聚焦IT类学生就业:专业技能与人文素养双翼齐飞
劳动局投诉拖欠工资:如何投诉、处理流程及撤销方式
4s店维修保养记录怎么查?免费查询汽车维修保养记录方法
正交表生成,正交试验设计极差分析与方差分析对比
租赁汽车钢结构机械式立体停车设备项目运营分析
肺癌筛查:低剂量CT、平扫CT、增强CT有何区别?
朱棣迁都北平是出于无奈,还是另有隐情?“六大”原因迫使他必须这么干
循证运动营养之:肉桂——原理、证据与功效
35岁皮肤老化怎么办?五种改善方案全解析
阿帕替尼的功效及副作用
借款是否必须写书面借款合同?一文详解借款合同签订要点
肝功能检查怎样看异常表现
权威解读丨基础设施REITs试点要把握好“三个聚焦、三个坚持、两个强化”
“深入浅出”:将复杂知识转化为简单易懂的沟通艺术
如何看待加密数字货币ETF的迅猛发展 ——国际市场上的新兴投资标的
适用于各大中小学学生,学生运动能力等级国家标准来了!
属猴2025结婚好吗?适合结婚的年份和月份分析
如何配置 SSH 服务:详细教程
网上购买手机拆封后可以退货吗?法律这样规定
金枪鱼沙拉三明治
快乐读书吧:《中国古代神话》—— 神话知识知多少?
国家规定制冷量每平方是多少
吉安全力开展千亿产业集群攻坚 力争2026年电子信息产业营收超3000亿元
慢性肾脏病患者的饮水管理
历史上的六次大迁徙,告诉你,客家人来自哪里?