问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

数据仓库:概念、特征与开发流程详解

创作时间:
作者:
@小白创作中心

数据仓库:概念、特征与开发流程详解

引用
CSDN
1.
https://m.blog.csdn.net/qq_49894233/article/details/144241512

数据仓库是企业决策支持系统的核心组件,通过对历史数据的存储、计算和分析,为企业提供数据驱动的决策支持。本文将详细介绍数据仓库的基本概念、特征、开发流程以及离线和实时数据仓库的差异。

数仓介绍

数据仓库就是对公司的
过往历史数据
进行计算分析,为公司决策提供数据支撑
数据仓库本质就是一套
智能决策系统

  • 数据存储
  • Hadoop的HDFS
  • 数据计算
  • Hadoop的Mapreduce和Yarn
  • Hive查询引擎
  • 数据分析展示
  • FineBI
  • FineReport
    数据仓库 ,主要功能是将
    联机事务处理(OLTP)
    经年累月所累积的大量数据资料,通过数据仓库理论所特有的资料储存架构,进行系统的分析整理,利各种分析方法,如
    联机分析处理(OLAP)

    数据挖掘(Data Mining)
    等,帮助决策者能快速有效的从大量资料中,分析出有价值的资讯,方便决策拟定和快速应对外在环境变动,帮助建构
    商业智能(BI)

    联机事务处理OLTP属于客户服务器结构的应用范畴CS结构, 它有两个特征:
    其一是
    联机
    ,即客户机与服务器必须能够实时通信,由客户机发起请求,直到收到服务器的确认应答后,整个事物才能完成;
    其二是
    事务
    (或称交易),即客户端与服务器之间通过交易的形式进行协作。
    随着时间的推移,业务在不断的发展壮大,联机事务处理已不能满足终端用户对数据库查询分析的要求,SQL对大容量数据库的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量的计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,
    多维数据库和多维分析
    的概念便应运而出,即OLAP。
    OLAP委员会对联机分析处理的定义为:使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互的存取,从而获得对数据更深入了解的一类软件技术。

    总结:
    OLAP和OLTP是数据处理的两种方式
    OLTP主要在
    业务开发(前后端的开发)
    时使用 采用事务进行数据的增删改查
    OLAP主要在
    数仓开发
    中使用 采用多维分析方式对数据进行查询分析

数仓特征

  • 面向主题的(Subject-Oriented )
  • 根据分析的内容确认分析主题
  • 方式一:业务部门划分主题
  • 不同业务部门有不同的数据,并且分析的需求不一样
  • 销售部门 销售主题 主要分析销售相关数据
  • 销售额 销售量
  • 人事部门 人事主题 了解公司员工情况
  • 总招聘量 有效招聘量
  • 平均考勤时长
  • 集成的(Integrated)
  • 根据分析内容将相关不同数据源数据收集在一起,将数据保存在数仓中
  • 销售主题
  • 订单基本信息表
  • 订单详情表
  • 退款订单表
  • 订单评价表
  • 非易失的(Non-Volatile)
  • 数仓数据不进行删除,只进行读写操作,并且进行持久保存
  • 时变的(Time-Variant )
  • 随着时间的变化,分析需求也在不断变化,数仓中的分析数据也在不断变化
  • 数据仓库开发的需求在不断产生,产生新需求就要导入新数据

数仓开发流程

  • 项目立项
  • 业务负责人:
    老板

    项目经理
  • 产品调研,编写立项报告,立项评审(周期一个月)
  • 项目设计
  • 技术负责人:
    架构师
    ,技术大拿
  • 技术选型设计:采用哪些开发工具
  • 数仓设计:维度建模:如何设计数仓中的表
  • 编写设计文档,进行团队讨论,确认最终方案
  • 项目开发
  • 开发人员:
    数仓开发人员
  • 领取开发任务
  • 参加每日例会,汇报开发进度
  • 整个开发进度由项目经理管理
  • 项目展示
  • 数据分析人员
    : 对数仓计算的结果采用
    分析理论
    进行数据分析加工
  • 数仓开发人员计算数据: 访问量,注册量,下单量,支付量
  • 数据分析人员采用
    漏斗模型
  • 访问量 1000
  • 注册量 500 产品没有吸引力
  • BI报表开发工程师
    :负责数据的展示

数仓形式

离线和实时主要体现在对数据处理的
时效上

离线数仓

  • 离线数据计算,通常也称为“批处理”,表示那些离线批量、延时较高的静态数据处理过程。
  • 批数据处理是指在
    一个预定时间内收集一批数据
    ,然后一次性对这批数据进行处理。数据是成批处理的,而不是逐条处理。
  • 处理时效性:批处理通常不是实时的,处理的延迟可能是分钟、小时甚至更长。
  • MapReduce无法进行实时数据处理,只能进行批处理,所以Mapreduce只能用来进行离线数仓开发
  • 公司实际开发中,离线的时间间隔是: T+1,今天处理昨天产生的数据,数据延迟一天处理
  • 实时数仓
  • 实时计算,通常也称为“实时流计算”、“流式计算”,表示那些实时或者低延时的流数据处理过程。
  • 流数据处理是指实时、连续地处理数据流。数据在被产生或接收后立即处理,并不需要等待所有数据到齐。数据的处理和传输是“逐条”进行的。
  • 处理时效性:由于数据被实时处理,系统响应时间非常短,通常在毫秒或秒级
© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号