问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

什么是“数据”?从定义到应用的全面解析

创作时间:
作者:
@小白创作中心

什么是“数据”?从定义到应用的全面解析

引用
腾讯
1.
https://new.qq.com/rain/a/20240628A05Z8X00

在当今数字化时代,数据已成为企业的重要资产。然而,对于"数据"这个词汇,很多人可能并不完全理解其内涵。本文将从多个角度为您详细解释数据的基本概念、类型、质量标准以及在实际应用中可能遇到的困难和解决方案。

为什么要关注数据?

《大数据时代》中提到:虽然数据还没有被列入企业的资产负债表,但这只是一个时间问题。数据的价值不言而喻。

如何认识数据?

从基础开始,懂来源、懂记录,抽丝剥茧,将虚无缥缈具体化。从身边的数据作为切入点,进行归纳总结。

数据的定义

表现形态的角度

数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。它不仅指狭义上的数字,还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,也是客观事物的属性、数量、位置及其相互关系的抽象表示。

生产要素的角度

数据已成为数字经济时代的新型生产要素。我们称现在为“大数据时代”。

数据的种类

不同的划分角度会有不同的类型。比较常用的是:

  • 定时数据:一般是时间相关的内容,如年、月、日等。
  • 定位数据:一般是坐标、地址描述,如经纬度,省市等。
  • 定性数据:指事物的属性。定性数据分为两种:一种是无递增递减关系的,如渠道号、手机系统等;另一种是有递增递减关系的:优等生、中等生、差生等。
  • 定量数据:衡量事物量级的度量值,一般用来比较大小,如年龄28岁,身高182等。

举个栗子:

某酒店前台倩倩2024年6月27日14:00在某酒店大厅,通过发票系统开具了3张豆豆公司主体的发票,涉及开票金额2000元。

那么,上述案例中

  • 定时数据是:2024年6月27日14:00;
  • 定位数据是:某酒店大厅;
  • 定性数据是:发票系统、豆豆公司主体;
  • 定量数据是:3张、2000元。

数据的质量标准

我们的世界充盈着无穷无尽的数据,不同的数据于不同的对象而言有不同的意义,有些是有效的,有些可能是无效的。因此,数据是有“质量”的。

“质量好”的数据特征

“质量好”的数据是可用的,能够通过一定的加工处理产生一定的价值。它们具有以下特征:

  • 准确性:也叫可靠性,是用于分析和识别哪些是不准确的或无效的数据,不可靠的数据可能会导致严重的问题,会造成有缺陷和糟糕的决策。

  • 场景一:数据采集是否重复或遗漏。

  • 场景二:字段是否拋送正确,比如手机号列中是否都是手机号。

  • 真实性:数据必须真实准确的反映客观的实体存在或真实的业务,真实可靠的原始统计数据是统计工作的灵魂,是管理工作的基础,是经营者进行正确经营决策必不可少的依据。

  • 场景一:原始数据是否反应真实客观事实。例如是否包含测试和自充数据,是否包含机器人数据等。

  • 场景二:统计是否真实。为了达到某种目的导致的数据统计造假。典型案例:人有多大胆,地有多大产。

  • 完整性:数据中想要分析的角度是否齐全,主要是事件或者维度。

  • 场景一:事件是否完整。例如支付服务测试环境产生的真实支付订单信息是否传给数据中心。

  • 场景二:字段是否完整。例如,银行流水需要知道是哪个银行,是否有此标识。

  • 唯一性:用于识别和衡量重复的、冗余的数据,如果重复的数据统计出来的结果一致还好,如果不一致,就会陷入无穷无尽的核对数据中。

  • 场景一:事件是否唯一,一条行为数据不要重复抛送;如用户支付了1次,但支付表里记录了2次。

  • 场景二:字段是否唯一。如单个事件中,两个以上字段都表示同一含义,为了保证数据的易用性,则要废弃其中之一。

  • 一致性:所有系统的数据不存在信息含义及内容结构的冲突。

  • 场景一:同一个数据,要保证统计口径的一致性。如收入,有的地方剔除手续费,有的地方未剔除手续费。

  • 场景二:表示相同内容但是字段名不一致,如channel,channelid,market_channel。

  • 关联性:数据关联性问题是指存在数据关联的数据关系缺失或错误。

  • 场景一:用户标识是否一致。如游戏用户的登录与充值行为,用户id是否是一样的。

  • 场景二:用户属性字段是否一致。如用户启动行为的渠道号与注册行为的渠道号以及支付行为的渠道号是否一致。

数据应用中的挑战与解决方案

以财务数据为例:

  • 数据孤岛:烟囱式信息系统互为孤岛,“表哥表姐”多信息系统取数,埋头整数。
  • 数据口径不统一:数据统计口径不统一,同一指标名称对应着不同的定义与计算方法。
  • 数据清洗难:数据在流动中缺乏质量保障及数据校验,应用系统使用需要大量清洗工作。
  • 数据离线:数据线下手工采集,难免出现错误,又难以识别,返工重做等情况极易发生。
  • 数据质量差:多业务单位收集数据,模板难标准化,返回的数据质量差,汇总工作量大。
  • 主数据不规范:主数据未统一维护,业务与业务,业务与财务各执一套话语体系。

解决方案

通过指标规范建立主数据标准,对接多业务系统获取源数据并进行数据清洗,将清洗后数据通过映射关系转换为标准数据,而后依据统计规则对标准数据进行汇总统计。实现企业内外部数据的治理、采集、加工、应用全流程。


图源:中兴新云

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号