问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

数据资产入表「第七讲」-数据治理(数据归集标准设计)

创作时间:
作者:
@小白创作中心

数据资产入表「第七讲」-数据治理(数据归集标准设计)

引用
CSDN
1.
https://blog.csdn.net/weixin_43198581/article/details/139204228

数据价值管理是指通过一系列管理策略和技术手段,帮助企业把庞大的、无序的、低价值的数据资源转变为高价值密度的数据资产的过程,即数据治理和价值变现。本文作为数据资产入表系列的第七讲,重点介绍数据治理中的数据归集标准设计,这是确保数据质量、实现数据价值的关键环节。

数据归集标准是保证数据价值的第一道关卡,主要规范数据入库或进入数据湖前的标准,涵盖了组织在数据归集过程中的制度标准说明。具体包括六大类标准:

归集数据的对接标准

归集数据的对接标准定义了数据归集时的各种方式及其具体要求,主要包括以下几种对接方式:

  • 库表对接:通过对接数据来源方的数据库进行数据归集,对接标准需包含数据库类型、JDBC地址、对接的表名、数据内容简述、归集方式(推送/抽取)、归集频率、数据字典等维度。
  • 文件对接:通过线下文件进行数据归集,对接标准需包含文件类型、文件名称、数据内容简述、推送频率等维度。
  • 接口服务对接:通过系统服务接口调用的方式进行数据归集,对接标准需包含服务接口调用形式、接口资源描述、接口功能描述、调用频率等维度。
  • 网页爬取对接:主动通过爬虫技术访问互联网数据的方式进行数据归集,对接标准需包含网站地址、网站名称、数据描述、获取频率等维度。
  • 物联网系统数据对接:归集传感器、识读器、读写器、摄像头、终端、GPS等智能模块和设备产生的数据,对接标准需包含设备类型、模块、协议、数据描述、数据并发量和日增量评估等维度。

数据源的数据标准

数据源的数据标准主要关注数据源的权威性、合规性和数据质量:

  • 数据源的权威性:评估数据源提供的数据对真实世界的描述是否具备公信力和信服度,这需要基于对数据业务的深入理解和相关政策的研究。
  • 数据源的合规性:确保数据源供给的数据符合相关法规要求,这对组织后期的数据资产入表具有重要影响。
  • 数据质量标准:需标识准确性、完整性、一致性、及时性、有效性等五个维度的标准描述。

数据探查维度标准

数据探查维度标准是对数据源数据质量的具体评估维度,主要包括:

  • 数据准确性:检查数据记录的信息是否存在异常或错误,如字段值错误、缺失、空值等。
  • 数据完整性:比较应有数据内容/数据字段和实际数据内容/数据字段的比例,确保数据源能满足的数据内容/数据字段需求。
  • 数据一致性:评估数据采集与真实值之间的接近程度,误差越低说明一致性越高。
  • 数据及时性:评估数据更新的及时性,包括数据源数据采集处理的及时性和数据传输的及时性。
  • 数据有效性:检查数据是否遵循预定的处理规则,是否符合其字段定义,如数据类型、格式、取值范围等。

数据归集范围标准

数据归集范围标准用于明确数据归集的具体范围,包括:

  • 数据集范围:如数据库、表单、文件范围
  • 字段范围
  • 时间范围
  • 地域范围
  • 业务范围

模型设计和接入血缘标准

模型设计和接入血缘标准定义了数据从数据源到组织内部的转换过程中的标准,需要详细描述:

  • 来源数据集
  • 来源字段
  • 来源数据存储颗粒度
  • 写入数据库
  • 写入表
  • 写入字段

数据入库/湖的处理规则

在模型设计和接入血缘标准的基础上,还需定义某些特殊字段的处理规则,例如:

  • 时间格式转换
  • 全角半角符号转换

通过建立和完善这些数据归集标准,组织可以确保数据在进入系统时的质量和一致性,为后续的数据治理和价值变现奠定坚实的基础。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号