问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

数据标准化指南:类型、好处和方法

创作时间:
作者:
@小白创作中心

数据标准化指南:类型、好处和方法

引用
36氪
1.
https://www.36kr.com/p/2456798192736133

在当今数字化时代,数据标准化是企业实现数据整合和分析的基础。本文将为您详细介绍数据标准化的概念、重要性、具体步骤和方法,帮助您更好地理解和应用数据标准化。

一 什么是数据标准化

在数据世界中,标准是指某个域的每个值都必须符合的格式或表示形式。因此,标准化数据意味着:将不正确或不可接受的数据表示形式转换为可接受的形式的过程。

了解什么是“可接受”的最简单方法是了解业务需求。理想情况下,组织必须确保大多数应用程序使用的数据模型应符合其业务需求。实现数据标准化的最佳方法是使数据表示、结构和定义与组织要求保持一致。

二 数据标准化错误的类型和示例

下面给出了非标准化数据如何最终进入系统的一些示例:

  • 客户电话号码在一个系统中保存为字符串,而在另一个系统中只允许为包含8位数字的号码,导致数据类型不一致。
  • 客户姓名在一个系统中保存为单个字段,而在另一个系统中则作为名字、中间名和姓氏的三个单独字段进行覆盖,从而导致结构不一致。
  • 客户出生日期在一个系统中的格式为 MM/DD/YYY,而在另一个系统中的格式为月日、年 – 导致格式不一致。
  • 客户性别在一个系统中保存为 Female 或 Male,而在另一个系统中保存为 F 或 M – 导致域值不一致。

除了这些常见情况之外,拼写错误、转换错误和缺乏验证约束也会增加数据集中的数据标准化错误。

三 为什么需要标准化数据

每个系统都有自己的一套规范和限制,从而导致独特的数据模型及其定义。因此,需要先转换数据,然后才能由任何业务流程正确使用。

通常,要执行以下操作时,就知道是时候标准化数据了:

  1. 确认输入或输出数据
  2. 为 BI 或分析准备数据
  3. 整合实体以消除重复
  4. 组织间数据共享

四 数据清理与数据标准化

术语数据清理和数据标准化通常可以互换使用。但两者之间有细微的差别。

数据清理是识别不正确或脏数据并将其替换为正确值的过程,而数据标准化是将数据值从不可接受的格式转换为可接受的格式的过程。

这两个过程的目的和结果是相似的:消除数据集中的不准确和不一致。这两个流程对于数据质量管理计划都至关重要,并且必须齐头并进。

五 标准化数据步骤

数据标准化过程有四个简单的步骤:定义、测试、转换和重新测试。让我们更详细地了解每个步骤。

1. 定义标准

第一步,必须确定什么标准可以满足组织需求。定义标准的最佳方法是为企业设计数据模型。该数据模型将代表某个实体的数据值必须符合的最理想状态。数据模型可以设计为:

  • 确定对业务运营至关重要的数据资产
  • 定义所识别的每个资产的数据字段并决定结构细节
  • 为资产中标识的每个字段分配数据类型
  • 定义每个字段的字符限制(最小和最大)
  • 定义字段必须遵循的模式
  • 定义数值的测量单位
  • 定义必须从一组特定值派生的字段的值域

然后,可以将设计的数据模型放置在 ERD 类图中,以帮助可视化每个数据资产的定义标准以及它们之间的相互关系。零售公司的示例数据模型如下所示:

2. 标准测试

数据标准化技术从第二步开始,因为第一步的重点是定义应该做什么——一次性完成或每隔一段时间增量审查和更新的事情。

已经定义了标准,现在就要查看当前数据与该标准的符合程度了。下面,我们将介绍多种测试数据值是否存在标准化错误的技术,并构建可用于解决问题的标准化报告。

  • 解析记录和属性
  • 构建数据分析报告
  • 匹配和验证模式
  • 使用数据字典
  • 标准化测试地址

3. 数据转换

在数据标准化过程的第三步中,最终是将不合格的值转换为标准化格式。这可以包括:

  • 转换字段数据类型
  • 转换模式和格式
  • 转换计量单位
  • 将缩写值扩展为完整表单
  • 消除数据值中存在的噪音
  • 以标准化格式重建值

所有这些转换都可以手动完成,或者您也可以使用自动化工具。

4.复测达标

转换过程结束后,最好重新测试数据集是否存在标准化错误。可以比较标准化前和标准化后的报告,以了解所配置的流程修复数据错误的程度以及如何改进这些错误以获得更好的结果。

六 小结

数字化转型通常始于数据标准化,或将所有各种数据集转换为一种一致格式的过程。这并不令人兴奋,但却是事实。想要全面了解组织吗?标准化数据。您是否认为在任何地点实时投影机器的全息数字孪生是一种创新?标准化数据。需要降低整个供应链和维护周期的成本,而无需进行耗时的审核吗?你明白了。

信息就是力量,但如果没有适当的场景,这种力量可能是虚幻的。例如,假设您正在监督一款新车的全球推广。该车在前 12 个月内售出 500 万辆。听起来棒极了,对吧?那么,如果您组织中的所有其他现役汽车(包括旧型号)在同一时期内售出 700 万辆呢?另外,如果这 500 万台中的 93% 仅来自一个地区怎么办?其中 54% 在销售后的前三个月内被退货和退款。场景就是一切,只有当数据准备好、可用且可靠时,清晰的场景才有可能。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号