什么是数据编织(Data Fabric)?完整指南
什么是数据编织(Data Fabric)?完整指南
数据编织(Data Fabric)是企业数据集成和管理的重要概念,它通过统一的架构和集成的技术服务,实现数据的民主化访问。本文将从Data Fabric的概述、架构、核心能力、供应商等多个维度,全面解析这一数据管理领域的前沿技术。
Data Fabric——以数据为中心企业的必备工具
在过去几年中,“Data Fabric”已成为企业数据集成和管理的代名词。分析公司Gartner将“数据编织”列为“2021年十大数据和分析技术趋势”之一,并预测到2024年,25%的数据管理供应商将为数据编织提供完整的框架——高于目前的5%。
Gartner:数据编织将集成的数据从多个不同来源传递给各种数据消费者
Data Fabric概述
Data Fabric使整个企业的数据访问大规模民主化。它是一个单一的、统一的架构——具有一组集成的技术和服务,旨在在正确的时间、以正确的方法向正确的数据消费者提供集成和丰富的数据——以支持运营和分析工作负载。
Data Fabric结合了关键数据管理技术,例如数据目录、数据治理、数据集成、数据管道和数据编排。
Gartner:理想的、完整的Data Fabric设计,包含许多组件
- 设计良好的Data Fabric架构是模块化的,支持大规模、分布式多云、内部部署和混合部署。
- 当数据从源头提供给消费者时,它被编目、丰富以提供洞察和建议、准备、交付、编排和设计。
- 数据源的范围从孤立的遗留系统到最现代的云环境。
- Data Fabric的数据消费者包括数据科学家和数据分析师(与数据湖合作)、营销分析师(参与客户细分)、销售、营销和数据隐私专家(关注客户细分)、云架构师等。
Data Fabric架构
数据网格架构很容易使用数据编织实现
数据网格架构解决了数据管理中的四个关键问题:
- 数据分散在数十个甚至数百个遗留系统和云系统中,因此难以获得单一的事实来源
- 以数据为中心的企业必须处理的数据速度和数量
- 当访问通常需要数据工程时,数据难以获取
- 业务分析师、运营数据消费者、数据工程师和数据科学家之间缺乏沟通
Data Fabric非常适合数据网格设计,因为它构建了一个集成的跨广泛数据源的连接数据层,可即时、全面地了解业务,包括分析和运营工作负载。
Data Fabric建立了不同数据产品的语义定义、数据摄取模式以及保护数据的必要治理策略。此外,各种业务领域协调额外数据编织节点的部署,使它们能够控制数据管道和服务。
Data Fabric核心能力
- 可视化数据沿袭是一项关键技术,因为在使用传统数据建模和集成工具时会丢失关系洞察力。
Data Fabric支持将以下关键功能集成到单个平台中:
- 数据目录:对数据资产进行分类和盘点,可视化呈现信息供应链
- 数据工程:为运营和分析用例构建可靠且强大的数据管道
- 数据治理:确保质量、遵守隐私法规并使数据可用——安全且大规模
- 数据准备和编排:定义从源到目标的数据流,包括数据清理、转换、屏蔽、扩充和验证的步骤序列
- 数据集成和交付:从任何来源检索数据并将其交付给任何目标,采用任何方法:ETL(批量)、消息传递、CDC、虚拟化和APIs
- 数据持久层:为了在广泛的关系和非关系模型中动态持久化
数据编织还应该解决以下关键的非功能性能力:
- 数据规模、数量和性能:无论数据量有多大,都可以无缝地动态向上和向下扩展。支持企业级的运营和分析工作负载。
- 可访问性:支持所有数据访问模式、数据源和数据类型,并集成静态或动态的主数据和事务数据。从内部部署和云系统中以任何格式(结构化或非结构化)摄取和统一数据。数据结构逻辑访问层需要允许数据消费,无论数据存储或分布在何处、如何存储,因此无需深入了解底层数据源。
- 分发:Data Fabric应可部署在多云、本地或混合环境中。为了保持事务完整性和数据治理能力,Data Fabric需要支持智能数据虚拟化策略。
- 安全:在持久化数据的地方,必须对其进行加密和屏蔽以满足数据隐私法规。数据结构应该能够将用户凭据传递到源系统,以便正确检查和授权访问权限。
Data Fabric供应商
有多家供应商提供一组集成的功能来支持Data Fabric架构。排名前5位的Data Fabric供应商如下所示:
Strengths | Concerns |
---|---|
K2View | 单一的集成平台,结合了所有数据结构功能数据按业务实体唯一组织,用于实时数据管道和大规模“x360”工作负载支持需要实时数据集成和移动的海量数据工作负载全面支持分析和运营工作负载快速部署(通常在几周内)且易于适应,支持敏捷开发和CI/CD低总拥有成本(TCO) |
Denodo | 数据虚拟化的重点和实力目录用作执行安全和治理的单一入口点广泛的市场合作伙伴关系分析用例的优化 |
Talend | 跨多云和混合生态系统的数据集成的重点和优势广泛的数据工程能力用于各种数据源的广泛连接器集 |
Informatica | 使用AI和ML增强数据集成和数据质量支持优化分析、数据迁移和MDM的数据集成优势能够扩展以支持复杂的数据集成方案 |
IBM Cloud Pak for Data | 强大的产品可扩展性和性能多样化的数据集成交付方式和架构数据虚拟化和元数据管理改进的集成功能重新打包为Cloud Pak for Data |
为什么选择K2View
K2View是唯一能够实时、大规模响应以实体为中心的数据查询并支持运营和分析工作负载的数据编织。以下是K2View成为世界上一些最大企业的首选数据编织的5个原因:
- 适用于每个业务实体的微型数据库:K2View的专利Micro-Database™提供无与伦比的性能、易于访问、数据完整性和通用语言在业务和IT之间。K2View Data Fabric将来自所有底层源系统的每个业务实体的数据统一到一个单一的微数据库中,一个业务实体的每个实例。
- 为了最大限度地提高性能:数据同步规则定义了微型数据库中每个数据元素从源系统更新的频率和事件。数据虚拟化规则定义了哪些数据会被持久化在micro-DB中,并且只会缓存在内存中。每个micro-DB被压缩了大约90%,从而降低了数据传输成本。每个micro-DB都用自己的唯一密钥加密,这样每个实体都是唯一安全的。这为静态数据保持最高级别的安全性。
- 数据从任何来源、任何目标、在任何风格:K2View开发了一种可操作的数据编织,可以从任何来源以任何数据交付方式摄取数据,然后在几毫秒内将其转换为交付到任何目标。
- 微服务向消费应用程序提供任何业务实体的单一视图:K2View Data Fabric提供用于创建和调试微服务的低代码/无代码框架。使用可视化的拖放式构建器,可以快速定制和编排微服务以支持任何操作用例。这种方法有助于将数据视为产品并支持网格架构。
- 一个平台,许多用例:K2View平台是一个中央数据中心,可提供任何业务实体的实时、可信和整体视图到任何消费应用程序、数据湖或数据仓库。因此,数据编织的用例很多,并且跨越企业的许多部门。
综上所述,该平台提供:
- 模块化、开放、可扩展的架构:数据集成、转换、丰富、准备和交付——集成在一个可扩展的平台
- 中秒速、端到端、响应时间:企业数据编织,专为支持实时运营而构建,可在源和目标之间进行双向数据移动
- 运营和分析工作负载的数据管理:集成的可信数据,实时交付到消费应用程序中,或管道传输到数据湖和数据仓库中以进行分析