多源异构大数据的采集、处理与融合技术探讨

创作时间:

作者:

@小白创作中心

多源异构大数据的采集、处理与融合技术探讨

引用

来源

https://juejin.cn/post/7377368708564484132

随着信息化和网络化的快速发展，多源异构大数据的采集、处理与融合技术变得越来越重要。本文将探讨如何有效地处理来自不同来源、类型和格式的海量数据，以及相关的技术挑战和解决方案。

引言

文章主要探讨了在当前信息化、网络化快速发展的背景下，如何有效地采集和处理来自不同来源、类型、格式的海量多源异构数据。这些数据具有多样性、复杂性和动态性等特点，给数据采集和处理带来了极大的挑战。

必要性

在进行数据采集的过程中，对原始素材进行数据处理，抽取出高价值、标准化、高可用的数据是重要的先决技术条件。如表所示，原始素材来源渠道广泛、类型多样化、数据承载形式不一、具体格式标准，这给数据标准化处理过程带来了极大的挑战，该数据处理过程所需要的技术是系统数据采集服务的关键技术之一。

素材来源渠道	素材类型	数据承载形式	数据格式类型
防火墙模块	网络通信日志	网络日志流数据	自有A格式
终端安全防护模块	终端行为日志	文本txt类型	自有B格式
系统数据接入	接口数据文件	Json数据格式	自有C格式
系统数据导出	导入导出文件	Csv、Excel文件	自有D格式
工控扫描数据	指纹匹配结果	Sql文件、json文件	自有E格式
蜜罐诱捕数据	攻击行为数据	json文件	自有F格式

解决方法

海量多源异构数据处理技术基于对多源异构数据（终端安全、搜索引擎等各类数据）处理经验和现有技术基础，结合实际业务流程，对该项关键技术按照数据处理流程模块化、处理方式领域化和数据格式定制化进行分解，根据原始素材和实现数据目标的属性内容进行实现，通过对各来源的数据设置数据处理过程和预置数据内容处理规则，使用OPL（objects-properties-links）数据提取方式，将提取的数据与系统标准数据进行字段关联映射，达到提取目标数据的效果。

海量多源异构数据处理技术在数据处理过程时将预处理的内容进行过程分级选择和处理方式选择。分级选择是针对数据采集和数据融合的具体过程，如对某个数据段选数据采集采集方式、清洗方式、要素内容、转换格式，选择后可具体到每个步骤的处理内容，如清洗方式可选择数据缺失补全、数据模糊计算、逻辑错误处理等。在预置数据内容处理规则时，对目标数据片段内容进行系统字段映射，在数据处理流程的过程中进行对象生成、属性补全和关系确定。最终对不同来源数据、不同格式化的数据进行过程规则和数据规则来实现该项关键技术。

目前数据处理流程模块化和数据处理方式领域化技术已有相关模型，对于特定处理流程模块需要从业务的角度理解研发，并结合定制化的数据模型与领域对象结合进行适配。

图 1 复杂逻辑模块与领域对象分解示意图