问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

基于汇编代码和源代码融合的漏洞检测系统

创作时间:

作者:

@小白创作中心

基于汇编代码和源代码融合的漏洞检测系统

引用

CSDN

1.

https://blog.csdn.net/qq_42052733/article/details/137874541

本文介绍了一种基于源代码和汇编代码融合的漏洞检测系统。该系统通过融合两种代码的特征，采用深度学习方法进行漏洞检测，有效提高了检测准确率。

1. 提出问题

传统的漏洞检测方法往往只从单一角度（如源代码或汇编代码）提取特征，这导致在检测某些特定类型的漏洞（如数组越界访问）时表现不稳定，容易出现漏报。

2. 解决方案

2.1 提出方法

为了解决上述问题，本文提出了一种融合源代码和汇编代码信息的漏洞检测方法。具体来说，采用多模态混合融合策略构建网络模型。首先通过早期融合将汇编代码片和源代码片段结合起来。然后，这些混合片断，连同源代码片断和汇编代码片断被送入三个单独的网络中。最后，这三个网络的结果被用来通过后期融合给出最终决定。

2.2 主要贡献

文章的主要贡献包括：

通过融合汇编代码和源代码漏洞的特征来提高漏洞检测性能。
提出一种在源代码和汇编代码之间快速对齐数据片的数据对齐算法。
收集了一个由源代码和汇编代码组成的漏洞数据集，该数据集可用于训练和验证所提出的基于多模态融合的漏洞检测方法。

3. 系统设计

3.1 系统概述

系统分为训练和测试两个阶段。训练阶段主要包括以下步骤：

源代码处理：根据漏洞候选特征提取源代码切片，添加标签。
程序编译：通过GCC编译器编译源代码得到对应的汇编代码。
汇编代码处理：利用代码切片对齐算法提取源代码切片对应的汇编代码切片，并添加标签。
向量表示：将源代码切片、汇编代码切片和混合代码切片转化为向量。
模型训练：使用上述生成的数据训练网络模型。

测试阶段前4个步骤与训练阶段一致，第5步输出漏洞检测结果（即”0“或”1“）。

3.2 网络模型

后期融合模型：这三个网络的决定可能是不同的。因此在系统的最后，这些决定要通过一个投票层来获得最终结果。在这一层中采用了多数投票。众所周知，晚期融合模型通常比单一模型得到的结果更好，它可能避免单个模型中的错误决定。

3.3 代码对齐算法

整个算法可以归纳为三个阶段：（1）生成伪代码；（2）收集匹配的汇编代码的候选集；（3）寻找最佳匹配。

使用IDA Pro从汇编代码中生成伪代码pe_code（即算法中的第3行），其中pe_code中的每个语句Pi对应于汇编代码中的几行语句diu, . . . ,diw。
搜索与sik相匹配的候选汇编代码语句集（即算法的第4-9行）。对于每个Pi，如果它的语句类型（如循环语句和赋值语句）与sik相同，那么对应的汇编代码片段diu, . . . ,diw被认为是sij的候选匹配。
使用匈牙利算法从候选集D′i中获得一个片断（di1, . . . ,dij）。它被认为是Si的潜在匹配对象，并被合并到Di中。使用字符串和整数常量，函数和库调用，以及函数声明信息来计算Di和Si之间的相似性。如果这个相似度大于一个阈值，就认为Di是Si对应的汇编代码片段。否则，重复这一阶段，直到找到一个满意的匹配（即算法中的第11-16行）。

4. 实验

4.1 数据集

实验采用软件保障参考数据集（SARD）。这些代码在Windows X64上用GCC进行编译，得到相应的汇编代码。随机选择80%的源代码和对应的汇编代码作为训练数据集，其余20%用于测试。

4.2 结果分析

与VulDeePecker（在源代码层面检测漏洞）和BVDetector（在汇编代码层面检测漏洞）中提出的方法进行比较。图7中展示了这些系统的训练精度和训练损失曲线，可以看出，所有被比较的系统都能快速收敛。二者平均准确率接近90%，而本系统的准确率可以达到97%。

表3列出了不同方案的标记代码片的数量。可以看出，有些漏洞可以被基于源代码的模型检测到，但不能被基于汇编代码的模型检测到。相反，有些漏洞只能被基于汇编代码的模型检测到。

以图8所示的代码片段为例，它是一个与数组越界访问有关的漏洞。基于源代码切片的系统可能会错误地将该漏洞检测为正常的指针运算，因为在计算中很难检测到越界数组访问。相比之下，使用汇编代码片的系统可以很容易地通过内存地址检测到这个漏洞。

表4和表5显示了测试集的比较结果，与其他系统相比，系统在各方面都取得了更好的结果。与VulDeePecke和BVDetector相比，基于特征融合的系统可以将F1得分提高10，同时系统的F1值也远远高于Flawfinder获得的分数。

5. 个人总结

文章提出了一个通过深度学习来检测软件中漏洞的系统，它结合了源代码和汇编代码的漏洞特征来提高漏洞检测的能力。该系统从程序的源代码和汇编代码中提取代码切片，并采用基于字符串、整数常量、函数和库调用等的代码对齐算法来对齐这些代码片，实现了一个原型并进行了系统的实验。

6. 方法局限性

仅适用于C/C++程序，无法应用于其它编程语言。
将源代码和汇编代码漏洞特征融合并用于漏洞检测，缺乏一定的可解释性。
文中提出的代码对齐算法可能存在一定的误差，例如某行源程序可能对应的并不是通过该算法计算得到的那几行汇编代码。

本文原文来自《Security and Communication Networks》，项目地址：https://github.com/onstar99/VulnerabilitySystem

热门推荐

天基动能武器：技术原理与战略应用

天基动能武器：技术原理与战略应用

天基动能武器：技术原理、优势与防御策略

天基动能武器：技术原理、优势与防御策略

截屏为什么无法储存照片？六大原因及解决方案详解

截屏为什么无法储存照片？六大原因及解决方案详解

大灯翻新修复液是什么原理？

大灯翻新修复液是什么原理？

农夫行走正确锻炼方法

农夫行走正确锻炼方法

艾草生长在什么地方？艾草有哪些品种？

艾草生长在什么地方？艾草有哪些品种？

结婚后女方可以单方面打胎吗？婚前存款婚后是否属于共同财产？

结婚后女方可以单方面打胎吗？婚前存款婚后是否属于共同财产？

走进宁东能源化工基地，探寻新质生产力的"新"密码

走进宁东能源化工基地，探寻新质生产力的"新"密码

合伙人闹掰了该怎么处理他

合伙人闹掰了该怎么处理他

属猴人的大日如来佛形象是什么样的？属猴人的守护神大日如来佛解析

属猴人的大日如来佛形象是什么样的？属猴人的守护神大日如来佛解析

预防红斑角化症的方法主要包括以下几个方面

预防红斑角化症的方法主要包括以下几个方面

广东江苏GDP数据出炉：一个总量第一，一个增量夺冠

广东江苏GDP数据出炉：一个总量第一，一个增量夺冠

中国让《复仇者联盟》的科技走进现实！空中成像、防空导弹......

中国让《复仇者联盟》的科技走进现实！空中成像、防空导弹......

库存车比正常车便宜的原因

库存车比正常车便宜的原因

K12课件设计技巧有哪些？

K12课件设计技巧有哪些？

美容院不退钱违法的吗？美容过敏能否要求赔偿？

美容院不退钱违法的吗？美容过敏能否要求赔偿？

一种基于柔性形变天线的极化波束在线重构技术

一种基于柔性形变天线的极化波束在线重构技术

初中英语词汇教学方法

初中英语词汇教学方法

PCIe SSD在温变环境的稳健性技术剖析

PCIe SSD在温变环境的稳健性技术剖析

大乌苏啤酒：新疆特色啤酒的传奇故事

大乌苏啤酒：新疆特色啤酒的传奇故事

唐氏综合症会遗传吗？【医生监修】

唐氏综合症会遗传吗？【医生监修】

唐氏综合症（21号染色体三体综合症）儿童的教育【医生监督】

唐氏综合症（21号染色体三体综合症）儿童的教育【医生监督】

中医心理学：情绪与脏腑的关联

中医心理学：情绪与脏腑的关联

探秘祁连山，河西走廊生态屏障与文明走廊的双重魅力！

探秘祁连山，河西走廊生态屏障与文明走廊的双重魅力！

祁连山风光旅游景区 - 自然奇观与文化遗迹的完美融合 🌄

祁连山风光旅游景区 - 自然奇观与文化遗迹的完美融合 🌄

具有保值或增值特性的物品有哪些？这些物品的价值如何评估？

具有保值或增值特性的物品有哪些？这些物品的价值如何评估？

怀孕期间需要进行哪些必要的饮食调整？

怀孕期间需要进行哪些必要的饮食调整？

医学研究：经常吃醋，能软化血管，改善动脉硬化？是真的吗

医学研究：经常吃醋，能软化血管，改善动脉硬化？是真的吗

这3个情况最容易“隔代遗传”，尤其会传给男孩子，家长要注意

这3个情况最容易“隔代遗传”，尤其会传给男孩子，家长要注意

如何选择理想的居住楼栋？这样的楼栋有哪些特点？

如何选择理想的居住楼栋？这样的楼栋有哪些特点？

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号