探究大语言模型在代码漏洞检测方面的应用：一项实验性研究

创作时间:

作者:

@小白创作中心

探究大语言模型在代码漏洞检测方面的应用：一项实验性研究

引用

安全内参

https://www.secrss.com/articles/76862

近年来，随着软件系统的复杂度增加，代码漏洞的数量也迅速增长。自动化漏洞检测已经成为企业和研究机构关注的重点。传统的漏洞检测方法依赖动态分析技术，如模糊测试（Fuzzing）和符号执行（Symbolic Execution），但这些方法需要执行代码，计算成本较高。相比之下，基于深度学习的静态分析方法仅依赖于代码本身，无需运行代码，因此在CVD领域得到了广泛应用。

研究背景

近年来，随着软件系统的复杂度增加，代码漏洞的数量也迅速增长。自动化漏洞检测已经成为企业和研究机构关注的重点。传统的漏洞检测方法依赖动态分析技术，如模糊测试（Fuzzing）和符号执行（Symbolic Execution），但这些方法需要执行代码，计算成本较高。相比之下，基于深度学习的静态分析方法仅依赖于代码本身，无需运行代码，因此在CVD领域得到了广泛应用。

早期的深度学习方法主要采用图神经网络（GNNs）和基于Transformer的预训练模型：

图神经网络（GNNs）：如Devign，通过构造代码图（AST、CFG、PDG等）来提取漏洞特征，适用于结构化信息分析。
序列模型：如CodeBERT、UniXcoder，将代码视为文本序列，通过Transformer模型学习漏洞模式，适用于大规模代码分析。

近年来，大语言模型（LLMs）在自然语言处理和代码智能任务中取得了巨大成功。然而，它们在CVD任务中的潜力仍未被充分探索。本研究通过微调四种开源LLMs（Llama-2、CodeLlama、Llama-3、Llama-3.1），并在五个常见CVD数据集上进行实验，分析它们的性能表现，并与现有的基准方法进行对比。

研究动机

统一评测环境：现有研究使用的数据集和实验环境不一致，难以比较不同方法的性能。因此，本研究统一了五个主流CVD数据集，并实现了完整的基准模型。
探索LLMs在CVD中的潜力：尽管LLMs在代码生成等任务中取得了成功，但它们在代码漏洞检测任务中的有效性尚未得到充分研究。
分析类别不平衡和代码长度的影响：CVD数据集中漏洞样本通常较少，且漏洞模式常见于长代码段。本研究设计实验量化分析这些因素对模型性能的影响。

BENCHMARK 设计

本研究针对代码漏洞检测（CVD）任务，构建了一个完整的基准测试框架，涵盖多种模型、五个广泛使用的数据集以及统一的评测标准，以确保实验的公平性和可复现性。

评测模型
研究者选择了三类模型进行评估：

图神经网络（GNN）模型：Devign、ReGVD、GraphCodeBERT，这些模型利用代码的图结构进行漏洞检测。
中型预训练序列模型：CodeBERT、UniXcoder，这些基于Transformer的编码器在代码分析任务中表现出色，但受限于512个Token的输入长度。
大语言模型（LLMs）：Llama-2、CodeLlama、Llama-3、Llama-3.1，这些模型具备更强的代码理解能力，并可处理更长的代码片段。

数据集
实验采用五个主流CVD数据集（ReVeal、Devign、Draper、BigVul、DiverseVul），涵盖不同类型的代码漏洞，并按代码长度分为短代码（≤512 Token）和长代码（512-1024 Token），以分析代码长度对模型性能的影响。

评测指标
使用准确率（Acc）、精确率（Pre）、召回率（Rec）、F1分数、假阳性率（FPR）等指标全面评估模型性能，重点关注F1分数以应对数据集类别不平衡的问题。

研究实验

实验设置

实验环境
所有实验在 Ubuntu 20.04 服务器上运行，硬件配置包括 AMD Ryzen 24核处理器和 NVIDIA L20（48GB）GPU，主要计算框架为 PyTorch 2.1.0，CUDA 版本为 12.1。
数据集划分
研究采用ReVeal、Devign、Draper、BigVul、DiverseVul 五个数据集，并按照代码长度分为短代码（≤512 Token）和长代码（512-1024 Token）两个子集。所有数据集均按 8:1:1 的比例划分为训练集、验证集和测试集。
模型与超参数
图神经网络模型（Devign、ReGVD）：输入特征维度设为200，优化器采用 Adam，学习率 1e-4，权重衰减 1e-3。
中型预训练模型（CodeBERT、UniXcoder）：块大小512（短代码）/1024（长代码），优化器AdamW，学习率2e-5。
大语言模型（LLMs）（Llama-2、CodeLlama、Llama-3、Llama-3.1）：采用 LoRA 低秩适配微调，关键超参数包括：秩 16，缩放因子32，Dropout 0.05，优化器 AdamW，学习率 1e-4，训练 5 轮。
评测指标
采用准确率（Acc）、精确率（Pre）、召回率（Rec）、F1分数、假阳性率（FPR）作为评测指标，其中F1分数作为核心评估标准，以应对数据类别不平衡的问题。