Transformer-based VulExplainer: Hierarchical Distillation for Balanced Vulnerability Type Explanation

需积分: 0 50 浏览量更新于2024-08-03 收藏 745KB PDF 举报

VulExplainer是一个创新的深度学习解决方案，特别针对软件漏洞类型解释的问题。它采用Transformer架构，结合了层次化知识蒸馏的概念，旨在解决现有漏洞识别方法中由于数据不平衡（尤其是CWE-ID分布不均）导致的性能问题。该方法的核心思想是通过将CWE-ID按相似性划分为五个组（base、category、class、variant和deprecated），将复杂的标签分布转化为更均衡的子分布，这样可以让教师模型如TextCNN在各自的子集中发挥优势。首先，作者认识到在漏洞分类过程中提供CWE-ID的重要性，这对于安全工程师理解漏洞本质和优先级至关重要。然而，现有的自动识别方法由于数据收集和不平衡问题，效果并不理想。为了改进这一状况，他们借鉴了深度学习领域中的知识蒸馏概念，通过从多个教师模型（在这里是TextCNN，针对不同CWE子集）中抽取知识，传授给一个Transformer学生模型。 VulExplainer方法分为两个阶段：数据预处理和知识蒸馏。在数据预处理阶段，通过新颖的标签划分策略，确保每个子分布的CWE-ID类别更加均衡。接着，在知识蒸馏阶段，Transformer模型利用其自注意力机制，从TextCNN教师模型处提取并整合来自不同层次的信息，从而提高模型对不平衡数据的处理能力。研究者通过对比实验，将VulExplainer与七种竞争性基线方法进行了广泛的评估，结果显示，VulExplainer在8,636个真实世界漏洞数据上表现出色，相比于这些基线，提升幅度达到了5%至29%。这表明VulExplainer不仅在性能上有所提升，而且适用于基于Transformer的模型，如CodeBERT、GraphCodeBERT和CodeGPT，无需对模型架构进行改动，仅需在输入中加入特殊的蒸馏标记即可实现。 VulExplainer的提出对于提升软件漏洞类型的解释精度和解决深度学习模型在不平衡数据上的挑战具有重要意义，为网络安全领域的自动漏洞分析提供了一种有效且灵活的方法。

VulExplainer A Transformer-Based Hierarchical

Distillation for Explaining Vulnerability Types

Abstract

提出了一种解释漏洞类型的方法。引入了基于 Transformer 的软件漏洞分类分层蒸馏，以

解决高度不平衡的软件漏洞类型。具体来说，我们根据 CWE 抽象类型（即对相似的 CWE-

ID 进行分组的分类）将复杂的标签分布拆分为子分布。因此，相似的CWE-ID可以被分

组，并且每个组将具有更平衡的标签分布。分别在每个分类上训练 TextCNN 教师模型，然

而，他们只在自己的组中表现良好。因此，构建了一个 Transformer 学生模型，通分层知

识蒸馏框架来概括 TextCNN 教师的表现。通过使用现实世界中的 8,636 个漏洞进行广泛评

估，方法比所有基线高出 5%–29%。结果还表明，方法可以应用于基于 Transformer 的架

构，例如 CodeBERT、GraphCodeBERT 和 CodeGPT。此外，方法保持与任何基于

Transformer 的模型的兼容性，无需任何架构修改，而只需向输入添加特殊的蒸馏令牌。

1 Introduction

1. 如果漏洞分类时能给出漏洞类型（CWE-ID）可以帮助安全工程师

2. 已有几种自动化方法来识别给定程序或漏洞描述的CWE-ID，但由于收集方法和数据

集的不平衡问题，导致方法效果不佳

3. 从深度学习领域的文章受到启发，使用蒸馏从一个或多个教师模型转移知识到学生模

型

4. 推测按照标签频率分组有助于减轻数据不平衡问题（将相似的CWE-ID分成一组），

根据NVD官网将CWE分成五组(base、category、class、variant和deprecated)

贡献

5. 提出了VULEXPLAINER，一种分层软件漏洞蒸馏方法，包括两个阶段，旨在解决

SVC 的数据不平衡问题

6. 提出了一种新颖的数据划分方法来分割标签基于 CWEID 的分层性质，分布为由更相

似的 CWE-ID 组成的多个更平衡的子分布

7. 引入了基于 Transformer 模型自注意力机制的蒸馏方法，根据源代码数据的层次结构

从多个 TextCNN 教师中分层蒸馏知识。

8. 将 VULEXPLAINER 与第 IV-B 节中提到的七种竞争性基线方法进行比较来进行广泛的

评估。

9. 将VULEXPLAINER 与针对不平衡数据问题提出的两种先进的基于损失的方法（即焦

点损失和 logit 调整）进行比较来进行实证评估。

下载后可阅读完整内容，剩余5页未读，立即下载

ohmysoni_s_zhuo远

粉丝: 85
资源: 1

Transformer-based VulExplainer: Hierarchical Distillation for Ba...

最新资源

Transformer-based VulExplainer: Hierarchical Distillation for Ba...

【超强组合】VMD-海洋捕食者算法MPA-Transformer-BiLSTM光伏预测【含Matlab源码8550期】.zip

Transformer-XL模型代码

Hindi-to-English-Transformer-Based-NMT:使用Transformer模型将文本从印地语翻译为英语

TOD-Net An end-to-end transformer-based object detection network

Transformer-Based-Classifier:借助变压器注意机制实现序列分类器

Recurrent DETR: Transformer-Based Object Detection for Crowded S

Transformer-Based模型在情感分析中的应用

Transformer-based文本生成模型的思考与实践

Transformer-based

transformer-based

最新资源