深度学习流量分类：应对不平衡数据集的焦点损失方法

首发论文

153 浏览量更新于2024-09-04 收藏 1.85MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"基于焦点损失的不平衡数据集流量分类方法" 本文主要探讨了一种针对不平衡数据集的深度学习流量分类方法，该方法采用焦点损失（Focal Loss）来解决类别不平衡带来的影响，以提高深度学习模型在有限标注数据下的性能。在流量分类任务中，深度学习模型通常表现出强大的特征提取和端到端学习能力，但现实世界中的流量数据往往分布不均匀，导致某些类别（通常是少数类）的识别效果不佳。首先，作者指出基于深度学习的流量分类技术依赖大量标注数据，而实际环境中，类别分布不均匀的问题会降低模型的分类效果。此外，获取足够的标注数据也是一项挑战，这限制了模型的训练和优化。为了解决这些问题，他们提出了一种结合采样技术和焦点损失的解决方案。焦点损失是一种专门为解决类别不平衡问题设计的损失函数，它可以降低易分类样本的贡献，从而使得模型更加关注难以分类的样本，即那些具有高区分度的样本。在不平衡数据集中，焦点损失通过调整损失函数的形式，使模型更加聚焦于那些稀有或难分类的样本，从而提高这些样本的分类准确性和模型的整体性能。实验部分，作者使用了一个名为"坃坓坃坘坖坐坎圭"的数据集进行验证。结果显示，通过应用基于焦点损失的方法，坃坨坡坴、坅坭坡坩埚、坖坐坎圭这三个类别的准确率均有显著提升，平均提升了圴圥以上。同时，单类平均召回率和精确度分别达到了圹圴圮圱圥和圹圳圮圳圥，这表明提出的方案在处理不平衡数据集时能有效提升模型的分类性能。关键词涵盖的领域包括不平衡数据集、深度学习、流量分类以及焦点损失。这表明该研究是针对网络流量分析领域的，旨在改善深度学习模型在处理不平衡数据时的表现，对于网络安全监控、流量管理等领域具有重要的实践意义。这篇论文介绍了一种新的策略，通过结合采样策略和焦点损失函数，有效地解决了深度学习在不平衡数据集上的流量分类问题，提高了模型对少数类别的识别能力，并在实验中取得了显著的性能提升。这一研究为后续的流量分类工作提供了有价值的参考，尤其是在面临类别不平衡问题时。

资源详情

资源推荐

˖ڍመ᝶஠ڙጲ

坨坴坴坰场圯圯坷坷坷圮坰坡坰坥坲圮坥坤坵圮坣坮

坏坥坵坮坧等人

[8]

的研究提出基于聚类的欠采样与合成少数群体过采样技术相结合的方法来缓解概

念漂移的问题。

基于深度学习的流量分类技术近些年来逐渐得到更多关注。在块坡坮坧

[12]

等人的研究中将网

络流作为样本，研究过程中并没有针对数据不平衡性进行处理，导致部分小类的分类性能较

差。面对数据集分布不均衡问题，目前主要的解决方案有基于数据方法、基于模型方法和集成

学习方法。目前，基于深度学习的流量分类方法主要采用数据层面的平衡方法。坌坯坴坦坯坬坬坡坨坩等

人

[13]

提出坄坥坥坰坐坡坣坫坥坴，为了解决数据集不平衡问题采用了随机采样的方法，虽然性能相对文

献

[11]

得到了提升，但随机采样技术基于采样样本与真实样本分布一致的前提，但在现实中难以

成立，给分类性能带来不稳定的因素。坈坡坳坩坢坩等人

[9]

通过使用长短期记忆网络来生成网络流实

现小类样本的扩充。块坡坮坧等人

[10]

通过均坁坎来实现数据集生成。

集成学习主要是通过训练多个学习器结合使用，往往效果高于单个学习器，主要分为数据

集成以及模型集成两种思路。但是，集成学习往往涉及到多个模型的训练，会消耗较高的算力

成本。网络流量分类领域中，因流量结构变化快、不断出现新类型流量，模型更新的频次以及

及时性要求较高。基于模型方法中，损失函数是一个可行的方向，通过为不同的训练样本设置

不同的模型贡献度来有效的利用训练数据，这个思想在机器视觉领域已经取得较好的进展。本

文将展开基于焦点损失函数的流量分类研究，并且进一步探索了采样技术与损失函数混合方法

的效果。

2 不平衡数据集下流量分类方法

针对流量分类任务中数据集不平衡带来的问题，本文提出基于焦点损失函数的不平衡数据

集下流量分类方法，如图圱所示，该方法一共分为四个步骤：（圱）原始数据预处理，目标是将

原始的坰坣坡坰文件转化为可以供神经网络读取的文件；（圲）数据平衡处理，目标是训练数据进行

平衡，降低不平衡对模型训练的影响；（圳）神经网络设置，选取适合的神经网络架构以及初始

化方法来确保模型性能；（圴）神经网络训练，通过设置焦点损失函数来平衡数据集不平衡带来

的影响。下文将着重介绍以上框架的关键步骤：章节圲圮圱介绍原始数据处理方法，章节圲圮圲介绍

第三步骤的神经网络设置，章节圲圮圳介绍第四步骤中最为关键的损失函数选择。数据平衡处理

以及神经网络训练将在实验章节进行介绍。

2.1 原始数据处理

基于统计的流量分类方法主要利用时间序列、报文头、有效荷载三种数据类型，常见的研

究将报文头以及有效荷载作为输入。常见的方法是对原始流量切分为流或者会话

[14]

。一个流

是指拥有相同五元组的数据包，本文也将采用此类方法。从原始流量中获取深度学习可以理解

计算的格式需要进行一系列的操作，数据处理分为五个步骤：（圱）原始数据处理；（圲）流量提

取；（圳）匿名化处理；（圴）流量截取；（圵）坉坄坘文件生成，如图圲所示。

在数据链路层中包含部分物理层信息比如坍坁坃地址，由于在数据集中采用的主机数目不

多，如果将这一系列信息放入到神经网络的训练过程中，很有可能出现基于主机的过拟合现

圭圳圭

剩余10页未读，继续阅读

weixin_38644141

粉丝: 6
资源: 924

深度学习流量分类：应对不平衡数据集的焦点损失方法

不平衡数据集

FocalLoss:多类分类的焦点损失

focal-loss-keras:Keras中的二进制和分类焦点损失实现

多类焦点损失函数 csdn

yolov8焦点损失

基于tensorflow 2.1的vit模型的cifrar100图像分类代码 ，损失函数为中心损失函数和焦点损失函数的联合函数，详细写出每一步的含义

将传统的交叉熵损失函数与焦点损失函数结合

pytorch焦点损失函数

不平衡数据处理python代码

焦点损失函数pytorch

yolov5s改进损失函数

attack—technique—dataset数据集

lytro多聚焦数据集下载

multi-class focal loss

基于android的焦点新闻

Focal Loss损失函数

focall1 loss损失函数

focal lo损失

muti class focal loss

目标检测 损失函数 消融

最新资源

基于tensorflow 2.1的vit模型的cifrar100图像分类代码，损失函数为中心损失函数和焦点损失函数的联合函数，详细写出每一步的含义

目标检测损失函数消融