树结构感知的少镜头图像分类：利用前文本任务提升性能

60 浏览量更新于2024-06-19 收藏 1.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

"层次聚集的树结构感知的少镜头图像分类" 本文主要探讨了如何利用层次聚集和树结构感知来提升少镜头图像分类的性能。少镜头图像分类（Few-Shot Learning, FSL）是一种机器学习任务，目标是通过有限的标记样本（即“少镜头”）学习到通用的特征表示，以便对新的、未见过的类别进行有效分类。传统FSL方法由于数据稀缺，往往难以捕捉到新类别中的关键语义特征，从而限制了模型的泛化能力。文章提出了一个名为插件式层次树结构感知（Hierarchical Tree Structure Awareness, HTS）的方法。这个方法不仅考虑了FSL任务与预文本任务（如旋转、颜色置换等）之间的关系，还能够自适应地选择和聚合这些预文本任务生成的特征表示，以优化FSL任务的表现。HTS包含两个核心组件：层次树构造组件和门选择聚集组件。层次树构造组件用于构建一个能反映不同特征间关系的树结构，而门选择聚集组件则负责在树结构中寻找并整合最有价值的特征，以强化模型的学习效果。通过引入层次树结构，HTS能够发现更丰富的可传递知识，使模型能够在面对新的类别时快速适应，即使只有少量的标记图像。实验结果证明，HTS显著增强了多个现有的FSL方法，在四个基准数据集上实现了最先进的性能。研究者已经公开了相关代码，供其他研究者参考和复现实验。关键词涵盖了层次树结构、少镜头学习和预文本任务，强调了这些概念在解决FSL问题中的关键作用。预文本任务，如多角度旋转和颜色排列，可以帮助模型学习到更具鲁棒性和泛化的特征表示，这对于缓解因数据稀缺导致的表示学习挑战至关重要。本文提出的HTS方法为少镜头图像分类提供了一个创新的解决方案，通过层次聚集和树结构感知，有效地利用预文本任务来提升模型的泛化能力和新类别适应能力。这种方法对于未来在有限样本条件下改善深度学习模型的性能具有重要的理论和实践意义。

资源详情

资源推荐

+v：mala2255获取更多论

文

··

{

· ··

−

}

{

{\fnSimHei\bord1\sha

d1\pos

（

200

，

288

）

}





不



（



，



∈Q

）



























通过分层聚合的少镜头图像分类5

设定图像和相应原型的图像。使用经验风险最小化（ERM）的每个事

件的最终损失函数定义如下：

（S

，

）=

−

log p

，

exp

（

−

（



）

，



））

（二更）

保

义

∈C

我

，

exp

（

−

（



$（



）

，



））

其中

（

）表示距离函数（

例如，

，ProtoNet方法的平方欧几里德距

离遵循原始论文[36]）。

方法

4.1 FSL中的Pretext任务

辅助少量学习的预文本任务有两种设置：数据增强（DA）和自我监

督学习（SSL）（见图1中的示意图）。我们首先定义一组预文本任务

操作符



，，

，其中



表示使用第j个借口任务的运算符，

是借口任务的总数。此外，我们还使用



来表示通过使用针对每个

原始图像的第j个借口任务生成的增强图像的数量，并且该任务的伪

标签

集

被

定义

为



，，





.一

、

例如

，

对于

2D旋转

算子，每个

原始图像将以90直角的倍数旋转（

例如，

，90

，180

，270

），其中

增强图像是

旋转

3，并且

伪

标签

集合

是

旋转

{

，

}

。

Given

epis o



，



}

，

如

第3.1中，我们依次利用G中的这些预文本任

务算子来增强 T e 中的每幅图像。这导致 J 个增强片段的集合为



{

（



，



，



，

）



∈



，



∈Y



，

···

，





，



（



1）

，

···

，



（





）

，

···

，

}

，

其中第一图像





来自扩充支持集



，其余图像





来自扩充查询集



。

数据扩充。

对于DA设置，我们使用组合事件T

{{S



，



，

···

，

}

，

其中{S

，

}是原始片段，并且{{S



，



，

···

，

}

是增强的片段。当

≥1时

，

除非另有说明，否则等于

。

中的每个图像（



，



）采用相同的类标

签



（来自人类注释）用于监督学习以提高FSL的性能。目标是最小

化交叉熵损失：

（



，



）

（三）



使用基于相同标签空间的经验风险最小化（ERM）算法（

例

如，

，y



）

来学习原始和增强的特征表示。然而，如果增强的图像具有

模糊的表示，这种优化方法可能会干扰FSL模型的语义学习。

自我监督

学习。

对于SSL设置，Te中的每个原始图像

（



，



）

使用

类

标签



用于

支

持

学习，

而

aug中的

每个

增强

图像

（



，



）

携带伪

标签



用于自

支持

学

习。

多任务

学习

损失（FSL主任务和SSL辅助任务）通常采用如下：

（S

，

）+



，

剩余21页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

树结构感知的少镜头图像分类：利用前文本任务提升性能

基于层次语义的图像分类方法

传统图像分类与深度学习图像分类的区别

图像的霍夫曼编码树结构

分割树是如何应用到优化图像分类结果的

基于决策树的鸢尾花图像分类

matlab中决策树与随机森林图像分类代码

决策树对图像分类的原理

如何通过线段树优化图像分类结果

基于Bayes、决策树和SVM的图像分类

confluence页面树结构创建

图像分类常用算法和模型

遥感图像分类方法有哪些类型？它们的划分依据各是什么？

树结构属于非线性结构树结构中的结点具有一对多的逻辑关系是正确的吗

学习笔记(01):深度学习图像处理之垃圾分类-图像处理及图像分类的基础知识

matlab医学图像分类

遥感图像分类国内外研究现状

opencv2.4 图像分类

基于gui界面图像分类的matlab

sql Server树结构

集简云平台树结构组件

最新资源