迭代标签清洗算法：提升直推式与半监督少次学习性能

12 浏览量更新于2025-01-16 收藏 767KB PDF 举报

"本文介绍了一种新的迭代标签清洗算法，适用于直推式和半监督的少次学习场景。该算法利用标记和未标记数据的流形结构预测伪标签，同时进行类别平衡，通过有限容量分类器的损失分布选择最干净的标签，进而迭代提升伪标签质量。实验结果显示，该算法在miniImageNet、分层ImageNet、CUB和CIFAR-FS等数据集上取得了超越或匹配现有方法的最新结果，表现出对特征预处理和数据量的鲁棒性。" 本文探讨了少量学习（Few-Shot Learning）领域的问题，指出在监督有限且数据有限的情况下，深度学习的局限性。半监督学习和转导推理成为解决这一问题的有效手段。作者提出了一个新的算法，名为迭代标签清洗（Iterative Label Cleaning），该算法结合了半监督学习和转导推理的思想。首先，算法利用标记数据（Support Set S）和未标记数据（Query Set Q）的流形结构，通过特征映射f进行伪标签预测。流形结构预测有助于在高维数据中捕获数据的低维本质，这对于处理图像和复杂数据尤其重要。同时，为了保持类别间的平衡，算法会考虑各类别的伪标签分布。其次，算法借鉴了噪声标签学习中的策略，通过分析小容量分类器的损失值分布，选择那些导致较低损失的伪标签作为“干净”标签。这样可以减少因噪声标签引入的错误信息，从而提高模型的训练效果。迭代是该算法的关键步骤，随着每次迭代，伪标签的质量逐步提升，模型的性能也随之增强。实验表明，这种方法在多种数据集上的表现优于或与当前最佳方法相当，证明了其在处理小型数据集和有限监督条件下的有效性。此外，该算法对于特征预处理的鲁棒性和不同数据量的适应性也是其优点之一。这表明，即使在预处理技术或可用数据量变化的情况下，算法仍然能保持稳定的表现。这项工作为少量学习和半监督学习提供了新的视角，通过迭代标签清洗策略提高了模型在有限监督条件下的学习能力和泛化能力，为未来的研究提供了有价值的参考。源代码已在GitHub上公开，供研究者进一步研究和应用。

8753

∈×

∈∈

∈

联系我们

∈∈

我

对未标记查询的预测也从

novel

采样

。

查询彼此独立处

理。这被称为

归纳推理

。

在

直推推理

中，由M个未标记示例组成的

查询集

也从D novel中采样

。

给定映射

、S和Q，问题是对Q

进行预测，而不需要学习分类器。在这样做时，可以

利用Q中示例的分布，这很重要，因为假设M大于L。

在

半监督

少镜头分类中，M个未标记样本的未标记

集合

也从

novel

中采样

。

给定

，

和

，问题是学习

对来自

D novel

的新查询

进行预测

，

如在归纳推理中。

同样，

M> L

，我们可以利用

的分布。

在这项工作中，我们专注于转导推理和半监督分

类，给定

。

在归纳推理上的表现是我们的我们发展我

们的

和一个零向量。标签传播相当于求解N个线性系统

Z：

（I

−

）

−

，

（

）

其中α

，

）是超参数。所得到的T N矩阵Z可以用于

通过采取每行的最大元素来进行预测[67]。然而，在

进行预测之前，我们需要对类进行平衡。

3.4.阶级平衡

重点研究了

子矩阵

：=

+1：

，

：

（

）

(the最后M行）。我们首先执行逐元素

幂变换

用于转导推理解决方案。在半监督的情况下，我们遵

循相同的解决方案，其中Q被U代替。我们-

←

（

六

）

在U上的预测，然后我们继续在归纳的情况下，用

∪

U代替S。

3.2.

迭代标签清洗算法：提升直推式与半监督少次学习性能

一种新型的快速标签估计算法

牛顿迭代法详解：求解平方根的高效算法

C++ STL迭代器详解：类型与操作

半监督学习协同训练算法的仿真案例

熵基聚类算法：COOLCAT用于分类数据

游戏开发算法详解：迭代法与方程求解

MATLAB中三种迭代算法的实现与比较：Jacobi、SOR和Gauss-Seidel

LSMR算法：LSQR的迭代线性系统求解官方继承者

迭代式Lasso特征选择：高效处理高维数据

MATLAB数值算法比较：迭代法求解线性方程组的效率分析

最新资源