迭代标签清洗算法:提升直推式与半监督少次学习性能

0 下载量 12 浏览量 更新于2025-01-16 收藏 767KB PDF 举报
"本文介绍了一种新的迭代标签清洗算法,适用于直推式和半监督的少次学习场景。该算法利用标记和未标记数据的流形结构预测伪标签,同时进行类别平衡,通过有限容量分类器的损失分布选择最干净的标签,进而迭代提升伪标签质量。实验结果显示,该算法在miniImageNet、分层ImageNet、CUB和CIFAR-FS等数据集上取得了超越或匹配现有方法的最新结果,表现出对特征预处理和数据量的鲁棒性。" 本文探讨了少量学习(Few-Shot Learning)领域的问题,指出在监督有限且数据有限的情况下,深度学习的局限性。半监督学习和转导推理成为解决这一问题的有效手段。作者提出了一个新的算法,名为迭代标签清洗(Iterative Label Cleaning),该算法结合了半监督学习和转导推理的思想。 首先,算法利用标记数据(Support Set S)和未标记数据(Query Set Q)的流形结构,通过特征映射f进行伪标签预测。流形结构预测有助于在高维数据中捕获数据的低维本质,这对于处理图像和复杂数据尤其重要。同时,为了保持类别间的平衡,算法会考虑各类别的伪标签分布。 其次,算法借鉴了噪声标签学习中的策略,通过分析小容量分类器的损失值分布,选择那些导致较低损失的伪标签作为“干净”标签。这样可以减少因噪声标签引入的错误信息,从而提高模型的训练效果。 迭代是该算法的关键步骤,随着每次迭代,伪标签的质量逐步提升,模型的性能也随之增强。实验表明,这种方法在多种数据集上的表现优于或与当前最佳方法相当,证明了其在处理小型数据集和有限监督条件下的有效性。 此外,该算法对于特征预处理的鲁棒性和不同数据量的适应性也是其优点之一。这表明,即使在预处理技术或可用数据量变化的情况下,算法仍然能保持稳定的表现。 这项工作为少量学习和半监督学习提供了新的视角,通过迭代标签清洗策略提高了模型在有限监督条件下的学习能力和泛化能力,为未来的研究提供了有价值的参考。源代码已在GitHub上公开,供研究者进一步研究和应用。