边缘化潜在语义编码器：零次学习新方法

144 浏览量更新于2025-01-16 收藏 1.67MB PDF 举报

"这篇论文提出了一种用于零次学习的边缘化潜在语义编码器（MLSE），旨在解决视觉识别中的零次学习问题，即在没有见过的新类别上进行识别。传统的有监督学习方法需要大量标注数据，而零次学习则试图通过已有的类别知识推断新类别。本文的核心贡献是设计了一个能够增强视觉语义函数泛化能力的框架，通过边缘化策略处理语义描述的不足和类别间的领域转移问题。零次学习（Zero-shot learning，ZRL）的关键在于如何利用已知类别的语义信息去识别未知类别。通常，这需要将视觉特征与语义表示相结合。论文中提出的MLSE模型包含两个主要部分：1) 视觉特征的学习，这一步是从可见类别中提取丰富的特征；2) 潜在语义的边缘化，通过自适应图重建方案，利用提供的语义信息学习潜在的语义表示。这个过程增强了模型对未见过类别的泛化能力。边缘化潜在语义编码器（MLSE）的工作机制是构建一个可以连接视觉特征和潜在语义的桥梁。在边缘化腐败的视觉特征（E(X)）和潜在语义Z之间，通过语义编码器（WE(X)）建立联系。同时，潜在语义Z是在给定的语义A上自适应地学习的。这一过程有助于克服语义描述的局限性，使得模型能从已知类别中学习到的特征迁移到未知类别。论文中提到，人类的认知学习机制启发了这种学习算法的设计。通过发现并理解可见类别的内在视觉语义，然后将这些映射应用到未见类别，零次学习试图模拟这一过程。常见的方法是使用词嵌入或预定义的语义属性来连接视觉特征和语义空间。尽管零次学习在理论上很有吸引力，但在实际应用中仍面临两大挑战：第一，人工标注的语义可能不足以全面描述视觉样本的复杂性；第二，已知类别和未知类别之间可能存在显著的领域差异。MLSE通过边缘化策略和自适应图重建解决了这些问题，提高了模型在零次学习场景下的性能。实验部分展示了在标准的零次学习基准测试上的结果，证明了MLSE相对于其他先进的零次学习方法具有优越的表现。这些实验结果进一步验证了该模型的有效性和泛化能力，对于推动视觉识别领域的零次学习研究具有重要意义。这篇论文提出的边缘化潜在语义编码器是一种创新的方法，它通过增强视觉特征学习和潜在语义表示的边缘化，提高了模型在面对新类别时的识别准确性和泛化性能，对解决零次学习问题提供了新的视角和解决方案。"

6191

用于零次学习的边缘化潜在语义编码器

Zhengming Ding

and Hongfu Liu

刘

宏福

美国印第安纳州印第安纳波利斯印第安纳大学-普渡大学计算机信息技术系

美国马萨诸塞州布兰代斯大学计算机科学学院

网址：zd2@iu.edu，hongfuliu@brandeis.edu

摘要

零射击学习已经被很好地探索，通过从现有对象获

得的视觉语义函数来精确识别新的未观察到的然而，

存在两个具有挑战性的障碍：一是人工标注的语义不

足以完全描述视觉样本

;

另一个是现有类和新类之间的

域转移。本文尝试在给定的语义不足以描述视觉对象

时，利用语义流形中的内在联系，采用边缘化策略增

强视觉语义函数的泛化能力。具体来说，我们设计了

一个边缘化潜在语义编码器（

MLSE

），这是学习的增

强看到的视觉特征和潜在语义表示。同时，潜在的语

义被发现下的自适应图重建方案的基础上提供的语

义。因此，我们提出的算法可以丰富的视觉特征，从

看到的类，以及推广到未观察到的类。零拍基准测试

的实验结果表明，该模型提供了优越的性能比国家的

最先进的零拍学习方法。

介绍

随着数据规模的快速增长和学习模型的不断改进，

可视化数据分析技术近年来取得了巨大的进步。传统

的视觉识别系统大多采用有监督的策略，需要大量标

注良好的实例来寻求高性能的模型。不幸的是，为有

效的模型收集足够的训练样本是昂贵的，甚至是禁止

的，特别是当这些样本需要细粒度的注释时。因此，

建立这样的识别系统是有吸引力和必要的，它可以在

测试阶段识别新的类别，而在训练过程中只有有限的

甚至没有

零触发学习（Zero-shot learning，简称ZRL）近年来

兴起，以其良好的性能受到广泛关注

语义编码器

尾

巴

黑色

毛皮

条纹

大

白色

语义表示Z

图1.我们的边缘化潜在语义编码器的图示，其中构建语义编

码器以桥接在

边缘化腐败

（

）

中的视觉特征

和具有

（

）

的潜在语义

。此外，潜在语义是

通过自适应图

（ZAS）

在

给定的语义A

上学习的

将知识从观察到的物体推广到看不见的物体[22，8，

33，11，6，17，14，31，3，26，7，28]。

事实上，在识别未知类的过程中，人类的认知学习机

制促使了学习算法的产生。CNOL试图从观察到的对

象中发现内在的视觉语义映射，并将其推广到未观察

到的类别。最常采用的方法之一是将可见类的视觉特

征及其相应的语义嵌入到同一个公共空间中，以耦合

两个之间的语义间隙，这意味着不可见类及其语义和

视觉样本也嵌入到同一个空间中。大多数现有的视觉

语义模型专注于寻求视觉语义功能，仅依赖于提供的

视觉数据及其语义[4，22，12，13]。视觉语义功能可

以简单地是线性映射[23]，或双线性映射[4]，或甚至

复杂的非线性功能，包括字典学习[8]，自动编码器

[12，17，3，34]和生成模型[38，31，9，7]，其中生

成模型通常有希望在训练阶段增加可见类的空间并且

更可能覆盖未可见类的空间。

虽然现有的知识表示方法在将已知知识推广到非知

识表示方面取得了一些有希望的结果

狮子

老虎

狮虎

豹

美洲狮

视觉特征X

自适应图S

下载后可阅读完整内容，剩余9页未读，立即下载

cpongm

粉丝: 6

边缘化潜在语义编码器：零次学习新方法

“用于零样本学习的语义自动编码器”的python实.zip

用于零样本学习的语义自动编码器(An implementation of SAE in MATLAB)

文本分类强力资料包！北大分词源码，中科院分词源码，潜在语义源码，wornet,机器学习库

属性注意与零次学习中的语义消歧框架

AREN:动态区域嵌入提升零次学习的语义区分能力

语义解缠：广义零次学习的新框架

零监督语义嵌入：提升零次学习的视觉表现

基于语义自编码器的零样本学习解决方案

SeFa-GAN：探索通用语义的封闭式潜在语义分解技术

实现Python中的SAE：语义自动编码器详解

最新资源