面向广义零样本学习的领域感知偏差消除网络

145 浏览量更新于2023-10-24 收藏 12.93MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Shaobo Min1, Hantao Yao2, Hongtao Xie1∗, Chaoqun Wang1, Zheng-Jun Zha1, and Yongdong Zhang1{mbobo,cq14}@mail.ustc.edu.cn, hantao.yao@nlpr.ia.ac.cn, {htxie,zhazj,zhyd73}@ustc.edu.cn0.640.751126640面向广义零样本学习的领域感知视觉偏差消除01 中国科学技术大学 2 中国科学院自动化研究所模式识别国家重点实验室0摘要0广义零样本学习旨在识别来自已知和未知领域的图像。最近的方法侧重于学习一个统一的语义对齐的视觉表示，以在两个领域之间转移知识，而忽视了无语义视觉表示在缓解偏见识别问题方面的影响。本文提出了一种新颖的面向领域感知的视觉偏差消除（DVBE）网络，该网络构建了两种互补的视觉表示，即无语义和语义对齐，以分别处理已知和未知领域。具体而言，我们探索了交叉注意力的二阶视觉统计量来压缩无语义表示，并设计了自适应边界Softmax来最大化类间差异。因此，无语义表示变得足够有区分性，不仅可以准确预测已知类别，还可以基于预测的类别熵过滤出未知图像，即领域检测。对于未知图像，我们自动搜索最佳的语义-视觉对齐架构，而不是手动设计，来预测未知类别。通过准确的领域检测，大大减少了对已知领域的偏见识别问题。在五个分类和分割基准测试上的实验证明，DVBE的性能优于现有方法，平均提高了5.7%。01. 引言0深度学习在许多视觉任务中取得了巨大的进展，例如图像分类[16, 28, 29, 53, 54, 60]，目标检测[22, 38]和语义分割[6,58,59]。然而，这些显著的技术严重依赖于各种类别的大规模数据，而无法对其进行全部注释。因此，广义零样本学习（GZSL）引起了越来越多的关注，它可以识别来自已知或未知类别的图像。0� 通讯作者。0无语义0熵检测器0已知类别0√0×0语义标签0已知未知0“豹子”0“老虎”0语义对齐的未知类别0视觉图像0图1.DVBE的推理框架。由于语义对齐的视觉表示的弱区分性，DVBE构建了一个额外的无语义的视觉表示来提高已知类别的预测并正确过滤出未知图像。0广义零样本学习的一般范式是将视觉图像和语义标签（例如，类别属性[12]）在一个联合语义空间中对齐，其中识别变成了最近邻搜索问题[45, 48,61]。在联合空间中，语义嵌入和视觉表示分别被视为类锚点和输入查询[1,9]。然而，提供的语义标签通常不具有区分性[9, 37,61]，其中一些非常相似，例如图1中“老虎”和“豹子”之间的0.75余弦相似度。因此，在语义-视觉对齐之后，视觉表示之间的类间差异不可避免地被削弱，进一步导致偏见识别问题[9, 10,41]，即未知图像往往被识别为已知类别。为了解决上述问题，最近的方法[1, 5, 24, 41, 61,62]侧重于增加视觉表示的区分性。例如，SP-AEN[5]通过将视觉表示重构回图像来保留有区分性的视觉拓扑。DLFZRL[41]将图像表示分解为几个潜在组件以提高模型的泛化能力。AREN [50]和VSE[61]探索基于部分的嵌入以捕捉详细的视觉线索。尽管这些方法是有效的，但它们的视觉表示最终仍与语义标签对齐，以实现126650因此，它们仍然受到通过语义-视觉对齐导致的视觉区分度降低的影响。与以往的方法不同，我们考虑在GZSL中学习额外的无语义视觉表示。只使用类别标签进行监督，高度有区分性的无语义表示不仅可以提高已见类别的预测准确性，还可以基于已见类别预测熵来过滤出未见图像，即域检测，如图1所示，尽管它不能被传递到未见域。一旦域检测准确，经过过滤的未见图像可以在域感知搜索空间中被识别，从而缓解有偏见的识别问题。基于上述讨论，我们提出了一种新颖的域感知视觉偏差消除（DVBE）网络，用于构建两种互补的视觉表示，分别是无语义和语义对齐。具体而言，DVBE解决了两个主要问题：a）如何提高无语义表示的区分度以提高域检测准确性；b）如何设计稳健的语义-视觉对齐架构以实现知识传递。为此，DVBE包括两个子模块，即自适应边界二阶嵌入（AMSE）和自动搜索的语义-视觉嵌入（autoS2V），如图2所示。只使用已见域训练数据，AMSE旨在学习一个足够有区分性的无语义表示，以正确分类已见图像并正确过滤出未见图像。为此，AMSE利用二阶视觉统计信息来捕捉微妙的类间差异。为了减少高维二阶表示中的无关信息，设计了一个跨通道的交互注意力机制，沿着空间和通道维度。此外，还在不同类别的决策边界之间施加自适应边界约束，以最大化类间差异。因此，AMSE显著降低了已见域图像预测类别得分的熵。因此，相对熵较高的未见图像可以通过基于熵的检测器正确地被过滤出来。对于经过过滤的未见图像，我们提出了autoS2V来通过连续的架构松弛[30]自动搜索最佳的语义-视觉架构，从而产生稳健的语义对齐表示。与手动设计[1,61]相比，autoS2V在弥合语义-视觉差距方面更加灵活。在目标分类（在CUB [44]、AWA2 [46]、aPY [12]和SUN[36]上平均提高了4.3%）和语义分割（在Pascal VOC[11]上提高了11%）的实验中证明了DVBE的有效性。我们的贡献可以总结如下：0•我们提出了一种新颖的域感知视觉偏差消除网络，构建了两种互补的视觉表示，即无语义和语义对齐。0为了解决无偏GZSL中各自已见和未见域的问题，我们开发了一种自适应边界二阶嵌入，用于生成高度有区分性的无语义表示，可以提高已见类别的预测准确性并准确地过滤出未见图像。我们设计了一种自动搜索的语义-视觉嵌入，用于自动搜索最佳的语义-视觉架构，以实现稳健的知识传递。02. 相关工作0广义零样本学习（GZSL）的一般范式是在联合嵌入空间中对图像表示和额外的语义信息进行对齐[5, 18, 51,61]。常用的语义信息包括手动注释的类别属性[12,35]、word2vec[14,57]和文本描述[23]。在这个范式下，有偏见的识别问题[9,10, 31,41]，即未见图像往往被识别为已见类别，是一个主要障碍。其中一个主要原因是提供的语义标签通常不具有区分性[9,25,61]，这使得来自两个域的语义对齐视觉表示难以区分。为了增加视觉区分度，先前的方法[33, 46,61]将由语义标签构成的嵌入空间替换为高维视觉空间。这样可以防止少数已见域的语义嵌入成为大多数图像样本的最近邻[1]。随后，广泛采用自编码器架构[20,41]来保留有区分性的潜在信息。例如，SP-AEN[5]将视觉表示重构回图像以保留视觉拓扑结构。PSR-ZSL[1]在语义重构过程中定义了明确的语义关系，即不相似、相似和相同，并且DLFZRL[41]利用自编码器将图像分解为多个潜在特征并将它们融合成一个广义特征。此外，为了提高视觉表示的描述能力，[50, 61,62]中使用了基于部分的嵌入。通过自动定位信息区域，它们可以捕捉到许多重要的局部线索，以改善语义对齐表示，实现稳健的知识传递。最近，生成方法[13, 21, 34, 40, 47,49]通过在已见域训练强大的GANs[15]并直接从语义标签生成大量未见的视觉特征，取得了令人印象深刻的结果。这使得他们可以为两个域训练一个完全监督的分类器，从而对有偏见的识别问题具有鲁棒性。本文的重点是基于嵌入的GZSL，它不需要额外的合成训练数据和复杂的训练过程。尽管有效，上述基于嵌入的方法的共同点是它们的视觉表示最终与语义标签对齐，从而降低了视觉区分度。𝑊 × 𝐻 × 𝐶CNN𝒙⊙𝑊 × 𝐻 × 1⊙⨂𝑓𝑑(𝒙)…𝒞𝒴𝑠1 × 𝐷2ℒa𝑚𝑠ℒ𝑐𝑒𝑡𝒜𝑠𝑓𝑎𝑡𝑡𝑐𝐹𝐶 + 𝑅𝑒𝐿𝑈𝐶𝑜𝑛𝑣.𝐵𝑁𝑅𝑒𝐿𝑈𝐶𝑜𝑛𝑣. +𝐵𝑁 + 𝑅𝑒𝐿𝑈𝐺𝐴𝑃𝑔𝐹𝐶 + 𝑅𝑒𝐿𝑈𝑆𝑖𝑔𝑚𝑜𝑖𝑑𝑓𝑎𝑡𝑡𝑠𝐶𝑜𝑛𝑣 + 𝑅𝑒𝐿𝑈𝐶𝑜𝑛𝑣 + 𝑅𝑒𝐿𝑈𝑆𝑜𝑓𝑡𝑚𝑎𝑥𝐺𝐴𝑃𝑓𝑎𝑡𝑡𝑠𝐶𝑜𝑛𝑣.𝐵𝑁𝑅𝑒𝐿𝑈𝑓𝑎𝑡𝑡𝑐𝑊 × 𝐻 × 𝐷𝑊 × 𝐻 × 𝐷1 × 𝐷0213𝑓𝑟𝑑1𝑓𝑟𝑑2𝑓𝑣??????𝒪:𝐹𝐶 + 𝑅𝑒𝐿𝑈𝑆𝑘𝑖𝑝𝐶𝑜𝑛𝑛𝑒𝑐𝑡𝐺𝑟𝑎𝑝ℎ 𝐶onv.…1 × 𝐶ℒ𝑠2𝑣𝑓𝑣(𝒙)𝑔(𝒂)Ls2v =�x∈Xsd(fv(x), g(ay)),(1)ˆy = argminy∈Ys∪Yu d(fv(x), g(ay)),(2)126660自适应边缘二阶嵌入0自动搜索的语义-视觉嵌入0图2. DVBE的训练框架及详细实现。GAP是全局平均池化，DVBE仅使用已见领域数据进行训练。0边缘转换，这些方法受到弱语义区分的影响。与之不同的是，提出的DVBE探索了完全无语义的视觉表示，并发现它可以缓解偏见识别问题。值得注意的是，COSMO [2]是与我们最相似的工作，也是基于领域检测。然而，COSMO侧重于设计一个精心设计的领域检测器来改善领域检测。与之不同的是，DVBE强调通过AMSE学习具有区分性的无语义表示来改善领域检测，并采用基于熵的简单检测器进行端到端训练。实验证明，我们的DVBE优于COSMO。03. 领域感知的视觉偏差消除0广义零样本学习旨在识别来自已见和未见领域的图像。形式上，我们将已见领域数据定义为 S = { x s , y s , a s | x s ∈X s , y s ∈ Y s , a s ∈ A s }，其中 x s是图像的主干特征，y s 是类别标签，a s表示语义标签，例如类别属性或文本描述。类似地，未见领域数据定义为 U = { x u , y u , a u | x u ∈ X u , y u ∈ Y u ,a u ∈ A u }，其中 Y s ∩Y u = φ。使用已见领域数据 S进行训练，GZSL旨在识别来自 X s 或 X u的样本。GZSL的一般范式是通过最小化以下表达式来学习语义-视觉空间：0其中 y 是样本 x 的类别标签，a y 是类别 y 的语义标签。f v( ∙ ) 和 g ( ∙ ) 是将 x 和 a y投影到联合嵌入空间的视觉和语义嵌入函数。度量函数0其中 d ( ∙ , ∙ ) 衡量 f v ( x ) 和 g ( a y )之间的距离，例如余弦距离[1]。基于已见和未见领域共享相同的语义空间的假设，从 X s 和 A s推断的语义-视觉对齐可以直接转移到 X u 和 A u上。因此，GZSL的推理变成了一个最近邻搜索问题，可以定义为：0其中 x ∈ X s ∪ X u，ˆ y 是预测的类别。尽管由 f v ( ∙ ) 和g ( ∙ ) 构建的语义-视觉对齐可以适应 U，但 f v ( x )的视觉区分性受到语义标签的干扰。例如，如果两个类别具有非常相似的语义标签，属于这两个类别的图像的视觉表示也很难区分，因为在等式（1）中存在语义-视觉对齐。不幸的是，提供的语义标签通常在两个领域之间具有较小的类间差异[61]，这使得语义对齐的 f v ( x s ) 和 f v ( x u )难以区分，并且 f v ( x u ) 倾向于与 a s 匹配。03.1. 公式0为了解决上述问题，我们提出了一种新颖的领域感知视觉偏差消除（DVBE）网络。除了公式(2)中的语义对齐视觉表示f v ( x ) ，我们引入了一个额外的无语义视觉表示 f d ( x )，它是在 { x s , y s } 上训练的。虽然 f d ( x )不能在没有语义关系的情况下用于预测未知类别，但它可以基于已知类别的预测熵来过滤掉未知图像，从而使 f v ( x )能够专注于推断未知类别。基于上述讨论，ˆy =arg maxy∈Ys Cy(fd(x))if H(C(fd(x)) ⩽ τ,arg miny∈Yu d(fv(x), g(a(y))else,(3)xbp = x ⊗ x,(4)fd(x) = [f satt(x2) ⊙ x1] ⊗ [f catt(x1) ⊙ x2],(5)slogeλWyfd(x)j∈Ys,j̸=y eWjfd(x) ,(6)λ = e−(py(x)−1)2/σ2,(7)126670我们将公式(2)转化为：0其中 f d ( x ) 和 f v ( x )分别是无语义和语义对齐的嵌入函数， C 是一个 |Y s | -way分类器， H ( ∙ ) 表示 f d ( x )的预测分数熵。值得注意的是，熵越高，输入图像来自未知领域的可能性就越大，反之亦然。在本文中，一张图像的熵高于 τ 时，被视为来自未知领域。由于只有 S可用于训练，我们的目标是使 f d ( x ) 对于大多数 x s具有足够的区分性，从而在公式(3)中具有相对较高的熵，从而可以过滤掉许多具有相对较高熵的未知图像。值得注意的是，那些被正确过滤的未知图像 x u 在搜索空间 Y u中通过公式(3)进行领域感知识别处理。在这种方案下，DVBE专注于解决两个主要问题：a）如何设计对于已知类别具有高区分性的 f d ( ∙ ) ；b）如何设计 { f v ( ∙ ) , g ( ∙ ) }来弥合语义-视觉差距以进行正确的未知类别预测。基于上述两个问题，DVBE由两个子模块组成，即自适应边界二阶嵌入和自动搜索的语义-视觉嵌入。详细架构如图2所示。03.2. 自适应边界二阶嵌入0之前的研究[2,42]表明，一旦视觉表示对于内部类别具有足够的区分性，通过应用基于熵的检测器可以过滤掉分布之外的图像。因此，我们的目标是提高 f d ( x )的视觉区分性，以增强公式(3)中的领域检测。为此，我们通过探索具有判别性的二阶视觉统计和自适应边界约束，开发了一种自适应边界二阶嵌入（AMSE）方法。将输入特征定义为 x ∈ R W × H × C ，其中 W ， H 和 C分别表示宽度、高度和通道数。为了方便双线性操作，我们将特征 x ∈ R W × H × C 重塑为 x ∈ R N × C ，其中N = W × H 。基于特征 x，AMSE方法基于众所周知的双线性池化[27]提出：0其中 � 表示通道内的局部成对交互，由 x bp = � N n =1 x � n x n 给出，而双线性描述 x bp0需要将 x重新调整为特征向量以供分类器使用。然而，除了有用的元素之外， x 中的噪声元素也会被 �运算放大，例如，一个噪声特征元素将与所有其他元素进行交互。0(a) Softmax (b) 固定边界 (c) 自适应边界0类别1中心0困难样本0简单样本0类别2中心0大边界大边界0大边界小边界0无边界0无边界0决策边界损失0图3. 不同Softmax策略的玩具比较。0为了减少公式(4)中噪声特征的负面影响，设计了一种交叉注意力通道交互，通过以下方式生成紧凑的表示 f d ( x ) ：0其中 x 1 = f 1 rd ( x ) 和 x 2 = f 2 rd ( x )是两个降维层，将 x 投影到不同的压缩子空间 R N × D (D � C ) 。 f s att ( ∙ ) 和 f c att ( ∙ )被提出来生成空间和通道的注意力图。 ⊙是逐元素乘法的哈达玛积。如图2所示， f s att ( ∙ ) 和 f catt ( ∙ )以交叉注意力的方式部署，以促进注意力的互补性。与方程（4）相比，交叉注意力的通道交互具有两个主要优势：a)两个不同的注意力函数可以有效消除无关元素；b)交叉注意力的方式可以提高输入的互补性。为了进一步增加f d ( x )的区分度，AMSE然后应用自适应边界Softmax来最大化类间差异，公式如下：0L ams = − �0e λW y f d ( x )+ �0其中 W 是分类器的权重， y 是真实标签。 λ ∈ (0 , 1] 是一个边界系数。当 λ = 1 ，L ams为标准的Softmax损失。不同的是，L ams 在 f d ( x )被预测为 y 和 Y \ y 之间施加了一个边界惩罚 λ。例如，当 λ = 0 . 8 ， x 和 W y 之间的响应变为 0 .8 W y f d ( x )，这对类间差异施加了更严格的约束以压缩样本。在这项工作中， λ 根据样本难度自适应计算，公式如下：0其中 p y ( x ) 是预测的 x 属于类别 y的概率。值得注意的是，方程（7）恰好遵循均值为 1方差为 σ 的高斯分布。当 x 是一个易样本，其 p y ( x )≈ 1 ，L ams 逼近标准的Softmax损失，其中 λ ≈ 1。相反地，对于困难样本， λ将会很小，这表示一个大的边界约束和对该样本的更多关注。s013FCFCSkip3FCCUB𝐹𝐶 + 𝑅𝑒𝐿𝑈(b) autoS2V(a) Manual DesignAWA2 [46]85401023,5275,8827,913aPY [12]6420125,9321,4837,924SUN [36]1026457210,3202,5801,440126680GC 20Skip0s 0 GC0FC 2 FC Skip0AWA20�� + ��0图4. (a) 手动设计的架构。b)从AutoS2V学习的针对CUB和AWA2的任务特定架构。GC是图卷积。0与[8]中固定边界 λ 相比，L ams采用方程（7）中的非线性 λ强调那些困难样本。这可以防止模型被严格的边界约束所破坏，例如，对已经被很好识别的易样本应用大边界。图3给出了没有边界、固定边界和自适应边界Softmax的对比。与聚焦损失[26]不同，L ams利用决策边界之间的高斯边界约束，更具可解释性。最后，L ams 使得 f d ( x )比标准Softmax损失具有更大的类间差异。通过探索具有自适应边界Softmax的交叉注意力二阶统计，AMSE学习到的无语义的 f d ( x )对于已知类别具有强大的视觉区分能力，可以提高已知类别的预测并正确过滤出未知图像（方程（3））。03.3. 自动搜索的语义-视觉嵌入0对于未知图像识别，我们开发了一种自动搜索的语义-视觉嵌入（AutoS2V）来生成语义对齐的视觉表示。根据通用的语义-视觉范式，AutoS2V由{ f v ( ∙ ) , g ( ∙ )}组成，通过最小化方程（1）中的 L s 2 v。在大多数现有方法[1, 5]中， g ( ∙ )是手动设计的，例如，两个类似于 f v ( ∙ )的FC+ReLU层，如图4(a)所示。然而，视觉和语义信号之间存在明显差距，例如， a 中的每个元素对应一个特定的类别属性。因此， g ( ∙ )和 f v ( ∙ )之间的处理应该是不同的。与以前的方法不同，AutoS2V自动搜索具有任务特定操作的最佳 g ( ∙ ) ，如图4 (b)所示。g ( ∙ )被视为一个有向无环图，具有多个节点，如图2所示。为简化起见，省略了输入节点。每个节点与所有前面的节点连接，并且两个连接节点之间的操作从操作集合 O 中选择。O包含四种类型的操作：（1）全连接；（2）图卷积；（3）跳跃连接；（4）无操作。值得注意的是，图卷积是一个任务特定的操作，它在建模语义之间的拓扑关系方面具有专长。0表1. 训练集和验证集包含已见类别，而测试集包含未见类别。0数据集属性 |Y s | |Y u | 训练验证测试0标签。为了搜索节点i和节点j之间的最优操作Oi,j，我们将选择选择松弛为softmax优化问题，按照[30]的方法：0O i,j = arg max c c i,j)0o ∈O exp(α o i,j), (8)0其中α c i,j是操作c的得分。α = {α ci,j}包含g(∙)的所有可训练的架构参数。与手动设计相比，自动搜索的g(∙)在弥合语义-视觉差距方面更加灵活，从而提高了未见类别的预测。03.4. 整体0最后，DVBE的整体目标函数为：0L all = L s 2 v + L ams + γ L cet, (9)0其中L cet(f v(x))是一个辅助的交叉熵损失，用于避免所有fv(x)坍缩为一个单点，具有控制权重γ。除了对象分类任务，我们还进一步将提出的DVBE扩展到具有挑战性的零样本语义分割[3]。有关分割和L cet的详细说明请参见补充材料。04. 实验04.1. 实验设置0数据集。对于广义零样本分类，评估了四个广泛使用的基准测试，分别是Caltech-USCDBirds-200-2011（CUB）[44]，SUN [36]，Animals withAttributes2（AWA2）[46]和Attribute Pascal andYahoo（aPY）[12]。所有这些数据集都使用提供的类别属性作为语义标签。已见/未见类别的拆分遵循[46]中提出的新设置，确保预训练模型中的未见类别严格未知。每个数据集的详细信息列在表1中。对于零样本语义分割，进一步评估了Pascal VOC[11]，它遵循[3]中的设置，将20个类别拆分为14/6作为已见和未见类别。VOC的语义标签是通过使用“word2vec”模型[32]生成的，该模型在维基百科语料库上进行了学习，并可以生成300维的描述。在训练过程中，所有包含未见类别像素的图像都被删除。实施细节。对于分类，骨干网络是ResNet-101 [17]，它在ImageNet上进行了预训练。ususususHGENFGN[47]43.757.749.7------42.636.639.4SABR-I[37]55.058.756.830.393.946.9---50.735.141.5f-VAEGAN-D2[49]63.275.668.9------50.137.843.1NON-GENCDL[18]23.555.232.9---19.848.628.121.534.726.5PSR-ZSL[1]24.654.333.920.773.832.213.551.421.420.837.226.7SP-AEN[5]34.770.646.623.390.937.113.763.422.624.938.630.3DLFZRL[41]--37.1--45.1--31.0--24.6MLSE[9]22.371.634.023.883.237.012.774.321.720.736.426.4TripletLoss[4]55.852.353.048.583.261.3---47.930.436.8COSMO[2]44.457.850.2------44.937.741.0PREN*[55]32.555.843.132.488.647.4---35.427.230.8VSE-S*[61]33.487.548.441.691.357.224.572.036.6---AREN*†[50]63.269.066.054.779.164.730.047.936.940.332.335.9DVBE53.260.256.563.670.867.032.658.341.845.037.240.7DVBE*64.473.268.562.777.569.437.955.945.244.141.642.8126690表2.四个分类基准测试的GZSL结果。生成方法（GEN）使用额外的合成未见领域数据进行训练。由于许多先前的方法无法进行端到端训练，我们将DVBE和DVBE*定义为固定和微调骨干权重，分别。†表示来自全局和局部区域的预测集合。0方法 CUB [44] AWA2 [46] aPY [12] SUN [36]0ageNet[39]。DVBE的其余部分使用MSRA随机初始化器。数据增强使用随机裁剪448×448和水平翻转。测试图像从中心部分裁剪，并报告平均水平翻转结果。为了训练自动搜索的g(∙)，采用两阶段训练策略。首先，固定骨干网络，通过交替更新α和其余模型权重来训练DVBE。然后，固定α，对整个DVBE进行端到端微调。批量大小为24，减少通道为D=256。使用SGD优化器，初始lr=0.001，动量为0.9，训练180个时期。σ的超参数大多设置为0.5，τ将在后面进行分析。对于语义分割，骨干网络基于Deeplab v3+[7]，数据增强和优化器也是如此。代码可在github.com/mboboGO/DVBE获得。指标。与[46]类似，综合性能评估使用谐波平均值H=(2MCAu×MCAs)/(MCAu+MCAs)来评估模型在两个领域中的综合性能。MCAu和MCAs分别是在已见和未见领域中的平均类别Top-1准确率。对于语义分割，类似的hIoU定义遵循[3]。04.2. 与最先进方法的比较0物体分类CUB、AWA2、aPY和SUN上的结果如表2所示。在非生成模型方面，提出的DVBE在CUB、AWA2、aPY和SUN上分别超过它们2.5%、4.7%、8.3%和1.8%。在比较的方法中，AREN在大多数数据集上获得最佳性能，通过聚合全局和局部区域的结果。与AREN相比，DVBE只考虑全局表示，并在四个数据集上平均提高了5.6%。除了AREN，DVBE在全局方法上的改进平均为8.5%。值得注意的是，0DVBE的出色性能主要归因于在未见领域中的大幅改进，例如在AWA2和aPY上MCAu的改进分别为8.0%和7.9%。这证明了DVBE在缓解有偏识别问题方面的有效性。0在这些方法中，COSMO[2]是与DVBE具有相似领域检测机制的最相似的工作。从表2中，我们可以看到提出的DVBE在CUB上的性能优于COSMO6.3%，在SUN上的性能相当。经过端到端训练后，VBDE在CUB和SUN上分别超过COSMO18.3%和1.8%。主要原因是AMSE可以显著提高无语义表示的视觉区分能力，从而比COSMO更准确地进行领域检测。此外，DVBE采用了一种简单的基于熵的领域检测器，使得DVBE可以进行端到端的训练。值得注意的是，SUN数据集上的改进相对较小，因为每个类别包含的图像较少，这使得很难获得高度区分的f d ( x )。0由于生成方法使用先前未见的语义标签生成大量的合成数据，因此它们可以获得比现有的非生成方法更好的性能。就全新的f-VAEGAN-D2[49]而言，我们可以观察到DVBE在不使用未见领域知识的情况下仍然获得可比较的性能。0语义分割我们进一步在语义分割任务上评估了提出的方法，并在表3中总结了相关结果。SP-AEN的结果是通过将其公开代码扩展到零样本分割中获得的。ZS3Net[3]是一种新提出的基于生成的零样本语义分割方法，我们使用了他们报告的性能。令人印象深刻的是，DVBE在hIoU方面的性能优于ZS3Net11.0%。原因是来自word2vec的语义标签0204060801004.84.54.10.73.22.72.11.50.80204060801001203.63.43.22.92.52.11.71.20.7126700方法已见未见超过0PA mIoU PA mIoU hPA hIoU0Devise[14] 89.9 64.3 10.3 2.9 18.5 5.5 SP-AEN[5] 90.569.5 15.9 10.5 27.0 18.2 ZS3Net[3] 92.9 69.3 46.7 26.162.2 37.9 DVBE 89.7 53.1 60.2 45.4 72.0 48.90图5.零样本语义分割的一些结果。第二行和第三行分别是SP-AEN和DVBE。0与手动注释的分类标签相比，ZS3Net的未见数据合成中包含更多的噪声，这使得ZS3Net面临严重的偏差识别问题，例如，在未见和已见域中，26.1%和69.3%的mIoU之间存在较大差距。通过学习有区别的无语义表示，DVBE的域检测可以有效缓解偏差识别问题。特别是对于未见域，DVBE的mIoU高于ZS3Net，即45.4% vs26.1%。此外，我们在图5中可视化了DVBE和SP-AEN的一些结果，以证明无语义表示的有效性。可以看出，通过准确的域检测，DVBE可以准确地定位未见类别的区域，而SP-AEN通常对已见类别提供偏差识别。04.3. 消融研究0在本节中，我们分析了DVBE中不同组件的效果。BaseS2V是一个语义-视觉基线，仅包含基于公式（2）的 { f v ( ∙ ) ,g ( ∙ ) }，其中 g ( ∙ )由两层FC+ReLU实现。为了评估域检测性能，我们将GZSL视为二分类任务，并将 R s 和 R u定义为各自已见和未见域的召回率。例如，R u表示未见类别中有多少图像被识别为未见类别的百分比。一些结果在补充材料中报告，包括注意力可视化和超参数评估。τ的影响。在这项工作中，τ是一个关键参数，根据公式（3）中预测的已见类别熵来划分已见和未见图像。因此，我们计算了DVBE已见和未见域图像的熵统计，并给出了一些关于τ的分析。01由于没有可用的代码，我们无法可视化ZS3Net的结果。0表4. 无语义表示的效果。Base f d ( x )表示Conv+ReLU层。CSE表示交叉注意力的二阶嵌入。H R 是 R s和 R u 的调和平均值。骨干网络是固定的，这里不采用autoS2V。0模块 MCA s MCA u H R s R u H R0BaseS2V 62.5 32.8 43.0 89.5 45.8 60.6 + f d ( x ) 51.9 46.6 49.161.4 72.8 66.6 +CSE 56.5 50.3 53.2 70.4 78.7 74.3 + L ams(DVBE) 59.9 50.9 55.0 71.6 80.2 75.70（a）DVBE对已见和未见图像的熵分布。0MACs MACu H0�（CUB）0MACs MACu H0�（AWA2）0（b）对 MCA s ， MCA u 和 H 的不同 τ 进行评估。0图6. 通过DVBE进行域检测的分析。0关于τ的一些分析。从图6（a）可以看出，CUB和AWA2的已见和未见图像具有可分离的熵统计。因此，基于熵的检测器可以使用适当的阈值τ将它们分开。通常，较高的τ意味着DVBE可能将更多的未见图像视为已见域，反之亦然。因此，不同的τ对域检测有不同的影响。如图6（b）所示，当增加τ时，MCA s 和 MCA u 的变化趋势相反。通过考虑 H，我们设置τ以在 MCA u 和 MCA s之间取得平衡。由于不同数据集具有不同的类别数量和难度，对于CUB、AWA2、aPY和SUN，τ分别设置为2.1、2.1、1.5和3.9。无语义视觉表示的效果。然后我们探索了GZSL中无语义视觉表示的效果。与BaseS2V相比，DVBE学习了补充的无语义视觉表示 f d ( x )来预测已见类别并过滤掉未见图像。如表4所示，通过将无语义 f d ( x ) 添加到BaseS2V中，H R从60.6%提高到66.6%。值得注意的是，H R衡量了GZSL模型的域检测性能，因此改进的H R证明了无语义 f d ( x ) 可以有效缓解偏差识别问题，H从43.0%提高到49.1%。当通过CSE和L ams 进一步提高 f d( x ) 的视觉区分性时，H R 和 H都在增加。此外，我们还可视化了应用AMSE之前和之后的特征分布。fd(x)√53.848.150.8√√√55.150.052.4√√√√56.550.353.2012345121416181101 121 141 161 181SoftmaxmSoftmaxamSoftmax0123456121416181101 121 141 161 18150.96130.843.253.263.632.64520406080CUBAWA2aPYSUNMACu126710表5. CUB上交互式注意力通道分析。 � f s att ( ∙ ) f c att ( ∙ ) 交叉MCA s MCAu H0(c) 语义对齐 (autoS2V) (b) 主干特征 (a) 无语义 (AMSE)0图7. AWA2上带/不带语义的表示分布。虚线圈表示已知类别。0f d ( ∙ ) 在图7 (a) 和 (b) 中。可以看出AMSE可以显著提高x的视觉判别能力。因此，DVBE相对于BaseS2V有12%的增益。交互式注意力通道分析。我们接下来评估交互式注意力通道分析中不同组件的效果。如表5所示，使用双线性池化操作 � 对基础特征 f d ( x ) 的 H值进行了1.7%的提升。进一步，通过使用 f s att ( ∙ ) 和 fc att ( ∙ ) 生成注意力特征，将 H从50.8%提高到52.4%，这表明冗余性的减少可以提升 f d (x )的视觉判别能力。最后，交互式注意力方式通过增强输入的互补性进一步提升了二阶表示。自适应边界Softmax。我们进一步分析自适应边界Softmax L ams的效果。如表6所示，自适应边界Softmax的性能高于标准和固定边界Softmax。具体而言，将固定边界应用于Softmax的性能低于标准Softmax。与使用固定边界不同，我们自适应调整边界 λ并取得了最佳性能。在图8中，不同Softmax策略的训练曲线显示 L ams 实现了快速且稳定的收敛。自动搜索 g ( ∙ )。最后，我们证明使用autoS2V可以生成最优的与任务相关的架构 g ( ∙ ) 。如图9所示，自动搜索的 g ( ∙ ) 在 MCAu方面比手动设计的架构带来了进一步的改进，并且CUB和AWA2的自动搜索的 g ( ∙ )在图4中具有不同的结构。通过进一步分析得到的架构，我们得出以下观察结果：a)图卷积用于探索语义拓扑，由于过度平滑问题，往往只使用一次[19]；b)两个分支嵌入是首选，这与现有工作[41]类似。语义对齐后，两个领域的视觉特征更加紧密地关联起来，以获得知识-0表0方法 MCA s MCA u H0标准Softmax 56.5 50.3 53.2 固定边界Softmax 58.247.1 52.1 自适应边界Softmax 59.9 50.9 55.00损失0损失0图8. 不同Softmax策略的训练曲线。0无autoS2V 有autoS2V0图9. autoS2V在四个数据集上的改进。0边缘传递，如图7 (b) 和 (c) 所示。05. 结论0本文提出了一种新颖的领域感知视觉偏差消除（DVBE）网络，用于解决广义零样本学习（GZSL）中的偏差识别问题。与以前侧重于语义对齐表示的方法不同，我们考虑了语义无关表示对减轻偏差识别的影响，通过基于已知类别预测熵检测未知图像。为了进一步提升语义无关表示的视觉判别能力，我们通过交互式注意力通道交互和自适应边界Softmax开发了自适应边界二阶嵌入。此外，我们自动搜索最优的语义-视觉架构，以生成稳健的语义对齐表示。因此，通过探索互补的视觉表示，即语义无关和语义对齐，DVBE在分类和分割方面的性能都大大超过现有方法。未来，我们的目标是探索精细的领域检测器以改进DVBE。0致谢0本工作得到中国国家重点研发计划（2017YFC0820600），中国国家自然科学基金（61525206，U1936210，61902399），中国科学院青年创新促进会（2017209）和中央高校基本科研业务费（WK2100100030）的支持。126720参考文献0[1] Yashas Annadani和Soma Biswas. 保持零样本学习的语义关系.在CVPR中, 页码7603–7612, 2018. [2] Yuval Atzmon和GalChechik. 用于广义零样本学习的自适应置信度平滑. 在CVPR中,页码11671–11680, 2019. [3] Maxime Bucher, Tuan-Hung VU,Matthieu Cord和Patrick P´erez. 零样本语义分割. 在NeurIPS中,页码468–479, 2019. [4] Yannick Le Cacheux, Herve LeBorgne和Michel Cru- cianu.在三元损失中建模类内和类间关系以进行零样本学习. 在ICCV中,页码10

下载后可阅读完整内容，剩余1页未读，立即下载