没有合适的资源?快使用搜索试试~ 我知道了~
自适应置信度平滑方法用于广义零样本学习
yuval.atzmon@biu.ac.ilgal.chechik@biu.ac.il��������������������������������������������������������������������������������� !"#�$%&'��� "(#)6789:;<=>?@A-.BC@??,DC@??,D116710自适应置信度平滑用于广义零样本学习0Yuval AtzmonBar-Ilan大学,NVIDIA研究0Gal ChechikBar-Ilan大学,NVIDIA研究0摘要0广义零样本学习(GZSL)是学习一个分类器的问题,其中一些类别具有样本,其他类别是通过语义属性或文本描述等辅助信息以零样本学习方式学习的(ZSL)。同时在这两种情况下训练一个模型是具有挑战性的。在这里,我们描述了一种概率方法,将模型分解为三个模块化组件,然后以一种一致的方式将它们组合起来。具体而言,我们的模型由三个分类器组成:一个“门控”模型,如果一个样本来自“已见”类别,则进行软决策,以及一个ZSL专家和一个已见类别的专家模型。我们在这种方法中解决了两个主要困难:如何在没有未见类别的训练样本的情况下提供准确的门控概率估计;以及在观察到其领域之外的样本时如何使用专家的预测。我们的方法的关键洞察是在三个模型之间传递信息,以提高每个模型的准确性,同时保持模块化结构。我们在四个标准GZSL基准数据集上测试了我们的方法,发现它在很大程度上优于最先进的GZSL模型。COSMO也是第一个在GZSL中弥合差距并超越生成模型性能的模型,尽管它是一个更容易训练和调整的轻量级模型。01. 引言0广义零样本学习(GZSL)[9]是学习对来自两个不同类别域的样本进行分类的问题:已见类别是通过标记样本以标准监督方式训练的,而未见类别是通过外部知识(如属性或自然语言)以零样本学习方式学习的。GZSL面临着一系列困难的挑战:首先,模型必须有效地学习没有样本的类别(零样本)。它还需要很好地学习具有许多样本的类别。最后,这两个非常不同的情况应以一种一致的方式在单个模型中进行组合。GZSL可以被视为具有不平衡类别的分类的极端情况,因此解决最后一个挑战可以为解决实际数据学习中的类别不平衡问题提供更好的方法。上述三个学习问题在不同的学习设置中运作,因此将它们组合成一个单一模型是具有挑战性的。在这里,我们提出了一个具有三个模块的架构,每个模块都专注于一个问题。在推理时,这些模块以一种原则性的概率方式共享它们的预测置信度,以达到准确的联合决策。这种模块化架构的一个自然实例是硬门控:给定一个测试样本,门控将其分配给已见专家(作为标准监督分类器进行训练)或未见专家(以零样本学习方式进行训练)[39]。只有所选的专家用于预测,忽略其他专家。在这里,我们研究了一个更一般的情况,即已见专家和未见专家都处理每个测试样本,并以软方式组合它们的预测。具体而言,预测通过以下方式组合:0*+,-.\/�01���2������� 3��4�� 5����4�4��0图1.COSMO的定性示意图:输入图像经过两个专家处理:一个是已见类别专家,另一个是未见类别专家,即零样本模型。(1)当图像来自已见类别时,零样本专家可能仍会产生过度自信的误报预测。如果COSMO认为图像来自已见类别,则平滑未见专家的预测。平滑的程度由一种新颖的门控分类器确定。(2)最终的广义零样本学习预测基于两个专家的预测的软组合,权重由门控模块提供。0广义零样本学习(GZSL)可以被视为具有不平衡类别的分类的极端情况,因此解决最后一个挑战可以为解决实际数据学习中的类别不平衡问题提供更好的方法。上述三个学习问题在不同的学习设置中运作,因此将它们组合成一个单一模型是具有挑战性的。在这里,我们提出了一个具有三个模块的架构,每个模块都专注于一个问题。在推理时,这些模块以一种原则性的概率方式共享它们的预测置信度,以达到准确的联合决策。这种模块化架构的一个自然实例是硬门控:给定一个测试样本,门控将其分配给已见专家(作为标准监督分类器进行训练)或未见专家(以零样本学习方式进行训练)[39]。只有所选的专家用于预测,忽略其他专家。在这里,我们研究了一个更一般的情况,即已见专家和未见专家都处理每个测试样本,并以软方式组合它们的预测。具体而言,预测通过以下方式组合:116720使用总概率法则的软门控器:p(类别)=p(类别|已见)p(已见)+p(类别|未见)p(未见)。不幸的是,软组合专家决策会引发几个困难。首先,在训练门控模块时,很难提供准确的样本来自“未见”类别的概率估计,因为根据定义,没有观察到来自这些类别的样本。其次,当专家面对超出分布范围的样本时,它们往往以不受控制的方式行为,经常产生自信但错误的预测。因此,当使用两个专家模型的软组合时,可能会被“不相关”的专家所压倒正确专家的决策。我们通过两种方式解决这些问题。首先,我们展示了如何训练一个二进制门控机制,根据softmax类别预测的分布来对已见/未见领域进行分类。其思想是使用训练类别的一个保留子集来模拟未见类别样本的softmax响应,并以与类别无关的方式表示专家预测。其次,我们引入了类似Laplace先验[28]的方法,以一种利用门控分类器的信息的方式对softmax输出进行建模。这种额外的信息使专家能够更准确地估计类别置信度。这种组合方法被称为自适应置信度平滑(COSMO),具有显著的优势。它可以将任何最先进的零样本学习器作为模块,只要它输出类别概率;由于它只有很少的需要调整的超参数,因此非常容易实现和应用(提供了代码);最后,在所有四个广义零样本学习基准(AWA,SUN,CUB,FLOWER)上,它优于竞争方法。我们的主要创新贡献是:0• 一种新的软方法,用于组合已见和未见类别的决策。•一种新的“超出分布范围”(OOD)分类器,用于区分已见和未见类别,并且通过一个负面结果表明现代OOD分类器在ZSL基准测试上的有效性有限。•在所有四个主要基准测试(AWA,SUN,CUB和FLOWER)上的新的最先进结果。COSMO是第一个与GZSL的生成模型相媲美或更好的模型,同时非常容易训练。•对已见-未见准确率平面上的GZSL方法进行了表征。02. 相关工作0从广义的角度来看,零样本学习是一种组合推理任务[21,22, 6,4],其中新概念是通过重新组合原始元素[22]构建的。这种能力类似于人类学习,人类可以轻松地重新组合简单的技能来解决新任务[21]。近年来,零样本学习引起了广泛的关注[47, 13, 23, 35, 18, 3, 52, 48, 25,40]。作为我们的主要零样本学习模块,我们0使用LAGO[7],这是一种先进的方法,它通过AND-OR组合结构学习将描述类别的属性组合起来,以估计p(类别|图像)。广义零样本学习将零样本学习扩展到更现实的情景,其中测试数据包含已见和未见类别。有两种类型的广义零样本学习方法。首先,一些方法使用生成模型(如VAE或GAN)合成未见类别的特征向量,并在训练中使用它们[46, 10, 5, 29,54]。其次,一些方法在训练和推断过程中直接使用语义类别描述[41, 52, 14, 51, 27, 39,9]。迄今为止,数据增强的方法表现更好。在以前的广义零样本学习方法中,有几种与COSMO密切相关的方法。[39]使用硬门控机制将样本分配给两个领域专家之一。[9]通过从已见类别得分中减去一个常数值来校准已见和未见类别得分。[27]使用温度缩放[16]和熵正则化器使已见类别得分不太自信,未见类别得分更自信。检测超出分布范围的样本:我们的软门控方法是基于开发一种超出分布范围检测器的基础上构建的,其中未见图像被视为“超出分布范围”的样本。关于一类和异常检测有大量研究工作,我们在此不进行调查。在这个背景下,最相关的最近工作包括[15, 26, 42,37]。[15]如果最大的softmax得分低于一个阈值,则检测到一个超出分布范围的样本。[26]调整softmax的“温度”[16]并对输入进行微小的梯度步骤扰动。[37]通过多个词嵌入来表示每个类别,并将输出范数与阈值进行比较。[42]在一组“排除”类别上训练了一组模型,其中边缘损失鼓励排除样本具有高熵得分。当在本文研究的ZSL基准测试(CUB,SUN,AWA)上测试[26,42]时,我们发现[26]的扰动方法对超出分布范围的检测有害,并且[42]的损失在排除类别上过拟合。我们在补充材料(B)中讨论了这些效果的可能解释。专家混合(MoE):在MoE [17, 49,38]中,给定一个样本,门控网络首先为多个专家分配权重。然后,样本由这些专家进行分类,并且他们的预测结果由门控权重组合。通常,模型的所有部分都是联合训练的,通常使用EM方法。我们的方法与MoE根本不同之处在于,在训练时,对于每个样本,我们都知道它是否已经被观察到。因此,专家可以分别进行训练,而无需推断潜在变量,确保每个模块都是其自己领域(已见或未见)的专家。03. 广义零样本学习0我们从正式定义零样本学习(ZSL)开始,然后将其扩展为广义零样本学习。p(y)=p(y|S)p(S) + p(y|U)p(U) .(1)p(y) = pS(y|S)pGate(S) + pZS(y|U)pGate(U)(2)116730COSMO基于置信度的门控0图2. 左边,COSMO架构:我们将GZSL任务分解为三个可以分别解决的子任务。(1) 一个训练用于分类已见类别 S 的模型。(2)一个分类未见类别 U 的模型,即一个ZSL模型,条件是 U 。(3)一个门控二分类器,训练用于区分已见类别和未见类别,并以柔性方式加权这两个模型;在加权之前,对于每个模型,如果门控网络提供低置信度,我们为其添加一个先验(图1和第4.2节)。右边,门控网络(放大):它以softmax分数作为输入。我们训练它了解softmax分数对于未见图像的响应,使用来自保留类别的样本。因为测试类别与训练类别不同,我们对前K个分数进行汇总,实现对类别身份的不变性(第4.1节)。全连接层只学习10-50个权重(K很小),因为这是一个二分类器。0在零样本学习中,训练集 D 包含 N 个标记样本: D ={ ( x i , y i ) , i = 1 . . . N } ,其中每个 x i是一个特征向量, y i ∈ S 是来自已见类别 S = { 1 , 2 ,. . . |S|} 的标签。在测试时,给出一个来自未见类别 U ={|S| + 1 , . . . |S| + |U|} 的样本集 D ′ = { x i , i = N +1 . . . N + M },我们的目标是预测每个样本的正确类别。作为监督信号,每个类别 y ∈ S ∪ U 都伴随着一个类别描述向量 a y,以语义属性[23]或自然语言嵌入[34, 54,39]的形式。ZSL的关键是学习样本和类别描述之间的兼容性得分 F ( a y , x ) ,并预测最大化该得分的类别 y。在ZSL的概率方法中[23, 24, 44, 39, 7,27],兼容性函数为每个类别分配一个概率 p ( Y = y | x )= F ( a y , x ) ,其中 Y 被视为样本 x 的标签 y的随机变量。广义ZSL:在ZSL中,测试样本来自未见类别Y ∈ U ,而在GZSL中,样本可以来自已见或未见领域: Y ∈ S ∪ U 。符号:下面,我们用 Y ∈ U表示一个未见类别,用 Y ∈ S表示一个已见类别。给定一个样本 x 和一个标签 y,我们用 p ( S ) = p ( Y ∈ S| x )表示一个类别是已见的条件分布,或者用 p ( U ) = p ( Y∈ U| x ) = 1 − p ( Y ∈ S| x )表示一个类别是未见的条件分布,用 p ( y ) = p ( Y = y |x ) , p ( y |S ) = p ( Y = y | Y ∈ S , x ) 和 p ( y |U )= p ( Y = y | Y ∈ U , x )表示一个标签的条件概率。为了方便阅读,我们的符号没有明确表示对 x 的条件。04. 我们的方法0我们现在描述COSMO,一种将模型分解为三个模块的概率方法。关键思想是:0这些模块相互交换信息以提高彼此的准确性。形式上,根据全概率公式:0这个公式将GZSL分解为三个可以分别解决的子任务。(1) p( y |S ) 可以由任何训练用于分类已见类别 S的模型估计,我们用 p S ( y |S ) 表示其预测结果。(2)类似地,p ( y |U ) 可以由一个分类未见类别 U的模型计算,即一个ZSL模型,我们用 p ZS ( y |U )表示其预测结果。(3) 最后,这两个项由 p ( S ) 和 p ( U )= 1 − p ( S )权重加权,可以由一个门控分类器计算,我们用 p Gate表示其预测结果,该分类器被训练用于区分已见类别和未见类别。综上,我们得到一个GZSL混合模型:0[39]中引入了Eq.(2)的硬变体,其中门控机制做出了一个硬决策,将测试样本分配给两个专家分类器之一,pZS或pS。不幸的是,尽管在概念上很简单,但以软混合模型的方式组合模型会引发几个问题。首先,以软方式组合模型意味着每个模型都会为其他“领域”的样本贡献其信念,这往往会损害准确性,因为多类模型倾向于将大部分softmax分布质量分配给很少的类别,即使它们的输入是随机噪声[15]。例如,当未见类别的分类器接收到来自已见类别的输入图像时,其输出分布往往会集中在一些虚假的类别上。这种尖峰分布会“混淆”组合的GZSL混合模型,导致对虚假类别的误报预测。创建软门控模型的第二个挑战是为两个专家分配准确的权重。这在区分已见类别和未见类别时尤其复杂,因为它需要访问未见领域的训练样本。COSMO通过使用一种新颖的基于置信度的门控网络并在推理过程中应用新颖的先验来解决这两个问题。其推理过程在算法1中概述,并在附录A中提供了一个详细示例。接下来,我们详细描述COSMO。As we described above, probabilistic classifiers tend toassign most of the softmax mass to very few classes, evenwhen a sample does not belong to any of the classes in116740门控模块旨在确定输入图像来自已见类别还是未见类别。由于未见类别没有可用的训练样本,我们可以将这个问题视为通过将已见类别(S)图像视为“内部分布”和未见类别(U)图像视为“外部分布”来进行“离群检测”。一些作者提出在内部分布数据上训练一个离群检测器,并且如果最大的softmax分数低于一个阈值,则将图像检测为离群[15, 26,42]。在这里,我们通过在两个专家的softmax输出之上训练一个网络来改进这种方法,目标是区分U图像和S图像。直观地说,这可以提高门控模块的准确性,因为两个专家的输出响应在S图像和U图像上不同。我们将这个网络称为基于置信度的门控(CBG)。它在图2中有所说明。一个重要的技术复杂性是,CBG的训练不能观察到任何U图像,因为它们必须被视为未见。因此,我们从未用于训练的S类别中创建一个保留集,并使用它们来估计专家在U图像上的输出响应。下面,我们将这组类别称为保留的H类别,它们的图像称为H图像。请注意,由于类似的原因,我们不能同时训练门控器和S和U专家。有关详细信息,请参见附录D。这引发了进一步的复杂性:训练H类别上的未见专家意味着在测试时,当呈现给测试类别时,未见专家的输出层应与其在训练期间的输出层不同。具体而言,它对应于新的(测试)类别,可能具有不同的维度。为了对H类别的身份和顺序在专家的输出中具有不变性,CBG采用了softmax的前K个分数并对其进行排序。我们称这个过程为top-k池化,它保证了CBG对所呈现的具体类别具有不变性。top-k池化推广了max池化,并在K=1时等效于max池化。04.1. 基于置信度的门控模型0本文上面所述,概率分类器倾向于将大部分softmax质量分配给很少的类别,即使样本不属于任何类别。04.2. 自适应置信度平滑0词汇表。直观地,当给定一个超出词汇表类别的图像作为输入时,我们期望所有类别都获得均匀低的概率,因为它们都是“同样错误”的。为了将这种先验信念纳入我们的模型中,我们借鉴了贝叶斯参数估计的思想。将类别置信度值集合视为我们希望基于模型提供的置信度(softmax输出分数)来估计的数量。在贝叶斯估计中,将数据(在这里是预测的置信度)与先验分布(在这里是我们的先验信念)结合起来。具体来说,对于经验分类(多项式)数据,拉普拉斯平滑[28]是一种常用的技术,可以在有限的样本中实现稳健的估计。它相当于在所有类别上均匀地添加“伪计数”,并作为类别的先验分布。我们可以在这里应用类似的技术,将预测结果与加性先验分布πU = p0(y|U)相结合。0pλ(y|U) = (1 - λ)p(y|U) + λπU,(3)0其中λ是先验权重,πU不受x的条件限制。类似地,对于已见分布,我们设置pλ(y|S) = (1 - λ)p(y|S) +λπS。当没有其他信息可用时,我们将先验设置为最大熵分布,即均匀分布πU = 1 /(未见类别数)和πS = 1/(已见类别数)。0自适应先验:如何设置先验权重λ?在拉普拉斯平滑中,添加一个常数伪计数的特性是随着样本数量的增加,其相对权重减小。直观地说,这意味着当数据提供强有力的证据时,先验的权重会减弱。我们采用这种直觉来使权衡参数λ自适应。直观地说,如果我们相信一个样本不属于已见类别,我们会平滑已见类别分类器的输出(图1)。具体来说,我们通过用我们对每个领域的信念(对于p'(y|U),设置λ =p(U))替换常数λ来应用自适应先验:0p'(y|U) = p(U)p(y|U) + (1 - p(U))πU0= p(y,U) + (1 - p(U))πU,(4)0类似地,p'(y|S) = p(S)p(y|S) + (1 -p(S))πS。在实践中,我们使用ZS模型对p(y,U)进行估计,使用门控模型对p(U)进行估计,从而得到p'(y|U) =pZS(y,U) + (1 -pGate(U))πU,p'(y|S)的计算方式类似。得到的模型具有两个有趣的特性。首先,它减少了超参数调整的工作量,因为先验权重是自动确定的。其次,平滑操作为每个分数添加了一个常数值,因此它保持了每个单独专家的最大值,但同时影响了它们在公式(2)中的综合预测。p(S|x) = σ�γ[score − β]�.(5)116750算法1. COSMO推理01: 输入:图像 2: 估计两个专家的pS(y,S)和pZS(y,U) 3:估计pGate(S) = f(pS(y,S), pZS(y,U));图204: 通过平滑估计p'(y|S)和p'(y|U);公式(4) 5:通过软组合估计p(y);公式(2)05. 我们方法的细节0我们的方法有三个学习模块:已见类别模型、未见类别模型和区分它们的模型。这三个组件是分别训练的。附录D解释了为什么它们不能在这个设置中同时训练。0未见类别模型。对于未见类别,我们使用LAGO[7]或fCLSWGAN[46],并使用作者提供的代码。这些模型在ZSL基准测试中都取得了最先进的结果。LAGO通过在属性上学习AND-OR组结构来预测p(ZS|y,x)。fCLSWGAN[46]使用GAN来增强未见类别的训练数据,并训练一个分类器来识别这些类别。我们在GZSL分割上重新训练了这些模型(图4)。0已见类别模型。对于已见类别,我们训练了一个逻辑回归分类器来预测pS(y|x)。我们使用了sci-kitlearn的LBFGS求解器[11],默认的aggressiveness超参数(C=1),因为它在Seen-Val集上表现良好(图4)。0一种基于置信度的门控模型。为了区分已见和未见类别,我们使用逻辑回归分类器在Gating-Train集上训练,预测p(S|x)(图4)。对于输入特征,我们使用未见专家的softmax分数p(ZS)和已见专家的softmax分数p(S)。我们还对p(S)的输入应用温度缩放[26](图2)。我们使用sci-kitlearn的LBFGS求解器,默认的aggressiveness超参数(C=1),因为权重的数量(约为10-50)远小于训练样本的数量(约为数千个)。我们通过添加常数偏置β并在其分数上应用带有γ增益的sigmoid函数来调整门控模型的决策阈值和软度。0通过交叉验证调整了γ和β。06. 实验0我们在四个GZSL基准上测试了COSMO,并与17种最先进的方法进行了比较。重现我们实验的源代码位于http://chechiklab.biu.ac.il/˜yuvval/ COSMO/。06.1. 评估协议0为了评估COSMO,我们遵循Xian [47,45]的协议,该协议成为比较GZSL方法的常见实验框架。我们的评估使用其特征(ResNet[20]),交叉验证拆分和用于与最先进基线比较的评估指标。0评估指标:根据定义,GZSL旨在完成两个不同的子任务:对已见类别进行分类和对未见类别进行分类。因此,标准的GZSL评估指标将这两个子任务的准确率结合起来。根据[45],我们报告了Acc tr(已见类别准确率)和Accts(未见类别准确率)的调和平均值,参见[45]中的公式21,Acc H = 2( Acc ts Acc tr ) / ( Acc ts + Acc tr)。作为第二个指标,我们使用一个参数来扫描决策阈值,计算完整的已见-未见准确率曲线。类似于精确率-召回率曲线或ROC曲线,已见-未见曲线提供了在已见和未见领域之间性能可调的权衡。最后,我们报告了Seen-Unseen曲线下的面积(AUSUC)[9]。06.2. 数据集0我们在四个广义零样本学习基准数据集上测试了COSMO:CUB、AWA、SUN和FLOWER。CUB[43]:是对鸟类进行细粒度分类的任务。CUB有11,788张来自200个鸟类的图像。每个物种由312个属性描述(如wing-color-olive,beak-shape-curved)。它有100个已见训练类别,50个未见验证类别和50个未见测试类别。AWA:Animals withAttributes(AWA)[23]包含50个动物类别的30,475张图像。类别和属性与[31,19]的类别-属性矩阵对齐,使用85个属性的词汇(如white,brown,stripes,eat-fish)。它有27个已见训练类别,13个未见验证类别和10个未见测试类别。SUN[32]:是一个复杂视觉场景的数据集,包含来自717个场景类型和102个语义属性的14,340张图像。它有580个已见训练类别,65个未见验证类别和72个未见测试类别。FLOWER[30]:是一个包含102个类别的花卉细粒度分类数据集,包含8189张图像。类别描述基于[34]的句子嵌入。我们没有使用这个数据集来测试COSMO+LAGO,因为LAGO不能使用句子嵌入。06.3. 交叉验证0为了选择COSMO的超参数,我们进行了两个额外的拆分:GZSL-val和Gating Train /Val。有关详细信息,请参见图4。我们使用交叉验证在GZSL-Val集上优化了公式(5)中的β和γ的AccH指标。我们调整了这些参数。AcctsAcctrAccHAcctsAcctrAccHAcctsAcctrAccHAcctsAcctrAccH116760图3. COSMO+LAGO的Seen-Unseen曲线与:(1)CS+LAGO[9]基线曲线,(2)15个基线GZSL模型进行比较。点标记表示每条曲线的样本。方块:COSMO交叉验证模型及其基于LAGO的基线。三角形:非生成方法,'X':基于生成模型的方法。生成模型往往对未见类别有偏见,而非生成模型往往对已见类别有偏见。重要的是,COSMO曲线在所有方法中实现了更好或相等的性能,并且允许轻松选择曲线上的任何操作点。0数据集 AWA SUN CUB FLOWER0非生成模型 ESZSL [36] 6.6 75.6 12.1 11 27.9 15.8 12.6 63.8 21 11.4 56.8 19 SJE [2] 11.3 74.6 19.6 14.7 30.5 19.8 23.5 59.2 33.6 13.947.6 21.5 DEVISE [12] 13.4 68.7 22.4 16.9 27.4 20.9 23.8 53 32.8 9.9 44.2 16.2 SYNC [8] 8.9 87.3 16.2 7.9 43.3 13.4 11.5 70.9 19.8 - -- ALE [1] 16.8 76.1 27.5 21.8 33.1 26.3 23.7 62.8 34.4 34.4 13.3 21.9 DEM [52] 32.8 84.7 47.3 - - - 19.6 57.9 29.2 - - - K ERNEL [50]18.3 79.3 29.8 19.8 29.1 23.6 19.9 52.5 28.9 - - - ICINESS [14] - - - - - 30.3 - - 41.8 - - - TRIPLE [51] 27 67.9 38.6 22.2 38.3 28.1 26.562.3 37.2 - - - RN [41] 31.4 91.3 46.7 - - - 38.1 61.1 47 - - -0生成模型SE-GZSL [5] 56.3 67.8 61.5 40.9 30.5 34.9 41.5 53.3 46.7 - - - fCLSWGAN [46] 59.7 61.4 59.6 42.6 36.6 39.4 43.7 57.7 49.759 73.8 65.6 fCLSWGAN*(通过提供的代码) 53.6 67 59.6 40.1 36 37.9 45.1 55.5 49.8 58.1 73.2 64.8 cycle-(U)WGAN [10] 59.6 63.459.8 47.2 33.8 39.4 47.9 59.3 53.0 61.6 69.2 65.20COSMO和基线方法CMT [39] 8.4 86.9 15.3 8.7 28 13.3 4.7 60.1 8.7 - - - DCN [27] 25.5 84.2 39.1 25.5 37 30.2 28.4 60.7 38.7 - - -LAGO [7] 21.8 73.6 33.7 18.8 33.1 23.9 24.6 64.8 35.6 - - - CS [9] + LAGO 45.4 68.2 54.5 41.7 25.9 31.9 43.1 53.7 47.9 - - -我们的结果:COSMO+fCLSWGAN* 64.8 51.7 57.5 35.3 40.2 37.6 41.0 60.5 48.9 59.6 81.4 68.8 我们的结果:COSMO+LAGO 52.8 8063.6 44.9 37.7 41.0 44.4 57.8 50.2 - - -0表1. 将COSMO与最先进的非生成GZSL模型和合成特征向量的生成模型进行比较。Acc tr是已见类别的准确率,Accts是未见类别的准确率,Acc H是它们的调和平均值。COSMO+LAGO使用LAGO[7]作为基线GZSL模型,COSMO+fCLSWGAN分别使用fCLSWGAN [46]。COSMO+LAGO将AWA、SUN和CUB的AccH相对于最先进模型分别提高了34%、35%和7%。与生成模型相比,COSMO+LAGO缩小了非生成模型和生成模型之间的性能差距,并且与这些模型相比,训练起来非常容易。0通过首先进行粗略的网格搜索,然后围绕最佳阈值的最佳性能值进行更精细的搜索,我们对超参数进行了优化。独立地,我们使用Gating-Train/Val进行交叉验证,优化了关于T(温度)和K(用于top-K池化)的超参数的out-of-distribution AUC。0我们强调使用Gating-Train/Val训练门控网络不被视为使用外部数据进行训练,因为根据[45],一旦选择了超参数,模型将在训练集和验证集的并集上重新训练(不包括门控模型)。$%&'(AWASUNCUBFLOWERESZSL39.812.830.225.7LAGO [7]43.416.334.3-FCLSWGAN46.12234.553.1CYCLE-(U)WGAN4522.540.456.9COSMO & FCLSWGAN55.92135.658.1COSMO & LAGO53.223.935.7-116770无效数据0无效数据0无效数据0无效数据0无效数据0无效数据0无效数据0无效数据0无效数据0无效数据0无效数据0无效数据0无效数据0图4.GZSL交叉验证划分。数据按类别和样本组织。我们将Seen-Val定义为[47,45]提供的已见类别训练样本的子集。我们将GZSL-Val定义为Seen-Val∪Unseen-Val(粉色部分)。我们使用GZSL-Val来选择模型的超参数并学习(�10-50)个门控网络的权重。我们将GZSL-Val划分为Gating-Train和Gating-Val子集,并使用Gating-Train作为保留集来训练门控模型,使用Gating-Val来评估其指标。06.4. 比较的方法0我们将COSMO与17种领先的GZSL方法进行比较。其中包括ESZSL [36]、ALE [1]、SYNC [8]、SJE [2]、DEVISE[12]等广泛使用的基线方法,以及最近发表的方法RN[41]、DEM [52]、ICINESS [14]、TRIPLE [51]、Kernel[50]等,这些方法对方法提供了有趣的见解,包括CMT[39]、DCN [27]、LAGO [7]和CS[9],我们使用LAGO作为ZSL模块进行复现。最近的研究表明,使用GAN或VAE生成未见类别的合成样本可以显著改善广义零样本学习。最近的文献认为,这种生成努力与建模是正交的,因为这两种努力可以结合起来。在这里,我们直接将COSMO与上述方法进行比较,并与生成方法fCLSWGAN[46]、cycle-(U)WGAN [10]、SE-GZSL [5]进行比较。0表2.测试集上的Seen-Unseen曲线下面积(AUSUC):在所有数据集上,COSMO改进了LAGO和fCLSWGAN的AUSUC。COSMO在4个数据集中引入了新的最先进结果。07. 结果0首先我们描述了COSMO在四个基准测试集上的性能,并与基准方法进行比较。然后我们更深入地研究了COSMO的性质。0通过一系列消融实验,我们对COSMO进行了评估。表1描述了COSMO+LAGO,COSMO+fCLSWGAN和其他方法在四个基准数据集上的测试准确率。与非生成模型相比,COSMO+LAGO在所有四个数据集上的谐波准确率AccH有很大提升:AWA中63.6%对比47.3%,SUN中41%对比30.3%,CUB中50.2%对比47%。此外,COSMO+LAGO缩小了与生成方法之间的性能差距。在AWA(63.6%对比61.5%)和SUN(41%对比39.4%)中取得胜利,在CUB(50.2%对比53%)中失败。有趣的是,尽管LAGO在广义ZSL任务上表现不佳,COSMO+LAGO却达到了最先进的性能。COSMO+fCLSWGAN在FLOWER上提供了新的最先进结果(68.8%对比65.6%)。在AWA、SUN和CUB上,它的性能低于fCLSWGAN和COSMO+LAGO。这是因为通过交叉验证选择的(Acc tr,Acc ts)操作点对于谐波准确率AccH来说并不是最优的。更多细节请参见补充材料C。07.1. 见-未见平面0根据定义,广义零样本学习任务旨在在两个不同的度量标准上表现良好:已见类和未见类的准确率。因此,自然而然地,我们可以通过它们在已见-未见平面上的表现来比较不同的方法。这是重要的,因为不同的方法可能选择不同的操作点来权衡已见和未见的准确率。在图3中,我们提供了一个完整的Seen-Unseen曲线(蓝色点),显示了COSMO+LAGO如何权衡这些度量标准。我们将其与CS+LAGO基线计算的曲线(橙色点)进行比较,并显示了其他方法报告的结果(操作点)。为了绘制这些曲线,我们在门控网络的决策阈值(β)上进行扫描,以其真正阳性率与假正率进行权衡。在蓝色方框中,我们展示了我们的操作点,该操作点是通过交叉验证选择在GZSL-Val集上的最佳AccH来确定的。一个有趣的观察是,不同类型的模型分布在Seen-Unseen曲线的不同区域。生成模型(X标记)倾向于优先考虑未见类的准确率,而非生成模型(三角形)倾向于优先考虑已见类。重要的是,COSMO可以调整以选择曲线上的任何操作点,并在已见-未见平面的所有区域实现更好或相等的性能。在补充图S.2中,我们提供了COSMO+fCLSWGAN在AWA、SUN、CUB和FLOWER上的曲线。表2报告了COSMO与四个基线模型的AUSUC。为了得到基线的完整曲线,我们使用了作者提供的代码并应用了GATINGAWASUNCUBAccHAUCFPRAccHAUCFPRAccHAUCFPRMAX-SOFTMAX-152.986.767.938.460.992.743.474.182.3MAX-SOFTMAX-353.188.656.638.46192.243.773.479.9CB-GATING-3 (W/O pZS)52.888.856.438.46191.643.774.280.4CB-GATING-153.985.958.639.872.278.745.179.667.0CB-GATING-356.691.239.840.172.282.544.880.570.7116780表3.各种门控模型变体在验证集上的消融研究。AUC表示在检测阈值上进行扫描时的曲线下面积。FPR表示在为检测到的样本提供95%真阳性率的阈值上的假正率。0通过一系列常数进行校准堆叠[9]。在所有四个数据集上,COSMO提高了LAGO和fCLSWGAN的AUSUC。COSMO还在AWA、SUN和FLOWER上引入了新的AUSUC的最新技术。07.2. 消融实验0为了理解COSMO的不同模块的贡献,我们对COSMO+LAGO进行了消融实验,量化了CBG网络和自适应平滑的好处。我们首先比较了门控模型的变体,然后比较了平滑方法的变体,最后比较了这些模块如何共同工作。基于置信度的门控:表3描述了:(1)在Gating-Val上的OOD指标AUC和95%真正阳性率下的假阳性率。(2)在GZSL-Val上的准确率H。我们通过比较以下门控模型来测试温度缩放和基于置信度的门控的效果:(1)CB-门控-3是我们最佳的基于置信度的门控模型,来自第4.1节,温度T = 3。(2) CB-门控-1是相同的模型,温度T =1,揭示了温度缩放的效果[26]。(3) CB-门控-3 (w/o pZS)是没有来自ZS专家的输入的CB-门控-3,揭示了利用来自两个专家的信息的重要性。(4)Max-Softmax-1是[15]的基准门控模型,而不是CBG网络,它通过将最大的softmax得分与阈值进行比较来对S /U进行分类。(5)Max-Softmax-3类似于Max-Softmax-1,但温度T =3。在这些实验中,平滑被禁用,只量化与门控模型相关的因素。我们发现温度缩放和基于置信度的门控都提高了质量指标。重要的是,基于置信度的门控对性能有很大的贡献:AWA的AUC从86.3提
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功