没有合适的资源?快使用搜索试试~ 我知道了~
appledryripewetcatdog93360KG-SP:知识引导的简单基元用于开放世界组合零样本学习0Shyamgopal Karthik 1 Massimiliano Mancini 1 Zeynep Akata 1 , 201 图宾根大学 2 智能系统马克斯∙普朗克研究所0摘要0开放世界组合零样本学习(OW-CZSL)的目标是在图像中识别状态和物体的组合,仅在训练期间给出其中的一个子集,并且对未见组合没有先验知识。在这种情况下,模型在一个包含所有可能的状态-物体组合的巨大输出空间上操作。虽然先前的工作通过联合学习组合的嵌入来解决这个问题,但是在这里我们重新审视了一个简单的CZSL基线,并独立地预测基元,即状态和物体。为了确保模型开发出基元特定的特征,我们为状态和物体分类器配备了单独的非线性特征提取器。此外,我们使用外部知识估计每个组合的可行性,利用这个先验从输出空间中删除不可行的组合。最后,我们提出了一个新的设置,即部分监督组合零样本学习(pCZSL),在训练期间仅提供物体或状态标签,并且我们可以使用我们的先验来估计缺失的标签。我们的模型,知识引导的简单基元(KG-SP),在OW-CZSL和pCZSL中都达到了最先进的水平,即使与半监督学习技术相结合,也超过了大多数最近的竞争对手。代码可在以下链接找到:https://github.com/ExplainableML/KG-SP。01. 引言0作为人类,我们根据物体的状态与之互动。例如,我们使用成熟的柠檬而不是发霉的柠檬来制作柠檬水,我们在使用脏碗后清洁它们。能够识别物体及其状态的算法对于自主智能体展示与我们相同的高级交互能力至关重要。在文献中,这个问题被称为组合零样本学习(CZSL)。在CZSL中,我们获得了一个训练集,其中包含了一些物体可能的状态的图像,在测试时,目标是识别相同一组物体和状态的组合,即使在训练期间未见过。由于物体的外观取决于其状态(例如,干狗与湿狗),以及状态以不同的方式修改物体(例如,湿狗与湿车),CZSL的挑战在于建模状态和物体之间的相互作用,并将这种知识从已见到未见的组合进行推广。在这个视角下,多个工作通过组合分类器[26, 31]或共享嵌入空间[23, 28,29]来建模物体和状态的相互作用。尽管它们的有效性,[24]表明CZSL方法在开放世界(OW-CZSL)环境中的性能下降。在OW-CZSL中,对未见组合没有先验知识,模型必须考虑测试时所有可能的组合。由于输出空间的基数很大,很难为未见组合生成有区分性的嵌入[24]。受[24]的发现启发,本文探索了完全不同的方向。具体而言,我们设计了一种架构,忽略了问题的组合性质,并独立地为对象和状态生成初始预测。这个想法是,在OW-CZSL中,由于搜索空间很大,区分组合是困难的,但是在隔离的情况下识别基元(即对象和状态)更容易,因为0训练pCZSL0成熟的狗0干0苹果0训练OW-CZSL0外部知识0狗0干的,湿的,成熟的0干的狗0知识引导0推理0知识辅助伪标签0(训练)0干0成熟的苹果0干的狗0湿猫0干的苹果0图1.我们考虑开放世界组合零样本学习(OW-CZSL)的问题,在测试时我们缺乏对未见组合的先验知识,以及在训练时缺乏组合标签的部分监督组合零样本学习(pCZSL)(左图)。我们通过独立预测对象(红色)和状态(蓝色)标签,并使用外部知识(底部)来估计组合的可行性,在推理过程中减少搜索空间,并改善pCZSL训练中的伪标签。0以不同方式修改物体(例如,湿狗与湿车),CZSL的挑战在于建模状态和物体之间的相互作用,并将这种知识从已见到未见的组合进行推广。在这个视角下,多个工作通过组合分类器[26, 31]或共享嵌入空间[23, 28,29]来建模物体和状态的相互作用。尽管它们的有效性,[24]表明CZSL方法在开放世界(OW-CZSL)环境中的性能下降。在OW-CZSL中,对未见组合没有先验知识,模型必须考虑测试时所有可能的组合。由于输出空间的基数很大,很难为未见组合生成有区分性的嵌入[24]。受[24]的发现启发,本文探索了完全不同的方向。具体而言,我们设计了一种架构,忽略了问题的组合性质,并独立地为对象和状态生成初始预测。这个想法是,在OW-CZSL中,由于搜索空间很大,区分组合是困难的,但是在隔离的情况下识别基元(即对象和状态)更容易,因为3. Knowledge Guided Simple Primitives933701)两个集合的基数要低得多,2)这两个集合在训练和测试时都是固定的。受到[26]和[19]的启发,我们设计了一种简单的方法,用两个独立的分类器预测对象和状态。由于识别状态需要与识别对象不同的特征,所以我们训练我们的模型使用两个不同的非线性特征提取器。此外,由于并非所有的组合在现实中都是同样可行的(例如,成熟的狗),我们可以通过从输出空间中消除不太可行的组合来改进我们模型的预测。为了实现这个目标,我们使用外部知识(即ConceptNet[39])来估计状态和对象之间的兼容性,利用这些估计在测试时消除不太可行的组合。我们将我们的模型命名为知识引导的简单基元(KG-SP)。由于我们的KG-SP方法在训练过程中不需要组合标签,我们探索了一个新的具有挑战性的设置,即部分监督下的组合零样本学习(pCZSL)。在pCZSL中,训练样本只有对象或状态注释,而没有两者都有。在这里,我们利用我们对可行组合的先验知识来辅助训练过程中的伪标签。实验证明,KG-SP在OW-CZSL方面要么具有竞争力,要么超过了现有技术水平,并且在pCZSL设置上优于最近的CZSL方法。图1提供了KG-SP和这两个任务的概述。贡献。总结起来,1)受到[19,26]的启发,我们的模型独立预测状态和对象,同时根据外部上下文信息关于某些组合的可行性从输出空间中消除不太可行的组合;2)我们探索了在部分监督下的组合零样本学习的问题,其中地面实况中缺少对象或状态信息;3)我们改编了最近的pCZSL基线,表明KG-SP即使与半监督学习技术相结合,在OW-CZSL和pCZSL设置中也能超越它们。02. 相关工作0组合零样本学习旨在识别图像中的状态和对象的组合,即使在训练期间未见过。这种设置的主要挑战是建模状态如何修改对象,并将这种能力推广到未见的组合。大多数先前的工作都集中在如何在参数级别或给定表示空间中建模状态和对象之间的相互作用。例如,[26,31]提出了在给定特定状态和对象基元的两个分类器(或嵌入)的情况下为给定的状态-对象组合生成分类器,使用组合模块[26]或门控网络[31]。不同的是,[23,29]将每个状态建模为转换对象嵌入的运算符,对状态运算符施加属性(例如,交换律,对称性)。在[29]中,状态运算符是线性的,而在[23]中,它们是耦合和解耦网络。最近,[28,36]使用图卷积神经网络来建模状态、对象及其组合之间的相互作用。0卷积网络[17]来建模状态、对象及其组合之间的相互作用。与此不同的是,[2]从因果关系的角度来解决CZSL问题,学习解耦的对象和状态表示。在这项工作中,我们重新审视了VisProd[26],在孤立地预测对象和状态方面表现出有效性,证明了这种策略在OW-CZSL中是有效的。与[24]一样,我们估计每个组合的可行性以提高模型的性能。然而,我们使用ConceptNet来实现这一目标,而不是使用组合注释,成为首个在训练过程中不需要组合标签来解决CZSL问题的方法。多任务学习。由于我们独立预测状态和对象,因此我们的工作与多任务学习[7, 15, 27, 35, 37]和多领域学习[4, 22, 32,33]相关,其目标是学习一个能够处理不同视觉任务的唯一模型。在这个领域的大多数方法要么学习任务特定的参数[4,22, 32, 33, 37]和如何组合它们[27,35],要么专注于重新加权不同的损失函数[15]。虽然我们使用多任务学习为CZSL设计原始分类器,但我们的最终目标是不同的,因为我们从单独的输出空间中组合预测结果。从部分监督学习中学习。我们的CZSL设置不需要组合标签,与半监督学习和缺失标签学习相关。在半监督学习中,既有标记样本又有未标记样本,并且目标是有效地使用未标记样本。流行的思想围绕一致性正则化[5, 6, 38]和自我训练[10, 20,34]。与半监督学习不同,在pCZSL中,所有样本都有标签,但是部分有标签。因此,我们还可以利用对象与状态相互作用的先验知识来估计缺失的标签。对于缺失标签的学习,这在多标签场景中最为常见,因为不可能对单个图像中存在的所有标签进行注释。在这个领域的方法通常对标签之间的相关性进行建模[8, 9, 12,18],以对缺失标签施加语义目标。虽然我们也对部分监督学习感兴趣,但我们的标签位于两个单独的空间(即对象和状态),而缺失的标签(例如状态)会影响到正标签(例如对象)的外观。在这种设置下,主要挑战是在没有任何组合监督的情况下建模两个空间如何相互影响。0问题定义。CZSL[24]旨在识别一组对象O和一组状态S的组合。形式上,给定一个训练集T = {(x,y)}Ni=1,其中N是训练集的大小,x ∈X表示输入空间X中的图像,y ∈Ys表示其在已见组合集合Ys中的标签。目标是学习一个能够识别一组组合Yt = Ys ∪Yu的模型,其中Yu是一组未见组合(即Yu ∩ Ys =�),且Yt � Y,其中Y是所有可能组合的集合,即Y = S ×O。OW-CZSL和pCZSL设置。在这项工作中,我们考虑两种不同的CZSL设置。sider two different CZSL settings. Open-World CZSL (OW-CZSL) [24] assumes no prior on the set of unseen composi-tions at test time. This means that the model needs to operateon the full compositional space, i.e. Yt = Y . Consequently,the number of unseen compositions is much larger than thenumber of seen ones i.e. Yu = Y \ Ys, thus the main chal-lenge is operating in a very large output space where most ofthe compositions are unseen and thus hard to discriminate.In this work, we also consider a new challenging task,namely CZSL under partial supervision (pCZSL), wherethe training set does not contain any compositional labeland all training images have either object or state label,but not both. This setting is more realistic than standardCZSL since most datasets are collected with single labels(e.g. only object-level information) and collecting multi-ple labels is expensive and time-consuming. Formally, weconsider the labels of our training set T to be of the formy = (s, u) ∨ y = (u, o), ∀(x, y) ∈ T , with s ∈ S, o ∈ Oand u denoting an unknown label. Note that, as a conse-quence of this formulation, the set of training compositionsYs is not known a priori anymore. This implies that, as inOW-CZSL, we need to consider the full compositional spaceat test time, i.e. Yt = Y . Moreover, since no training imagecontains both object and state labels, we do not have explicitsupervision on how states modify objects and vice-versa.In the following, we describe the two components of ourframework, Simple Primitives (SP) where we predict theprimitives, e.g. object and states, independently and Knowl-edge Guidance (KG) where we use external resources thatguide our model on the feasibility of certain compositions.3.1. Simple Primitives (SP) in KG-SPLvisprod =N�i=1Isi̸=uLstate(xi, si) + Ioi̸=uLobj(xi, oi)(1)= −N�i=1Isi̸=u log ϕs(zi, si) + Ioi̸=u log ϕo(zi, oi)93380受早期视觉产品(VisProd)基线[26]的启发,我们的模型完全忽略了问题的组合性质,独立地预测状态和对象。这个想法与最近的方法(即[2, 23, 24, 28, 29,31])形成鲜明对比,这些方法在模型内明确地建模对象和状态之间的相互作用。形式上,给定一张图像x,我们通过函数ω将其特征表示z =ω(x)提取出来,将图像映射到特征空间Z,即ω:X→Z。然后我们有一个对象分类器ϕo:Z→∆O,将z映射到概率单纯形∆O中的向量,该向量跨越所有对象类别。类似地,我们还有另一个分类器,将z映射到状态的概率,即ϕs:Z→∆S。在训练过程中,我们同时最小化对象和状态预测的交叉熵损失。具体来说,我们最小化:0其中zi = ω(xi),ϕo(z,o)是由ϕo分配给输入z的对象o的概率,ϕs(z,s)是由ϕs分配给输入z的状态s的概率。在公式(1)中,I是一个指示函数,用于在pCZSL中不计算损失,在没有基本元素标签的情况下。我们的预测函数是:0f = arg max ( s,o ) ∈ Y ϕ o ( w ( x ) , o ) ∙ ϕ s (w ( x ) , s ) . (2)0尽管像这样独立地学习简单基元在标准CZSL中可能不太有效,但我们认为在OW-CZSL中分离状态和对象预测的能力至关重要,因为如果在整个组合空间上进行预测,搜索空间将过大。在原始的VisProd公式中,对象和状态预测器是简单的线性层,它们在相同的特征向量上操作。然而,这种选择是次优的,在实践中结果较差。事实上,通过使用单独的线性层,VisProd将CZSL作为多任务学习问题[7, 15, 27, 32,33, 35,37]来处理,其中有两个不同的任务(即状态和对象预测),它们共享相同的特征提取器,只有分类头不同。然而,多任务学习(MTL)和多领域学习(MDL)的多个研究讨论了当任务不严格相关时,完全共享参数来提取不同任务的特征表示(即硬共享[7])是次优的[27, 32,33],甚至可能导致负面转移[21]。在CZSL中,识别对象与识别它们的状态是不同的。具体而言,前者需要关注全局特征:例如,区分一种动物与另一种动物需要关注它们的形状和皮肤,而区分水果则需要检测基于纹理的线索。相反,识别状态需要关注局部模式:例如,干燥和湿润之间的区别可以通过汽车和苹果上的水滴的存在来检测,而在动物身上则需要观察毛发的形状。基于这个前提,我们需要克服硬参数共享所带来的限制,以确保对象和状态分类器具有足够的灵活性来学习特定基元的特征。虽然高级的MTL和MDL技术可以用于此目的,但在这项工作中,我们发现将这两个分类器实现为具有非线性激活的多层感知器(MLP)就足够了。03.2. KG-SP中的知识引导(KG)0在OW-CZSL和pCZSL的大输出空间中,并不是所有的组合都是同样可行的(例如成熟的狗,多毛的苹果),考虑到这个先验知识可以帮助我们纠正模型中不兼容的状态-对象预测。接下来,我们将描述如何估计可行性分数以及如何在我们的模型中使用它们。估计可行性分数。形式上,让我们将每个组合(s,o)关联到一个兼容性分数cos∈[0,1]。appledryripewetdryripewetdryripewet~catdogdryripewetripe dog dry dog wet cat wet dog . . .. . .Can a OBJ be STA?Can a OBJ be STA?Can a OBJ be STA?ripe cat dry dog wet cat wet dog ripe dog dry dog dry apple wet apple ripe apple cos = ρKB(s, o)(3)fKG =arg max(s,o)∈Y,cos>0ϕo(z, o) · ϕs(z, s)(4)ˆs ∼ Gumbel (ϕs(z) ⊙ co) , ˆo ∼ Gumbel (ϕo(z) ⊙ cs) (5)LpCZSLvisprod =�(xs,s)∈TsLstate(xs, s) + Lobj(xs, ˆo)+�(xo,o)∈ToLobj(xo, o) + Lstate(xo, ˆs).(6)93390图像特0对象预测 狗0外部知识0知识库狗可以是干的吗?狗可以是湿的吗?狗可以是成熟的吗?0干燥湿润成熟0干燥0训练 推理 状态预测0图像特征0对象预测0湿狗0外部知识0真实标签(OW-CZSL)0pCZSL训练0图2.知识引导的简单基元(KG-SP)。我们在共享特征提取器(绿色)之上训练单独的对象(红色)和状态(蓝色)预测器,使用可用的状态和对象标签。我们使用外部知识来估计组合的可行性分数(黄色,底部),在推理过程中使用这个先验知识直接从输出空间中去除不可行的组合。在pCZSL中,我们使用这个知识来重新加权类别分数并通过Gumbel-softmax对缺失标签进行伪标记(灰色),对它们进行采样。0由于不存在包含此类信息的数据库,先前的研究利用已见组合集Ys来估计cos[24]。在这里,我们通过使用外部知识来探索另一种方法。这样,我们的估计独立于集合Ys的实际可用性,并且也可以应用于pCZSL,其中Ys是未知的。尽管我们探索了不同的策略(见补充材料),但我们发现ConceptNet[39]提供可靠的可行性估计。ConceptNet是一个将单词和短语与标记边缘连接起来的知识图,从各种来源提取而来[39]。我们可以以两种方式使用ConceptNet。第一种是查询组合的存在性,第二种是查询两个条目之间的相关性(即对象和状态)。由于直接查询非常稀疏,我们采用第二种方法,将分数定义为:0其中 ρ KB ( s, o ) 返回 s 和 o之间的关系得分。在ConceptNet中,这些得分是通过计算ConceptNet Numberbatch嵌入(例如word2vec [ 25],GloVe [ 30])的余弦相似度来计算的。在推理过程中使用可行性得分。与[ 24]类似,使用可行性得分的最直接方法是在推理过程中删除输出空间中可行性较低的组合。因此,我们的预测函数变为:0其中我们认为 c s o > 0的所有组合都是可行的。在pCZSL的训练中使用可行性得分。在pCZSL中,我们可以通过估计缺失标签来获得额外的监督。实现这一点的一种直接方法是通过伪标签(pseudo-labeling)[ 20],这是一种半监督学习技术,将模型预测作为ground-truth。0对于无标签样本。在pCZSL中,这意味着当状态(对象)标签缺失时,伪标签将作为标签插入具有最高得分的对象(状态)。为了避免伪标签形成不可行的组合,我们可以使用我们的先验知识来辅助伪标签过程。给定对象标签 o或状态标签 s ,我们估计它们各自的状态和对象伪标签为:0其中 c o 是包含给定对象 o的所有状态的兼容性得分的向量,即 c o = [ c o s ] s ∈ S,c s 是给定状态 s 的所有对象的兼容性得分的向量,即 c s= [ c o s ] o ∈ O 1 。请注意,在这两个方程中,我们使用Gumbel-softmax ( Gumbel ) [ 14 ]来采样伪标签。我们发现这个选择有助于使模型对嘈杂的预测更加鲁棒,并且不太偏向于训练集潜在标签分布。我们的目标函数变为:0我们在pCZSL的训练中使用这个目标函数,而在OW-CZSL中使用Eq. ( 1 )。在两种情况下,我们通过Eq. ( 4 )进行推理。由于我们将独立的原始预测与外部知识相结合以进行改进,我们将该方法命名为Knowledge-guidedSimple Primitives(KG-SP)。图2说明了我们在训练和推理过程中的方法。04. 实验0数据集。我们使用三个用于组合式零样本学习的标准数据集,即UT-Zappos [ 43 , 44 ],MIT-States [ 13]和最近提出的C-GQA [ 28 ]数据集。01 我们假设 S 和 O 是按字母顺序排列的。AUCTMN [31]12.60.91.20.155.918.121.78.4NANANANAAoP [29]16.65.74.70.750.934.229.413.7NANANANALE+ [26]14.22.52.70.360.436.530.516.319.20.71.00.08VisProd [26]20.95.85.60.754.642.836.919.724.81.72.80.33SymNet [23]21.47.05.80.853.344.634.518.526.72.23.30.43CompCosCW [24]25.35.55.90.959.845.636.320.828.01.01.60.20CGEff [28]29.64.04.90.758.846.538.021.528.31.32.20.30CompCos [24]25.410.08.91.659.346.836.921.328.41.82.80.39CGE [28]32.45.16.01.061.747.739.023.132.71.82.90.47KG-SPff23.47.06.71.058.047.239.122.926.62.13.40.44KG-SP28.47.57.41.361.852.142.326.531.52.94.70.7893400方法 MIT-States UT Zappos C-GQA0表1. MIT-States、UT Zappos和C-GQA上的开放世界CZSL结果。我们测量组合的最佳可见(S)和不可见准确性(U),最佳调和平均值(HM)和曲线下面积(AUC)。KG-SP ff指的是我们提出的具有冻结骨干的方法。0UT-Zappos包含12个物体类别(鞋子类型)和16个状态类别(材料类型),具有83个已见组合和192个组合空间。MITStates是一个更大的数据集,包含115种可能的状态中的245个物体类别。总共,它包含1,262个已见组合和28,175个组合空间。最后,C-GQA是一个最近提出的数据集20其中包含674个物体类别和413个状态类别。它包含5,592个训练组合和278,362个组合的完整组合空间。基线。在OW-CZSL中,我们将KG-SP与标准的CZSL方法进行比较,即Attributes as Operators(AoP)[29],LabelEmbed+(LE+)[26],Task ModularNetworks(TMN)[31],SymNet [23],CompositionalGraph Embeddings(CGE)[28]和Compositional CosineLogits(CompCos)[24]。在表中,我们将CompCos的闭世界版本称为CompCosCW,将带有冻结特征提取器的CGE变体称为CGEff。在pCZSL中,我们将KG-SP与CGE [28]和Com pCos[24]进行比较,它们分别是封闭世界和开放世界设置中的最先进模型。当状态/对象信息可用时,我们通过将预测边缘化到状态/对象上,最小化基于真实注释的交叉熵损失,将这些方法适应于pCZSL。我们还尝试了流行的半监督学习技术,如熵最小化[10]和伪标签[20],将它们添加到CompCos和CGE中。评估协议。对于OW-CZSL设置,我们遵循[28,31]的标准划分,在广义设置下评估所有方法,即模型识别来自已见和未见组合的样本。按照[31]的协议,在测试时对已见组合施加偏差,通过改变偏差来衡量最佳已见(S)和最佳未见(U)准确性,最佳谐波平均(HM)以及曲线下面积(AUC)。02 我们参考了https://github.com/ExplainableML/czsl中的更新划分。0对于pCZSL设置,我们提出了一个新的训练集划分,将具有物体和状态标签的样本分开。这是通过仅保留一半样本的物体标签,而对于剩余的一半样本,仅保留状态标签来实现的,确保训练集中的每个物体和状态都可见。此外,对于pCZSL设置,模型无法访问已见组合Ys。因此,我们在完整的组合空间中评估模型,不对Ys减去任何偏差。因此,我们使用已见(S)和未见(U)准确性及其谐波平均(HM)作为度量标准,这在零样本学习中是标准做法[42]。实现细节。我们遵循CZSL文献[24,28]中的标准做法,使用ResNet18[11]特征提取器。对于状态和物体分类器,我们遵循[28],使用三层的多层感知器,包括层归一化[3]和Dropout[41]。模型使用Adam[16]进行优化,使用默认超参数,学习率和权重衰减为5e-5。04.1.在具有挑战性的OW-CZSL设置中的结果如表1所示。在这个设置中,KG-SP要么优于现有技术,要么与之竞争。具体来说,在UT-Zappos上,KG-SP在所有指标上都优于最佳竞争对手(CGE),AUC提高了3.4%(26.5 vs23.1),最佳HM提高了3.3%(42.3 vs39.0),最佳未知提高了4.4%(52.1 vs47.7)。同样,在没有端到端训练的情况下,KG-SP在AUC(22.9 vs 21.5)和最佳HM(39.1 vs38.0)方面超过了最佳基线(CGE ff)1.3。这些结果在具有挑战性的C-GQA数据集中得到了证实。尽管输出空间几乎有280k个组合,KG-SP获得了0.78的AUC,而最佳竞争对手(CGE)只有0.47,最佳未知为4.7(SymNet为3.3),最佳未知为2.9(SymNet为2.2)。当不进行微调时,该方法在与SymNet相比的同时取得了有竞争力的结果(例如3.4HM),而且更容易优化,因为KG-SP对组合空间没有任何约束。我们的研究结果证实了这一点。CGEff25.55.76.51.0✓24.07.88.11.3CGE27.26.67.01.3✓25.18.18.11.4VisProd24.86.87.31.1✓24.77.27.61.2KG-SPff26.37.47.91.3✓26.57.78.21.493410边缘化 已见 未见 调和平均值 AUC0表2. 在MIT-States的验证集上使用边缘化的OW-CZSL结果。CGEff是[28]的方法,使用冻结的主干网络,而CGE进行端到端的训练。0图3. KG-SP ff在UT-Zappos(红色曲线)和MIT-States(蓝色曲线)的OW-CZSL设置验证集上,关于对象和状态分类器深度的重要性的消融研究。性能以AUC衡量。0掩码 已见 未见 调和平均值 AUC0表3. 在MIT states验证集上应用我们基于可行性的掩码(f KG)在不同模型上的OW-CZSL结果。0结果表明,独立建模状态和对象可能是处理OW-CZSL中非常庞大的输出空间的一种有效方法。这种独立性假设确保每个预测器学习一个有区分性的分类器,而不是学习一个针对成千上万个组合的单一分类器,即使使用强大的架构(例如[28]的图卷积神经网络)和通过辅助信息(例如词嵌入[25])进行初始化,也无法很好地扩展。最后,表格还突出了KG-SP和[26]的VisProd基线之间的差距。特别是,我们修订后的模型(未进行微调)在AUC方面始终优于VisProd(即MIT-States的1.0 vs 0.7,Zappos的22.8 vs19.7,C-GQA的0.44 vs0.33)和最佳调和平均值(即MIT-States的6.7 vs5.6,Zappos的39.3 vs 36.9,C-GQA的3.4 vs2.8)。这些结果证实了我们对原始VisProd模型的修改的重要性,我们将在接下来的部分进行消融实验。04.1.1 为什么KG-SP在OW-CZSL中有效?0分别预测对象和状态。我们认为KG-SP成功的一个重要原因是对状态和对象的分离处理。正如前面讨论的那样,独立预测状态和对象可以使问题的规模更小,因为每个预测器只需要学习几百个类别的判别分类器,而不是成千上万个组合的单一分类器。即使使用强大的架构(例如[28]的图卷积神经网络)和通过辅助信息(例如词嵌入[25])进行初始化,单一分类器的规模也无法扩展良好。最后,表格还突出了KG-SP和[26]的VisProd基线之间的差距。特别是,我们修订后的模型(未进行微调)在AUC方面始终优于VisProd(即MIT-States的1.0 vs 0.7,Zappos的22.8 vs 19.7,C-GQA的0.44 vs0.33)和最佳调和平均值(即MIT-States的6.7 vs 5.6,Zappos的39.3 vs 36.9,C-GQA的3.4 vs2.8)。这些结果证实了我们对原始VisProd模型的修改的重要性,我们将在接下来的部分进行消融实验。0KG-SP使得OW-CZSL问题更容易、更可扩展,因为它不是直接预测成千上万个组合,而是在原始对象和状态上进行预测。为了验证这个假设,我们采用了标准CZSL中的最先进方法CGE[28](带和不带端到端训练),并修改了它的分类器,使其能够分别输出对象和状态。具体来说,我们通过将状态预测在所有可能的对象上进行边缘化,同样地,我们将对象预测在可能的状态集合上进行边缘化。结果报告在表2中。我们可以看到,当我们分离这两个预测时,最佳未见准确率(CGE ff 的5.7 vs 7.8,CGE的6.6 vs8.1)和最佳调和平均值(CGE ff 的6.5 vs 8.1,CGE的7.0vs8.1)都有一致的增加。因此,这些方法在AUC方面也有所改善(CGE ff的1.1到1.2,CGE的1.3到1.4)。这表明在开放世界的设置中,提供独立的对象和状态预测基础是一种有用的策略。在原始对象和状态空间中操作,可以简化问题,提高现有最先进的CZSL模型的性能。KG-SP中分类器深度的影响。我们在MIT-States和UT-Zappos验证集上对KG-SP ff的分类器深度的影响进行了消融实验,结果如图3所示。UT-Zappos(红色曲线)和MIT-States(蓝色曲线)的验证AUC随着分类器深度的增加而迅速增加。这表明考虑到问题的多任务性质以及实例化具有足够容量的对象和状态分类器来提取基于原始的特征的重要性。尽管更深的预测器有所帮助,但在3层之后,性能会下降(即当深度从3增加到5层时,UT-Zappos的性能从26.9下降到24.3)。这种下降的原因主要与在已见组合上的过拟合有关。基于知识的掩码的影响。我们在MIT-states验证集上对从输出空间中过滤掉不可行组合的掩码的影响进行了消融实验,结果如表3所示。我们对VisProd和KG-SP ff 进行了实验。如表所示,KG-SP ff从去除不可行组合中受益,未见准确率从7.3提高到7.5,最佳调和平均值从7.6提高到8.1。同样,对于VisProd,当其输出空间被过滤时,未见准确率(从6.8提高到7.2)和最佳调和平均值(从7.3提高到7.6)也有一致的改善。这些结果表明,从输出空间中去除不可行组合有助于提高OW-CZSL模型的性能,并且ConceptNet是估计组合可行性得分的可靠来源。04.2. 部分监督下的CZSL0我们提出的pCZSL设置的结果如表4所示。在极大的组合空间中识别未见组合的同时,pCZSL模型还必须应对缺乏组合标签的问题。在这种情况下,KG-SP在这三个数据集上都取得了最先进的结果。在UT-Zappos上,KG-SP的HM为13.1,而最好的竞争对手(CGE)只有10.7的HM。类似地,在HMKG-SPff13.52.64.453.86.912.322.30.91.7KG-SP18.42.24.057.97.413.126.91.22.393420方法 MIT-States UT Zappos C-GQA0CGE ff [28] 19.6 1.3 2.4 50.3 3.4 5.0 17.4 0.4 0.9 +伪标记法 19.7 0.9 1.8 48.5 1.1 2.2 19.80.2 0.4 +熵最小化 15.1 1.7 3.1 51.9 4.2 6.4 22.1 0.4 0.90CompCos [24] 10.8 2.0 3.6 52.4 4.1 7.6 24.3 0.4 0.7 +伪标记法 9.2 1.9 3.2 52.9 3.7 6.823.6 0.3 0.5 +熵最小化 13.2 2.1 3.7 55.0 4.2 7.9 23.1 0.6 1.10CGE [28] 17.9 1.6 3.0 55.8 5.9 10.7 25.6 0.7 1.4 +伪标记法 10.6 2.3 3.8 56.1 3.9 7.3 21.30.6 1.2 +熵最小化 17.8 1.6 3.0 60.1 4.7 8.7 24.8 1.0 1.80表4. MIT-States、UTZappos和C-GQA上的部分开放世界CZSL结果。我们测量了组合及其谐波均值(HM)的已见(S)和未见准确性(U)。KG-SP指的是我们的完整模型,包括我们的知识引导的伪标记和推理。CGE ff 和KG-SP ff 是方法的非微调版本。对于每个CZSL基线,我们展示了原始方法的结果以及与熵最小化(EntropyMin.)[10]或伪标记(Pseudo-Lab.)[20]相结合的结果。0方法 已见 未见 HM0KG-SP 16.6 2.8 4.8 + 伪标记法 15.9 2.7 4.6 +Gumbel Softmax 16.1 2.6 4.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功