没有合适的资源?快使用搜索试试~ 我知道了~
8453一种用于多域少样本分类的多模调制器刘彦斌1,2,李巨豪3,4,朱林超2,陈凌2,石汉飞5,杨毅2*1百度研究院、2悉尼科技大学AAII、3KAIST、4AITRICS5俄勒冈大学Picsart AIResearch(PAIR){csyanbin,shihonghui3} @ gmail.com,juholee@kaist.ac.kr{linchao.zhu,ling.chen,yi.yang} @ uts.edu.au摘要大多数现有的少镜头分类方法仅包含迷你ImageNet培训测试不可见类在一个数据集上的侧面概括(即,单域),无法跨各种可见和不可见域传输在本文中,我们考虑更现实的多域少镜头分类问题,研究跨域推广。在这一新的环境中存在两个挑战:(1)如何有效地生成多域特征表示,(2)如何探索域表示以更好地进行跨域泛化。我们提出了一种参数高效的多模调制器,以解决这两个挑战。首先,调制器被设计为在单个网络中保持多个调制参数(每个域一个),从而实现单网络多域表示。给定一个特定的域,域感知的ImageNetOmniglotQuickdraw单域少样本分类不可见类交通标志未知域多领域少样本分类可以利用设计良好的分离选择模块和协作查询模块来有效地生成特征。其次,我们进一步将调制参数划分为域特定集合和域协作集合,以分别探索域内信息和域间域内信息独立地描述每个域以防止负干扰。域间相关性引导相关域之间的信息共享以丰富其自身的表示。此外,看不见的域可以利用相关性来获得用于外推的可见域的自适应组合。我们表明,所提出的多模调 制 器 实 现 了 最 先 进 的 结 果 , 具 有 挑 战 性 的 元DATASET基准,特别是对于看不见的测试域。1. 介绍少镜头分类的目标是训练一个模型,该模型可以概括只有很少标记的未见过的新类别*部分工作是在刘彦斌在百度研究院实习时完成的。易阳为通讯作者。图1.多域少炮分类不同于单域多炮分类。域少量分类在两个方面:(1)它包含用于训练的多个不同的数据集和用于测试的额外的不可见域;(2)在多个域之间存在潜在的相关性,例如,Omniglot和QuickDraw都包含简单的形状。每一个新的类的例子。元学习范式最近取得了一些进展:少次算法利用训练类来学习识别具有很少示例的新类,而不是特别地学习任何训练类。在常见基准测试 中 获 得 了 优 异 的 结 果 ( 例 如 , Omniglot [21] ,miniImageNet [33])通过一系列方法[28,50,53,51,52,4,43,7,18]。尽管它们取得了成功,但它们中大多数只在一个数据集上训练和评估(即,单域),不能跨不同视觉域(即,多域)。事实上,在实际应用中,跨域推广的需求是普遍存在的[44,13,24,23,14,11,26]。例如,我们希望在ImageNet [6]上训练的模型应用于TrafficSigns [17],而无需收集额外的目标训练示例(图1)。为了打破现有的少数镜头分类方法和基准的局限性,[44]提出了一种新的支持标签查询8454基准META-DATASET,提出了多领域少样本分类的新问题。它与传统的单域少样本分类有两个方面的区别(如图1所示):(1)它包含多个不同的用于训练的数据集和额外的用于测试的未知域;(2)潜在的相关性存在于多个域之间,例如,Omniglot和QuickDraw都包含简单的形状。这些差异对多域少镜头分类提出了两个挑战:(1)如何有效地生成多域表示,以及(2)如何探索域相关性以用于更好的跨域泛化。目前的多域方法不能很好地解决这些挑战。例如,CNAPs [34]使用所有训练数据集训练通用自适应网络,从而实现单模式和通用自适应。对于实质上不同的域(例如,ImageNet和Omniglot),这种单模式自适应网络可能不足以处理所有域,并且可能发生潜在的相比之下,SUR [10]预训练多个独立特征提取网络以获得多域特征表示。然而,维护特征提取网络的多个副本是低效的,并且禁止域级信息共享。为了解决上述方法的缺点,我们提出了一种多模式调制器(tri-M),以在单个网络中同时对多域特征表示和跨域相关性进行建模。首先,调制器被设计为通过在单个网络中并入多个调制参数来实现多域表示,其中每个参数描述特定域(称为模式)。在给定数据集的情况下,通过设计良好的分离选择和协同查询机制,有效地生成领域感知特征。其次,为了探索域相关性,调制参数被进一步分成两组:域特定集合和域协作集合,它们互补地工作以探索域内和域间信息。具体地,域特定集合独立地描述每个域以防止远域之间的负干扰,例如,ImageNet和Omniglot。域协作集合捕获域间关系,以引导相关域之间的有益信息此外,与学习的域关系,看不见的域可以描述的自适应组合的相关看到的域,显示我们的模型的外推能力。此外,通过设计,我们的调制器可以灵活地改变模式的数量,以处理不同数量的数据集和调制层的数量,以满足所需的模型容量。在实验中,我们显示了我们的模型中的每个组件的有效性,并以可视化的方式显示。解释选择和查询机制如何在特定于域的参数集和域协作的参数集上工作总之,我们的主要贡献有三方面:• 我们提出了一种多模式调制器来处理多域少拍分类问题。我们的单网络多域模型可以有效地生成域感知功能。• 我们明确的域相关性模型的域特定的和域合作的参数集。它们互补地工作以提取域内和域间信息。• 我 们实 现了 国 家的 最先 进 的性 能上 的 挑战 ,lenging元数据集基准,特别是看不见的测试域。2. 相关工作元学习。最近的几次学习方法依赖于元学习[42,38,37]范式。 其中大部分分为两种类型:基于度量的方法和基于优化的方法。基于度量的方法[47,40,51,41,31]利用特征编码器从标记和未标记图像中提取特征,并采用度量函数(例如,欧氏距离[40])来计算用于预测未标记图像的类别的相似性得分基于优化的方法[12,33,35,48]从一系列情节中学习基本学习者模型参数的更新规则。多域和跨域少炮分类。Chen等人[4]最近发现,当前的Meta学习方法不能很好地推广到未知的领域。为了缓解这一点,[44]提出了一个更现实,更大规模和更多样化的基准:META-DATASET,并提出了多域少数镜头分类的新问题(见图1)。META-DATASET提供了一个定义良好的评估测试平台,并启发了一系列新的少量学习方法[34,10,2,27,3,8,1,45,36]。类似地,[13]提出了跨域少数镜头学习(CD-DSL)基准,其中ImageNet [6]用于源训练,并且与ImageNet不同的领域(包括作物疾病,卫星和医学图像)用于目标评估。跨域少拍学习与多域少拍学习的不同之处在于,它关注从源训练域到不同目标评估域的域转移,而多域少拍学习试图为可见和不可见域学习性能良好的模型。用于少量学习的多模态特征表示。使用多个表示的直接方式是简单地训练N个单独的模型并应用特征级或预测级融合。[9]设计了一个深度网络的集合,以利用类的方差。8455ç`Ø`ç⌧1模式1Ø⌧1ç⌧M模式MØ⌧M......F`(x)V1↵1↵F`(x)ç`+Ø`分层调制ç⇣1模式1Ø⇣1ç⇣模式MMØ⇣M域协作域协作协同参数查询分离参数选择−S QS{}Q{}1Qu我 i=1支持{xs}任务网络特定于域的参数生成域协同参数生成图2.提出的三M框架。 我们首先将支持图像输入到任务网络中以获得域描述符VS。域描述符之后是三个头以生成硬门控、融合参数α和查询向量。硬门控用于引导分离参数选择模块从域特定参数中进行选择。查询向量被用作探测器的协同参数查询模块从域的协同参数,这是通过应用域的协作对个人参数产生的然后,对选择的参数和查询的参数进行通道级加权融合,得到第七层参数γα,βα。最后,逐层特征调制应用于任何支持或查询图像。用于少数镜头分类的因子[10]通过预训练多个神经网络来获得多域表示,并在推理时重新加权多个特征。[48]提出了一个多模态MAML(MMAML)框架,以调节其元学习先验与参数生成对于训练和测试两者,仅从一个数据集D采样。 在多域 少 炮 分 类 中 , 在 训 练 期 间 , 从 多 个 数 据 集Dtr={D1 , D2 , . . ., Dn}, 并且 在测 试期 间, 从Dte={D1,D2,. . .、Dn、Dun、. . .,Dun}从调制网络。 多模态任务共享包括训练数据集Dtr和未见过的数据集相同调制网络学习一般适应{Dun}u. 这意味着解决这个任务的模型必须机制3. 问题定义传统的少数镜头分类通常被公式化为元学习问题:我们创建一系列学习任务(即,片段),其中每个任务由称为支持集的几个标记的示例和称为查询集的几个未标记的示例组成。具体地,在每个片段中,从所有训练类中采样N个类的小子集以构建支持集和查询集。支持集包含N个类中的每一个的K个示例(即,N-路K-激发设置)表示为=(x1,y1),. . . ,(xN×K,y N×K),而查询集=(x=1,y=1),. . . ,(x*q,yq*)包括来自相同N个类的不同样本。的性能进行评估的(S,Q)任务采样从看不见的测试类。多域少炮分类与传统的少炮分类具有相同的基本结构,但也有一些重要的区别。在传统的几杆类-一般化到多个数据集,包括看不见的数据集。另一个区别是,与典型的N路K次设置不同,多域少次分类中的采样任务可以具有不同数量的类和每个类的不平衡数量的图像例如,在Meta [44]中,N是从范围[5,50]中采样的,并且K和K是用复杂的过程采样的。这两个差异使得直接将现有的少镜头学习方法应用于多域少镜头分类问题变得非常重要4. 我们的框架我们在图2中可视化所提出的三M框架在我们的框架中,我们固定骨干网络并利用多模调制器来生成用于逐层特征调制的尺度和平移参数γι、βι具体地,我们首先将支持集馈送到任务网络中以获得域描述符VS,其之后是三个头以生成硬门控、融合参数α和查询向量。硬选通选择参数..................8456−s=1××∈∈SS∈∈SSL∈我我 i=1我我 i=1=1KζζK--S{}--并且查询向量查询来自域协作参数集的参数。然后,将它们与α和1α融合以得到用于特征调制的逐层参数γι、βι总的来说,我们的框架实现了单网络多域的特征表示的参数有效的方式。在下文中,我们首先描述逐层特征调制,然后解释调制参数如何生成和融合。最后,我们描述了分类器。4.1. 逐层特征调制特征自适应是少样本学习中的一个关键问题,因为模型必须在看到很少的例子后快速泛化。现有的方法[12,33]通过使用很少的支持示例来适应所有网络参数来解决这个问题,这些支持示例通常很慢并且容易过度拟合[44]。为了以参数有效的方式调整网络参数,我们利用了一个逐行线性调制(FiLM)层[32]。其主要思想是冻结预训练骨干网络的参数,并应用通道线性变换进行特征调制。具体来说,对于输入图像x,Film缩放并移动其第l层特征映射F(x)∈RH×W ×C为基本上不同的数据集并且可能导致干扰,例如,ImageNet和Omniglot。相比之下,我们应用单网络多模式特征调制。每种模式代表一个特定的更大数据集/域,并具有其自己的可学习参数,这些参数进一步分为两组:域特定集合{(γτ,βτ)}M和域协作集合(γ,β)M。特定集为每个域提供单独的适应,以防止干扰,而合作集探索有用的相关性,以鼓励在编队共享这两个集合互补地工作以实现有效的域内和域间适配。4.2.1任务网络为了生成域感知特征,我们利用任务网络来获得每个学习任务的域级描述VS具体来说,我们首先提供支持集图像=XSN到具有5个顺序块的轻量级网络(每个块包含具有64个通道的3× 3卷积,随后是BN、ReLU和2 × 2最大池化)。然后将输出在空间维和批量维上进行平均合并,以获得超级的单个描述符VS∈R1×64。F(x)=F(x)⊙γ+β,(1)其中γRC,βRC是可学习参数,H、W和C表示特征图的高度、宽度和通道在 我 们 的 实 现 中 , FilLM 层 被 应 用 于 批 归 一 化(BN)和ReLU之间的每个卷积块。直观地,由于在BN层之后应用线性变换,因此预先训练的BN统计(即,均值和方差)可以被适配为匹配目标数据集。因此,输出特征图的分布可以与目标数据集很好地对齐。此外,对于多个数据集,实现具有不同(γ,β)的多模式特征适配是参数有效的。形式上,如果我们将f表示为神经网络函数tion,θ作为预先训练的网络参数。图像x的特征表示可以表示为z =f θ(x;γα,βL),其中γα,β是层α的调制参数。4.2. 多模调制器给定M个数据集,实现多域表示的一种直接方法是预训练M个单独的网络[10]。虽然实现起来很简单,但训练M个模型和推理M次是低效的。此外,对于跨数据集的潜在知识转移,域关系被忽略了.另一种方法是为所有数据集训练一个通用的特征自适应网络[34,48]。这种单一模式的适应不能同样有效的端口设置。由于平均池化,描述符对于支持集的排列是不变的。更多细节见补充材料。4.2.2特定于域的参数生成分离参数选择。域描述符VS对必要的信息进行编码以推断支持集的域身份。因此,我们可以采用硬选通机制来从M个现有模式中选择适当的域特定参数具体地,令Wg R64×M 和BGR1×M 是可学习的参数。然后我们可以将选择门构造为g= softmax(VSWg+bg)∈R1×M,(2)其中g1表示支持集是第i个我们选择具有最高概率的模式索引k,即,k=arg maxigi ,并选择域特定参数为(γg,βg)=(γτ,βτ)。为了确保域特定的参数集中的每个成员专门描述相应的域,我们引入域分类损失。在训练过程中,支持集的主身份是预先知道的.使用此作为地面实况y域,我们将域分类损失定义为L域= λLCE(g,y域),(3)其中CE表示交叉熵损失,y域R1×M表示域的一热地面真值向量,λ> 0是控制损失效果的超参数。8457- -∈s=1s=1=1=1我我我我 i=1我我我我ζζK--4.2.3域协同参数生成域协作。虽然硬选通和主损耗防止了域特定参数集的各种模式之间的干扰,但是它们也阻止了跨域的有效信息共享。为了解决这个问题,我们通过另一组参数来探索模式相关性:域协作集(γ,β)M.这些参数最初与随机初始化不相关,因此我们使用Transformer [46]来显式学习域之间的潜在相关性。注意力函数生成输入的相关变换为Attn(Q,K,V)=soft max(QK/√dk)V,单纯的平均融合可能不是最佳的。相反,我们使用的自适应融合方案的通道明智的融合。我们首先计算 自 适 应 融 合 比 为 α=sigmoid ( VSWf+bf )R1×C , 然 后 组 合 成 γ=αγg+ ( 1α ) γa , β=αβg+(1α)βa。这样,模型就可以根据支持集的特点选择合适的融合率4.3. 分类器基于度量的分类器已被广泛用于少次学习[47,40,41,2],并报告可提高性能。在[2]之后,我们使用结构化的Mahalanobis距离来制定我们的分类器,因为它显示出良好的性能。我们首先计算适应的特征对于支持集,{zs}N=fθ({xs}N)的情况。;{γ,β}L其中dk是Q,K的特征维度。增加表达能力,多头注意力通常被应用为然后,对于每个类,我们计算类均值μk和正则化协方差矩阵Qk。给定一个查询功能zq=f θ(xq;{γ,β}L),则类概率为con-MHAttn(Q,K,V)= Concat(head1,. . . ,头部h)W0,结构化为p(y q= k|xq)∝ exp(−(zq− µk)TQ−1(zq−µk))。何处头=Attn(QWQ,KWK,V WV),WQ∈Rd×dk,WK∈Rd×dk,WV∈Rd×dv,且WO∈5. 实验Rhdv×d. 要应用多头注意力,我们首先打包将{γζ}M转化为矩阵γζ∈RM×C,并且将{βζ}M转化为我们提出了实验来分析性能ii=1βζ∈RM×Cii=1. 然后,对相关参数进行了比较。我们的多模调制器。我们首先描述了正在使用的数据集和实现细节,并提出了一个COM-记作γcorr=MHdAttn(γζ,γζ,γζ)且βcorr=MHAttn(βζ,βζ,βζ)。现在,(γcorr,βcorr)是考虑域协作的相关参数。为例如,诸如Omniglot和Quick-Draw的相关域可以具有类似的参数。协同参数查询。 我们采用quey策略来获得域合作参数。首先得到查询向量QS= VSWa+ ba∈ R1×C.然后,γcorr的查询s√corere s被计算为sγ 为与我们最新的先进方法的对比。接下来,我们展示了特定于域和域合作参数集的有效性,在各种模式数量和调制层组数量的选择下的准确性最后,我们提出了可解释的可视化的选择门(特定于域的参数集)和查询分数(域合作参数集)。5.1. 数据集和实施详细信息softmax(Qγcorr/C)∈R1×M. 最后,查询页面-γa=sγγcorr。类似地,可以获得βα对于一个已知的领域,通过适当地设置查询分值,可以激活所有相关模式因此,可以联合学习所有激活模式的参数,这潜在地增加了所有相关域的训练数据。对于看不见的域,尽管在训练时未示出,但它仍然可以利用学习的查询机制来找到相关的现有域协作参数的加权组合以用于适当的特征调制。因此,我们的模型提供了一种有效的方式外推到看不见的领域。4.2.4参数融合在选择了域特定参数(γg,βg)并计算了域协作参数(γa,βa)之后,我们将它们组合成最终的调制参数。由于训练任务和数据集的多样性标杆我们在大规模多领域少数学习基准Meta上测试了我们的方法[44]。 它由10个广泛使用的数据集组成,具有来自不同视觉领域的各种数据分布,包括自然图像(ImageNet [6],鸟类[49],VGG Flower [30],真菌[39]),常见对象(MSCOCO [25],交通标志[17],飞机 [29] ) , 手 写 字 符 ( Omniglot [21] , Quick Draw[15])和纹理(可描述纹理[5])。为了与以前的工作保持一致[34,10],我们在8个数据集的官方训练分裂上训练我们的模型(根据[44]),并使用每个数据集的测试分裂来评估域内准确度。此外,我们使用剩余的两个(交通标志和MSCOCO)以及3个外部数据集,即MNIST [22],CIFAR10 [20]和CIFAR100作为看不见的域来评估域外准确性。所有13个数据集均用于报告总体准确度。少拍任务生成如下[44]。所生成的任务我8458×××表1.与元数据集上的最新方法的比较。误差区间显示95%置信区间,粗体数字与最准确方法的置信区间相交。平均排名是通过对每个数据集进行排名并对排名进行平均来获得的。由于洗牌问题2,元数据集更新了对TrafficSigns的评估。因此,我们报告了所有方法在EschericSigns上的更新准确性(即,63岁0± 1。0代表三-M)。数据集ProtoMAML [44]BOHB-E [36]AR-CNAPS [34]任务规范[3]SimpleCNAPS [2]SUR-pf [10]SUR [10]tri-M(我们的)ImageNet47.9±1.182.9±0.974.2±0.870.0±1.067.9±0.866.6±0.942.0±1.188.5±0.755.4±1.177.5±1.160.9±0.973.6±0.872.8±0.761.2±0.944.5±1.190.6± 0.652.3±1.088.4±0.780.5±0.672.2±0.958.3±0.772.5±0.847.4±1.086.0±0.550.6±1.190.7±0.683.8±0.674.6±0.862.1±0.774.8±0.748.7±1.089.6± 0.658.6±1.191.7±0.682.4±0.774.9±0.867.8±0.877.7±0.746.9±1.090.7±0.556.4±1.288.5±0.879.5±0.876.4±0.973.1±0.775.7±0.748.2±0.990.6±0.556.3±1.193.1±0.585.4±0.771.4±1.071.5±0.881.3± 0.663.1± 1.082.8±0.758.6±1.092.0±0.682.8±0.775.3±0.871.2±0.877.3±0.748.5±1.090.5±0.5Omniglot飞机鸟类纹理Quickdraw真菌VGGFlower交通标志52.3±1.141.3±1.0NANANA57.5±1.051.9± 1.0NANANA60.2±0.942.6±1.192.7±0.461.5±0.750.1±1.067.0±0.743.4±1.092.3±0.469.3±0.854.6±1.173.5±0.746.2±1.193.9±0.474.3±0.760.5±1.065.1±0.852.1±1.093.2±0.466.4±0.857.1±1.070.4±0.852.4±1.194.3±0.466.8±0.956.6±1.078.0±0.652.8±1.196.2±0.375.4±0.862.0±1.0MSCOCOMNISTCIFAR10CIFAR100域内平均值67.567.169.771.973.873.675.674.5域外平均值46.854.761.565.369.766.868.172.9总体平均值63.464.666.569.372.270.972.773.9平均秩7.25.76.14.63.13.63.22.1可学习参数10.49MNA13.4M9.39M8.60M1.67M79.45M7.78M向前传球11111881可以具有不同数量的类、不同数量的镜头和类不平衡。为了进行评估,对每个数据集上的600个任务进行采样,并报告每个数据集的平均准确度、域内、域外和总体准确度。实施详情。为了进行公平的比较,我们遵循[34,2]采用 ResNet 18 [16] 作 为 骨 干 , 该 骨 干 在 ImageNet 的META-DATASET版本的训练分割上进行了预训练所提出的多模式调制器被应用在除了第一卷积层之外的所有卷积层上对于多头注意,h=3,dk=dv=32。 式中的λ3设置为0。001根据验证集。所有数据集的图像被调整为84 - 84像素,并且在训练期间不应用数据增强。我们使用Adam [19]优化器以端到端的方式训练150,000集,使用16集的批量大小和固定的学习率0。002.5.2. 与最先进方法的我们将我们的三M方法与最近的最先进的少射方法进行比较,并将结果报告在表1中。除了准确性度量之外,我们还报告了广泛使用的平均排名,该排名是通过对每个数据集进行排名并对其进行平均来获得的在表1中,所提出的多模式调制器实现了最佳平均秩( +1.0 ) 和 总 体 准 确 度 ( +1.2% ) , 在 META-DATASET上设定了新的技术状态。具体来说,我们的方法是13个数据集中9个数据集上最准确的方法之一,实现了最佳的域外准确度(+3.2%)和第二好的域内准确度。出色的域外精度表明,我们的方法可以有效地推广到看不见的测试域。考虑到可学习参数的数量,我们的方法是所有模型中最好的一个,只需要forward一个网络。SUR-pf [10]以转发八个网络为代价具有较少数量的可学习参数,这是低效的。请注意,与我们的方法相比,SUR [10]具有超过10个可学习参数3和8,以实现略好的域内准确性。5.3. 消融研究域特定和域协作参数集的影响。 表2显示了结果比较仅使用域特定(Spec)、仅使用域协作(Coop)以及使用所有(Spec+Coop)参数集。域协作参数集通常比域特定参数集表现得更好。我们将此归因于跨不同域的信息交换例如,与Spec相比,Omniglot上的Coop和Quick- Draw(都包含简单的while和black形状)彼此受益,相对提高了2.3%和1.1%。融合模型Spec+Coop在13个数据集中的12个数据集上表现最好,平均精度最高,说明两个参数集是互补的,融合策略是有效的。Spec+Coop具有7.78M可学习参数,仅比单一最佳模型Coop大0.13M。2https://github.com/google-research/meta-dataset/issues/54网站3请注意,我们只计算所有方法的可训练参数,不包括ImageNet预训练的主干。8459------联系我们联系我们联系我们表2.域特定(Spec)和域协作(Coop)参数集的影响。数据集SpecCoop规范+合作ImageNet55.657.558.6Omniglot88.290.592.0飞机82.181.582.8鸟类73.375.275.3纹理68.269.471.2Quickdraw75.176.277.3真菌48.448.048.5VGGFlower85.990.190.5交通标志74.476.578.0MSCOCO53.253.352.8MNIST94.894.396.2CIFAR1073.074.375.4CIFAR10061.961.862.0域内平均值72.173.674.5域外平均值71.572.072.9总体平均值71.973.073.9可学习参数0.22M7.65M7.78M不同数量模式的性能。在Meta上,有8个训练数据集,代表8个不同的领域。默认情况下,在所提出的多模式调制器中,我们针对域特定和域协作参数集两者设置模式的数量M=8此外,可以灵活地改变每个参数集的模式数量,以减少或增加模型容量。为了减少特定于域的集合的模式的数量,我们通过不同的数据集的视觉相似性手动合并不同的数据集以形成新的域并计算新的域分类损失(等式2)。(3)第三章。例如,我们 可 以 形 成 4 个 新 域 : ImageNet 、 Birds 、 DTD 、Omniglot 、 QuickDraw 、 Fungi 、 VGGFlower 和Aircraft。为了增加特定领域集合的模式数量,我们为每个数据集指定2个模式,并在硬门控之前对它们的参数进行平均。为了改变域协作集合的模式数,我们直接修改协作模式数M。我们用各种模式组合进行了实验,并在表3中报告了结果。组合8,8实现了最佳性能,其包含用于两个参数集的8种模式。这并不奇怪,因为我们总共有8个训练数据集。当我们将模式减少到4,4时,整体精度略有下降,但Om- niglot略有增加。这是由于通过合并Omniglot和Quick- Draw作为一个新的域来增加训练示例的数量。 当我们将模式增加到8、16或16、16时,整体精度下降。冗余模式可能会阻碍数据集学习内在关系。请注意,当我们增加模式的数量时,可学习参数的数量只会略有增加。这表明我们可以将我们模型扩展到更大数量的数据集(例如,(16)不带签名的表3.各种模式的精度。 4、4表示4个域特定模式和4个域协作模式。数据集[001pdf1st-31files]数量的模式[2018-08 -16][2019 -06 -16]ImageNet57.958.657.758.0Omniglot92.492.091.691.4飞机82.282.883.281.1鸟类75.275.374.774.0纹理66.571.267.068.4Quickdraw77.277.377.677.0真菌48.348.547.548.0VGGFlower89.790.589.889.5交通标志75.778.076.873.0MSCOCO50.252.852.748.3MNIST94.796.294.894.4CIFAR1073.675.474.774.4CIFAR10060.962.061.561.1域内平均值73.774.573.673.4域外平均值71.072.972.170.2总体平均值72.773.973.072.2可学习参数7.71M7.78M7.84M7.90M从而显著地增加了参数的数量。不同数量的调制层组的性能。ResNet18 [16]主干有4个层组,每组包含2个构建块,每个块包含2个卷积层。默认情况下,在每个卷积层的BN之后应用特征调制(详见补充资料)。为了研究不同层的调制特性,我们从深层到浅层组逐渐添加调制。作为一个特殊的变体,我们只在所有层组的每个构建块中的第二个卷积层上添加调制,在表4中称为一半从表4可以看出,随着调制层组的数量从1增加从3组到4组的总体准确度增加了2.2%。这表明对浅层的调制是必不可少的,因为这些浅层提取了低级特征,这在数据集上更具有普遍性。此外,仅调制第二层(一半)与调制所有层(4组)相比获得近似的精度。然而,一半有4.04M可学习参数,只有所有4组的52%。这为我们提供了一种方法,通过在所有候选层上均匀地应用调制来获得苗条而有竞争力的模型。5.4. 可视化我们首先在图3中可视化域特定参数集的选择门。每个训练数据集集中在一个模式上,显示了硬门控机制的有效性。对于看不见的测试数据集,他们试图根据 它 们 与 训 练 数 据 集 的 相 关 性 来 选 择 模 式 。TrafficSigns、MSCOCO、CIFAR 10和CI-FAR 100包含常见图像,显示出高度相关性8460表4.不同数量调制层组的精度。一半表示我们仅调制所有层组上的每个基本块中的第二卷积层。数据集调制层组1 2 3半4ImageNet54.257.457.557.758.6Omniglot83.288.891.191.392.0飞机74.080.782.782.282.8鸟类65.471.773.875.075.3纹理70.568.368.069.971.2Quickdraw70.575.376.577.277.3真菌42.245.647.048.548.5VGGFlower88.689.689.490.090.5交通标志72.173.271.875.078.0MSCOCO50.249.349.952.552.8MNIST91.794.494.294.496.2CIFAR1069.371.172.275.375.4CIFAR10056.157.558.461.562.0域内平均值68.672.273.374.074.5域外平均值67.969.169.371.772.9总体平均值68.371.071.773.173.9可学习参数4.81M6.66M7.49M4.04M7.78MImageNetOmniglotAircraftBirdsTexturesQuickDrawFungiVGGFlowerTrafficSignsMSCOCOMNISTCIFAR10CIFAR1000.80.60.40.20.0到 ImageNet 。 MNIST 包 含 黑 白 数 字 图 像 , 显 示 与Omniglot高度相关。此外,交通标志和MNIST显示出与QuickDraw的相关性,因为它们都包含简单的形状.总的来说,可以利用选择机制成功地学习特定于领域的域协作参数集的查询得分如图4所示。分数可视化与门可视化有很大不同。ImageNet关注所有具有相对均匀值的模式,因为骨干是在ImageNet上预先训练的。数据集(CIFAR 10、CI-FAR 100和MSCOCO),包含常见图像和图3.特定于域的参数集的选择门ImageNetOmniglot0.8飞机鸟类纹理0.6Quickdraw真菌在视觉上类似于ImageNet集合ImageNet的分数相反,与ImageNet重叠较少的数据集(Omniglot,QuickDraw和MNIST)在模式3上显示单峰高值。其他一些(飞机,VGGFlower)是细粒度的数据集,它们显示三峰分数。其他隐含的相关性也学习不同的模式组合。总的来说,领域合作信息可以自动学习和获得,VGGFlower交通标志MSCOCOMNISTCIFAR10CIFAR1000.40.20.0协同查询机制。6. 结论在本文中,我们处理的多域少镜头分类问题。它与单域小样本分类的区别在于:1)它包含多个不同的训练数据集和额外的未知测试域2) 潜在的相关性存在于多个域中。我们提出了一个单网络多模调制器,应用层明智地产生多域表示。在调制器中,我们进一步引入了域特定和域合作参数集,它们可以完全提取域内和域间信息来建模域相关性。最先进的图4.查询域协同参数集的得分。性能上实现了具有挑战性的元数据集,特别是对于看不见的测试域。致 谢 Yanbin Liu 、 Linchao Zhu 和 Yi Yang 得 到 ARCDP200100938 的 支 持 。Juho Lee 获 得 了 韩 国 政 府( MSIT ) 资 助 的 信 息 通 信 技 术 规 划 评 估 研 究 所(IITP)资助(编号2019 -0-00075,人工智能研究生院计划(KAIST))和三星电子有限公司的支持。有限公司(IO 201214 -08176-01)。Ling Chen得到ARCDP180100966的部分支持。1.00 0.00.00.00.00.00.00.00.0 1.00 0.00.00.00.00.00.00.00.0 1.00 0.00.00.00.00.00.06 0.00.0 0.94 0.00.00.00.00.00.00.00.0 0.99 0.00.00.00.00.00.00.00.0 1.00 0.00.00.00.00.00.00.00.0 1.00 0.00.00.00.00.00.00.00.0 1.000.84 0.00.00.00.0 0.10 0.03 0.030.99 0.00.00.00.00.00.00.00.0 0.86 0.00.00.0 0.14 0.00.01.00 0.00.00.00.00.00.00.01.00 0.00.00.00.00.00.00.00.21 0.32 0.09 0.05 0.05 0.12 0.07 0.090.00.0 0.95 0.02 0.03 0.00.00.00.00.0 0.55 0.21 0.25 0.00.00.00.03 0.45 0.27 0.10 0.11 0.02 0.01 0.00.02 0.51 0.12 0.12 0.12 0.03 0.05 0.030.00.0 0.84 0.07 0.09 0.00.00.00.09 0.41 0.16 0.11 0.11 0.04 0.04 0.030.00.0 0.45 0.24 0.27 0.0 0.02 0.00.05 0.02 0.44 0.17 0.19 0.04 0.05 0.040.18 0.35 0.09 0.06 0.06 0.11 0.07 0.090.00.0 0.93 0.03 0.04 0.00.00.00.09 0.07 0.30 0.16 0.17 0.07 0.08 0.070.17 0.18 0.15 0.09 0.09 0.12 0.09 0.118461引用[1] Peyman Bateni , Jarred Barber , Jan-Willem van deMeent,and Frank Wood.用未标记的例子改进少镜头视觉分类。arXiv预印本arXiv:2006.12245,2020。[2] Peyman Bateni、Raghav Goyal、Vaden Masrani、FrankWood 和 Leonid Sigal 。 改进 的少 镜 头视 觉分 类。 在IEEE/CVF计算机视觉和模式识别集,第14493[3] John Bronskill , Jonathan Gordon , James Requeima ,Sebastian Nowozin,and Richard E Turner. Tasknorm:Rethink- ing batch normalization for meta-learning. arXiv预印本arXiv:2003.03284,2020。[4] Wei-Y
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 十种常见电感线圈电感量计算公式详解
- 军用车辆:CAN总线的集成与优势
- CAN总线在汽车智能换档系统中的作用与实现
- CAN总线数据超载问题及解决策略
- 汽车车身系统CAN总线设计与应用
- SAP企业需求深度剖析:财务会计与供应链的关键流程与改进策略
- CAN总线在发动机电控系统中的通信设计实践
- Spring与iBATIS整合:快速开发与比较分析
- CAN总线驱动的整车管理系统硬件设计详解
- CAN总线通讯智能节点设计与实现
- DSP实现电动汽车CAN总线通讯技术
- CAN协议网关设计:自动位速率检测与互连
- Xcode免证书调试iPad程序开发指南
- 分布式数据库查询优化算法探讨
- Win7安装VC++6.0完全指南:解决兼容性与Office冲突
- MFC实现学生信息管理系统:登录与数据库操作
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功