没有合适的资源?快使用搜索试试~ 我知道了~
10553林鸫鸣叫打壁球击式保龄球象鸣之象鸣画眉…打保龄球打壁球…跨模态注意和语言Otniel-Bogdan Mercea1,Lukas Riesch1,2,A. Sophia Koepke1,ZeynepAkata1,3,41图宾根大学2RobertBoschGmbH3MPIforInformatics4智能系统{otniel-bogdan.mercea,a-sophia.koepke,zeynep.akata} @ uni-tuebingen.delukas. de.bosch.com摘要学习从不包括在训练数据中的类别中分类视频数据,即,基于视频的零拍摄学习是一个挑战。我们推测,视频数据中的音频和视觉模态之间聚焦于相对未充分探索的视听零拍摄学习任务,我们提出使用跨模态注意从视听数据学习多模态表示,并利用文本标签嵌入将知识从可见类转移到不可见类。更进一步,在我们的广义视听零拍摄学习设置中,我们包括测试时间搜索空间中的所有训练类,这些训练类充当干扰物并增加难度,同时使设置更逼真。由于在这个领域缺乏统一的基准,我们在三个不同大小和难度的视听数据集VGGSound,UCF和ActivityNet上引入了(通用的)零射击学习基准,确保看不见的测试类不会出现在用于监督训练骨干深度模型的数据集中。比较多个相关和最近的方法,我们证明了我们提出的AVCA模型在所有三个数据集上都达到了最先进的性能。代码和数据可在https://github.com/ExplainableML/AVCA-GZSL网站。1. 介绍大多数用于图像分类[5,6,60,61,72,82]和动作 识 别 的 零 拍 摄 学 习 ( Zero-Shot Learning , 简 称ZRL)方法,点火[12,13,31,84]仅使用单峰输入,例如,图像.然而,人类在日常活动中利用多模态感官输入。想象一下这样一种情况,狗叫的声音是可以听到的,但狗是视觉上的。图1.我们的视听(广义)CPDL框架通过跨模态注意力将视听嵌入与相应的文本标签嵌入对齐。它可以从以前看不见的类别(例如,通过预测其文本标签嵌入(紫色十字)最接近视听嵌入(蓝色星形)的类(红色)包括在内。在这种情况下,我们无法单独依靠视觉信息来理解场景。使用多个模态,如视觉和声音,允许收集上下文并捕获补充信息。类似地,使用视觉和音频信息两者允许用于学习框架的更丰富的训练信号。本文研究了具有挑战性的任务(广义)的多模态视听数据的音频和视频信息的自然对齐利用。最近,[42,54]探索了使用多模态视觉和音频信息作 为 输 入 的 零 拍 摄 视 频 识 别 然 而 , 用 于 此 的AudioSetupL数据集[54]包含用于验证和测试的类之间的重叠。这导致学习与训练集和验证集(覆盖该数据集中的所有类)重叠的类的更强表示,并阻碍模型10554允许信息传递的可量化表示在现实世界的应用程序中,这样的模型在可见的类上表现良好,但在以前真正看不见的类上表现不佳。在这项工作中,我们提出了 三 个 不 同 大 小 和 难 度 的 基 准 , 这 些 基 准 来 自VGGSound [18],UCF 101 [62]和ActivityNet [25]数据集,可以作为视听领域广义学习(GSTML)和学习研究的统一我们建议使用使用SeLaVi [9]提取的音频和视觉特征,这些特征使用自我监督进行预训练。在整个工作中,我们使用以自监督方式从训练中获得的特征,以减少从监督预训练到零射击任务的信息泄漏,这在其他WML基准测试中已被确定为一个问题[13]。我们用我们的视听交叉注意(AVCA)框架来解决视听广义零射击学习任务,该框架经过训练,将丰富的学习视听表示与文本标签嵌入对齐。我们的多流架构包含一个音频和一个视觉分支,使用这两种方式之间的交叉注意来交换信息。AVCA是计算轻量级和高效的,因为它使用从预训练网络中提取的音频和视觉特征作为输入,而不是原始音频和图像数据。我们提出的框架使用多个新的损失函数进行训练,这些损失函数基于三重损失和正则化损失,确保在学习的多模态表示中保留突出的单峰信息。我们的实验表明,AVCA在三个引入的基准数据集上实现了最先进的性能。我们表明,使用多模态输入数据导致更强的(G)的CNOL性能比使用单峰数据。总括而言,我们的贡献如下:(1)我们介绍了三个新的基于VGGSound、UCF 101和ActivityNet数据集的视听(一般化)零触发学习基准;(2)我们提出了AVCA,一个视听(G)学习的跨模态模型,它在视听信息之间调节跨模态注意力;(3)我们表明,AVCA在所有提出的视听(G)OWL基准上都具有最先进的性能,优于最先进的单峰和多模态零激发学习方法。此外,我们提供了一个定性分析的学习多模态嵌入空间,展示了良好的分离聚类的可见和不可见的类。2. 相关工作我们回顾了视听学习,与图像,视频和音频数据的学习,和视听学习。视听学习。视听学习已经为许多应用带来了巨大的进步,例如用于分离和定位视频中的声音[1,4,8,17,28,51,58,67,68,81,86,87,89],audio-visualsynchronisa-[16,22,24,36],视频中的人物聚类[14],(视觉)语音和说话者识别[2,3,46],说出的关键词的定位[45,57],使用视觉信息的音频合成[27,29,39,40,49,64,65,88],以及音频驱动的图像合成[34,74]。此外,视频中音频和视觉数据之间的自然对齐已被用来学习用于视频或音频分类的强大视听表示[7,9,10,19,20,41,47,52,53,55,78]。与这些方法相比,我们考虑了用于分类的CNOL设置。与图像,视频和音频. 最近,已经提出了许多基于图像的生成方法[50,61,72,76,77,90,92]。它们的缺点是看不见的类需要先验地知道。相比之下,非生成方法[5,6,26,38,60,75,82,83]学习从输入特征到类的语义的映射(例如,文本类标签嵌入)。我们的AVCA模型还学会了将其输入映射到文本嵌入,但它利用了音频和视觉输入模态之间的交叉注意力,而不仅仅是使用视觉输入。多个近期的作品[12,13,30,31,59,73,84]已经解决了基于视频的网络学习问题。使用来自预训练网络的特征,会产生比端到端训练更可行的计算框架[12,31,73]。我们的模型还将预提取的音频和视觉特征作为输入,从而产生一个计算效率高的框架。为了在使用预提取的特征时考虑纯粹的CPDL设置,用于监督预训练的类之间的重叠特征提取器和看不见的类必须被移除[13,30,59]。这在以前的一些作品中是没有做过的(例如,[12,31,73,91])。相比之下,我们在多模态视听视频数据集上提出了三个视听(G)CPDL的基准,用于监督预训练的类和未见过的类之间没有重叠零触发音频分类的方法[79,80]也使用文本声音类嵌 入 ( 例 如 , word2vec [43] 、 BERT [23] 或 GloVe[56])或描述。[21]使用word2vec嵌入和人类标记的属性信息(例如,有无乐器)。对于我们的AVCA模型,我们不使用任何属性信息,而是利用音频和视觉信息之间的语义对齐以及文本标签嵌入。视听节目最近,[42,54]提出的框架,考虑从视听数据的GALML的任务。AVGARLNet [42]在AudioSetupL数据集[54]上使用后期融合来组合来自两个模态的信息。相反,与其他使用简单点积操作进行交叉注意的视听框架作品[66,85]不同,我们使用基于transformer的交叉注意机制。这有助于尽早和有效地分享多模式信息,10555∈3联系我们J1212我 我 我我 我J我 我J4JJJ我 我 我一v→→联系我们∈→→ ∈{}图2.我们的视听交叉注意(AVCA)模型将视觉和音频特征作为输入。交叉注意模块允许跨模态共享信息两个模型分支的输出被训练成使用右侧所示的损失与其对应的文本标签嵌入对齐使用来自不共享语义信息的不同视频的视觉和音频输入来我们只显示涉及音频分支的损失视觉分支的那些是类似的。在测试时,通过确定θw最接近θv的类来获得类预测。我们提出的损失函数此外,AudioSet-WML数据集[54]不包括具有看不见的验证类的验证分割。因此,[42,54]直接在(看不见的)测试类上选择GALML超参数。此外,AudioSetupL数据集相对较小;它只使用10个测试类作为不可见类。为了允许在更大的规模和纯GHML设置的视听GHML的评估,我们提出了三个不同的视听视频数据集上的新基准我们提出的基准测试适用于GALML和GALML任务。3. 视听交叉注意(AVCA)从视频数据中进行视听识别的目标是学习从未见过的类别(U)中识别视频,即。的类3.1. 模型架构我们的AVCA模型架构在图中可视化二、为了更容易阅读,我们去掉了下标i,j,表示第i个数据集样本和地面实况类j。AVCA采用音频和视频功能a,vRk输入作为使用预先训练的特征提取器提取的输入。它们通过两个不同的编码器块Aenc和Venc,用于音频和视觉模态再现,给出嵌入Aenc(a)=a和Venc(v)=v(1)与阿吉亚,阿吉亚夫Rkf. 每个编码器块由两个线性层 的 序 列 fm 、 fm 组 成 , 其 中 fm : Rk 输 入Rkfhidd , 并 且fm :RkfhiddRkf。fm,fm后面都是批量归一化[33],a1 2在训练中没有看到。在GSTML设置中,测试集不仅包含来自未见过的类的样本,还包含来自已见过的类(S)的样本。这使得GARML更具挑战性,更接近现实世界的学习任务。更正式地说,我们用S=(vs,as,ys)i∈{1,···,N}表示仅由来自可见类的样本组成的训练集,[48][49]交叉注意障碍。 我们建议使用一个交叉注意块来共享音频和视觉表示之间的信息。它由一个多头自我注意层,其次是一个完全连接的前馈块。与[71]类似,我们使用剩余连接来表示其中vs,as分别是视觉和音频特征,ys是两层,然后是层归一化[11]。我我我对应的地面实况类j,并且N是用于音频和视觉分支的前馈块的数量在训练集中的样本的BER我们将类j的类级文本嵌入称为ws。目标是学习一个函数h:(vs,as)›→ws,然后也可以应用于每个由线性投影层fm组成:RkfRkattnhiddform a,v,然后是GELU [32],dropout,dropout率为renc,另一个线性投影层对于来自不可见类的样本h(vu,au)=wu,其中(vu,au,yu)∈U,用于未知的测试样本集fm:RkattnhiddRkf 对于ma,v和最后的辍学率为1.5%。交叉的输出类U=(vu,au,yu)i∈{1,···,M},具有M个样本。注意块是t,t∈Rkf。10556∥ −∥ − ∥∥ −一−联系我们ni=1WWrec一vWv一联系我们v∈围绕交叉注意力块和后续投影块Aproj和Vproj的剩余连接给出:Aproj(λatt+λa)=θa和Vproj(λatt+λv)=θv,(2)复合三重态和重建丢失。受[42]的启发,我们还使用了复合三重态和反射损耗,并在下面更详细地解释了其组成部分:的vlc= lrec+ lct+ lw。(六)其中θa,θv∈Rkproj.每个投影块由两个线性层序列fm和fm,其中m∈我们使用解码器D:Rkproj›→R kw2v ,使得D(θm)=5 6m k k mkρmfor m ∈ {a,v,w}.D由以下序列组成:a,v,其中f5 :R fRfhidd和f6:RfhiddRK项目fm,fm各自之后是批次归一化,一个线性投影层,批量归一化,ReLU和dropout与dropout率。我们采用平均数5 6rdeca ReLU,以及辍学率为r的辍学率项目平方误差度量d(b,c)=1<$n(bi− ci)2.再-Wp ro j(wj)=θj,其中θj∈Rkp ro j(图1)。2张照片l= d(ρ,w)+d(ρ,w)+d(ρ,w).(七)没有上标j)。Wproj由一系列一个线性投影层,批量归一化,ReLU和dropout,dropout率为rdec。在测试时,通过确定与文本类标签相对应的类c来获得类预测c这确保AVCA能够从嵌入θa、θv、θw解码预提取的文本标签嵌入w。三重态损失lct定义如下:L=t(ρ+,ρ+,ρ−)+t(ρ+,ρ+,ρ−),(8)最接近多模态表示CTw a aw v vθv(在我们的实验中,我们发现使用θa得到的结果略弱其中ρ+和ρ−分别对应于i个示例中的i个和n个。LCT进一步鼓励解码的音频c=argmin(θj-θ π)。(三)以及视觉特征ρa、ρv与文本FEA对齐J3.2. 损失函数wv2使用相同的解码器(具有共享的权重)获得的turesρwlc的第三分量lw类似于等式2中的碱基三重态损失。(5)并将音频和视频嵌入θa,θv与θw进行比较:我们使用损失函数lcon训练AVCA模型由碱基三重态损失、复合三重态和重三重态组成lw=t(θ+,θ+,θ−)+t(θ+,θ+,θ−)W A Aw vv(九)建筑损失lc和调整损失lr:t(θ+,θ+,θ−)+t(θ+,θ+,θ−).一个w w w v w wl=lt+lc+ lr。(四)我们使用三重损失函数t(a,p,n)=max(ap2a n2+μ),其中a是锚嵌入,p和n分别是正样本和负样本的嵌入,μ是边缘超参数。对于三重丢失,我们使用上标+表示与锚点匹配的阳性样本,而对于与锚点匹配的阴性样本,我们使用上标+表示与锚点匹配的语义上与锚不匹配。对于所有其他损失,我们只使用匹配对。碱基三联体丢失。在我们的碱基三联体丢失l中:正规化损失。我们的损失l的最后一个组成部分由正则化损失项组成,其直接鼓励音频和视觉嵌入与文本嵌入的对齐,同时保留来自其各自输入模态的信息。为此,我们添加两个重构块Arec和Vrec,使得Δrec=Arec(θa)和Δrec=Vrec(θv),Δrec,ΔrecRkf. Arec和Vrec各自由线性投影层组成,然后是批量归一化,ReLU和dropout,dropout率为rdec:lr=d(αrec,αv)+d(αrec,αa)tva(十)lt=t(θ+,θ+,θ−)+t(θ+,θ+,θ−)+d(θv,θw)+d(θa,θw).阿瓦阿v wv(五)4. 实验+t(θ+,θ+,θ−)+t(θ+,θ+,θ−),W a Ww v w我们将我们的AVCA模型应用于视听GALML,其中,θ+和θ-对应于视频分类的iv e和iv esam-L。在本节中,我们首先介绍-M m分别针对m a、v、w的投影,确保投影的视觉和音频特征θv和θa与投影的文本特征θw对准。这是必不可少建筑损失费此外,委员会认为, 的 word2vec 类 标签嵌入rec可以写成:类j的wj通过投影块10557的,因为在测试时,θv(尽管是AVCA视觉分支的输出,但它是包含音频和视觉信息的多模态嵌入)与不同类别的θw的接近度用于确定输出类别。我们建议的基准(第4.1节)。我们讨论了实现细节(4.2节),然后讨论了不同模型组件和损失函数的选择(4.5节)。最后,我们将AVCA与最先进的(G)APDL基线方法进行了比较(第4.3节),并对学习的多模态嵌入进行了详细的定性分析(第4.4节)。10558关于我们联系我们联系我们联系我们U+S数据集所有#类tr / v(U)/ts(U)tr#视频v(S)v(U)ts(S)ts(U)VGGSound-Gogel 276138/69/6970351 7817 3102 9032 3450UCF-GALML512009年12月30日3174353 1467 5551267ActivityNet-Gogel 20099 / 51 /509204 1023 4307 1615 4199表1.我们的VGGSound、UCF和ActivityNet(G)数据集的统计数据,显示了我们拆分中的类和视频的数量(#)(tr:train,v:验证,ts:测试; S:可见,U:不可见)。4.1. 视听GEOL基准在本节中,我们提出了三个基于VGGSound [18]、UCF 101 [62]和ActivityNet [25]数据集(总结见表1)的视听GML基准数据集,并介绍了我们的训练和评估协议。数据集统计。对于我们提出的视听GML分裂,我们仅在我们看到的子集中包含Sports1M [35]数据集中包含的类,以允许使用在Sports1M上预训练的特征提取器,而不会将信息泄漏到看不见的类。我们对这三个数据集的GALML划分包括一个训练集(tr),一个验证集,该验证集被划分为一个子集,其中包含来自可见类的样本(v(S)),另一个子集包含不可见类(v(U))。最后,我们提供了一个测试集,由可见类(ts(S))和不可见类(ts(U))组成。训练集和看到的验证子集共享相同的类,相对于视频数量的比率为0.9/0.1。子集tr v(U)v(S)和ts(S)共享相同的类,并且被划分为相对于视频的数量具有0.9/0.1的比率。VGGSound[18]是一个大型视听数据集,拥有309个类和超过20万个视频。视频可以分为9类动物,家庭,音乐,自然,人,体育,工具,车辆和其他。对于我们的VGGSound-Gogel分割,我们排除了来自其他类别的视频以及用于训练SeLaVi的v(U)和ts(U)的所有样本[9],从而在276个类别中产生93,752个视频。与Sports1M数据集重叠的42个类仅用作GSTML的训练类。UCF 101[62]是一个视频动作识别数据集,由101个类别的13k多个视频组成。我们使用UCF 101的子集,其中包含音频信息。这导致51个班级的6,816个视频。以前的(仅可视的)方法重复地将数据集分成随机可见和不可见的类。Sports1M数据集中包含的30个类未被选为不可见类。ActivityNet[25]是一个动作识别数据集,包含200类不同持续时间的20k视频。再次,我们建议ActivityNet-Gogel拆分,以确保99个1VGGSound受Creative Commons许可协议保护:https:包含在Sports1M数据集中的类不会被选为不可见类。培训和评估协议。 我们为我们的GALML基准引入了统一的培训和评估协议。我们遵循此协议来训练和测试所有模型,包括AVCA和我们比较的基线。我们提出了一个两阶段的培训和评估协议GALML。在第一阶段,我们在训练集(tr)上训练模型,使用可见验证类(v(S))和不可见验证类(v(U))的子集来确定GSTML参数,例如用于校准堆叠[15]。在第二个训练阶段中,我们使用在第一个训练阶段中确定的GALML参数在训练集(tr)和完整验证集v(S)然后在测试集ts(S)ts(U)上评估我们的最终模型。ts(S)包含来自与训练类相同的类的样本,在第二阶段的训练样本和测试样本之间没有重叠特别地,v(U)和ts(U)之间没有类重叠评估指标。在[75]之后,我们建议使用平均类准确度来评估所有模型。对于GALML,我们在完整的测试集ts(S)ts(U)上评估模型,并报告看不见的(U)和看到的(S)类的平均性能此外,我们计算它们的调和平均HM=2US。我们通过仅对子集ts(U)进行评估来报告CPDL性能。4.2. 实验环境对于每个视频,我们使用在VGGSound [18]上预训练的自监督SeLaVi [9]框架来提取视频中每秒的音频和视觉特征。在我们的VGGSound-Gangel分割中,未见过的测试和未见过的验证集以及用于预训练SeLaVi的视频之间没有重叠我们平均每秒的特征提取使用SeLaVi之前的两层MLP头,以获得512维每视频音频和视觉特征。我们在补充材料中提供了使用从音频和视频分类网络中提取的特征所有的网络都针对GALML性能(HM)进行了优化,我们不会为GALML和GALML训练单独的网络。第一阶段的训练进行了50个时期。我们选择了第二个训练时期的数量基于第一阶段中验证集上的GALML性能,为了消除WML方法对可见类的偏差,我们在区间[0,3]上使用了步长为0的校准堆栈[15]。二、对于AVCA,k输入被设置为512,并且word2vec嵌入的大小kw2v被设置为300。我们使用的辍学率rdec/renc/rproj为0。5/0。2/0。UCF-GALML为3,0。1/0。2/0。2为活动-GALGOL,和0。1/0/0适用于VGGSound-GARML。的//creativcommons.org/licenses/by/4.0/,ActivityNet通过MIT许可证:https://github。com/activitynet/层尺寸设置为kf= 300,kFHIDD=512,ActivityNet/blob/master/LICENSE。10559k_attnhidd= 64,以及k_proj= 64。我们用了三个头10560方法类型模型VGGSound-Gogel L UCF-Gogel L ActivityNet-Gogel LSUHMZSLSUHMZSLSUHMZSL[5]0.285.48 0.535.4857.59 14.89 23.6616.322.637.873.947.90SJE [6]48.331.10 2.154.0663.10 16.77 26.5018.934.617.045.577.08ZSL[26]第二十六话36.221.07 2.085.5955.59 14.94 23.5616.093.458.534.918.53APN [82]7.483.88 5.114.4928.46 16.16 20.6116.449.845.767.276.34[77]第十七话12.770.95 1.771.9117.298.4711.3711.114.362.142.872.40视听设备CJME [54][42]第四十二话8.6918.0514.904.783.484.006.175.836.315.165.286.0026.0452.5251.538.2110.9018.4312.4818.0527.158.2913.6520.015.558.9324.864.755.048.025.126.4412.135.845.409.13表2.在VGGSound、UCF和ActivityNet(G)VGL基准测试中评估我们的AVCA模型和最先进的视听VGL方法以及GGL和VGL的自适应VGL方法我们报告了可见(S)和不可见(U)测试类的平均类准确度,以及它们对GWML性能的调和平均值(HM)在来自看不见的类的测试子集上评估CNOL性能自我关注损失裕度超参数μ被设置为1。我们使用256个批次大小用于UCF-GWML和ActivityNet-GWML,64个批次大小用于VGGSound-GWML。我们使用亚当优化器[37],初始学习率为0的情况。001,减少了0倍。1当GALML的性能稳定在3个时代的耐心。4.3. 与现有技术相比比较方法。在我们的基准研究中,我们包括四种基于图像的最先进的方法和一种用于(G)GML的生成方法,我们将其调整为将视听特征作为输入。为此,我们将音频和视觉特征连接起来,并将其用作输入,而不是图像特征。此外,我们比较了当前最先进的视听GALML方法 [42,54]。在这里,我们更详细地描述了我们比较的每种方法。ALE[5]学习输入特征和地面实况嵌入之间的线性映射,使得输入特征的投影接近对应类的地面实况嵌入。 为此,它使用一个加权的近似排名目标[69]。SJE[6]计算线性映射的输入特征与所有负类的地面真实嵌入之间的点积。选择每个示例的最高点积,然后使其最小化。DEVISE[26]还计算线性投影的输出与负类嵌入之间的点积,并使这些点积的总和最小化。APN[82]是当前基于图像的非生成最先进的方法APN基于地面实况嵌入包含视觉类属性的假设。原型用于将来自地面实况嵌入的属性映射到图像中的相关位置。f-VAEGAN-D2[77]是一种生成的CPDL方法,它学习为看不见的类生成合成特征。然后,分类器在来自可见类的真实示例和来自看不见的班级CJME[54]提出了在AudioSetPUNK L数据集上进行视频分类的视听GUNK L任务。它将音频、视频和文本嵌入到一个联合的嵌入空间中,并在测试时利用嵌入空间中的邻近度来选择分类输出AVGALGOLNet[42]建立在[54]的基础上,是当前最先进的用于视频分类的视听GALGOL这种方法的主要优点之一是它使用三重损失来利用来自负面例子的信息。结果 我们将AVCA框架与表2中的VGGSound-GAUL、UCF-GAUL 和 ActivityNet-GAUL 数 据 集 上 的 ( G )GAUL的最新方法进行了比较。AVCA在所有三个数据集上都获得了最佳结果。在VGGSound-GALNL上,AVCA获得GALNL 6.31%的HM和6.00%的每平方米的HML,而CJME的HM为6.17%,DEVISE的HML性能为5.59%。在UCF-GALNL数据集上,我们的AVCA模型 优 于 GALNL 的 SJE , 性 能 为 27.15% , 而 不 是26.50%,并且我们获得了更强的GALNL性能20.01%,而不是18.93%。在ActivityNet-GALML上,AVCA的表现优于APN,GALML的表现 为12.13%,而 APN为7.27%。AVCA的评分为9.13%,而DEVISE的评分为8.53%。可以观察到,在某些情况下,U高于S。这是由于使用了[44]中所述的4.4. 定性结果我们提出了一个定性分析的学习多模态嵌入图。3.ActivityNet-Gognel类子集的t-SNE可视化[70]显示了音频和视觉输入特征与学习的多模态嵌入之间的差异。我们在补充材料中提供了VGGSound-Glucose L和UCF-Glucose L的其他定性结果在图中可以看到3a,输入音频特征不像图1所示的视觉特征那样分离和聚类3b. 然而,VI-10561(a) 输入音频嵌入(b)输入视觉嵌入(c)学习视听嵌入图3.三个可见的t-SNE可视化(水肺潜水,玩康加斯,滑水)和两个看不见的(骑骆驼,做蛋糕)来自ActivityNet-Goguil L的测试类,显示使用SeLaVi [9]提取的嵌入(a)音频和(b)视觉特征。(c)学习我们模型的视听嵌入。投射的文本类标签嵌入用带有黑色边界的十字可视化。模型VGGSo温德甘勒UCF-GALML ActivityNet-GogelHMZSLHMZSLHMZSL视觉支4.834.0620.92 14.167.536.49音频分支3.843.8311.78 10.784.194.06AVCA6.316.0027.15 20.01 12.139.13模型VGGSo温德甘勒UCF-GALNL活动Net-GALNLHMZSLHMZSLHMZSLW/O x-att6.024.8126.82 18.376.505.64使用x-att进行目视检查6.634.7827.11 17.229.506.89带x-att的4.935.0118.61 16.0511.058.78AVCA6.316.0027.1520.0112.139.13表3.用不同的模态训练AVCA对VGGSound-GALML、UCF-GALML和ActivityNet-GALML数据集的影响,这些数据集测量GALML的调和平均值(HM)和GALML的平均分类准确度。使用这两种模式,- ities产生最强的GALML和GALML性能。sual功能还包含类,例如玩康加和水肺潜水,这些类没有干净地聚集。可以在图中观察3c,我们的模型产生多模态特征,其改进了可见和不可见类的输入嵌入的聚类。例如,玩康加斯的可见类和做蛋糕的不可见类之间的聚类分离显著改善,即使不可见类不用于训练。4.5. 消融分析在这里,我们分析了AVCA的不同架构选择和损耗组件如何影响VGGSound-Gogel L、ActivityNet-GogelL和UCF-Gogel L的性能。评估不同的模式。在表3中,我们将多模态AVCA模型与仅使用单峰输入训练我们的架构进行了比较。在这种情况下,我们删除了跨模态注意力块,并孤立地训练每个单峰 视觉分支获得了比音频分支更好的性能,GML性能(HM)为7.53%,4.19%,在ActivityNet-Gobil数据集上。对于6.49%与6.49%相比,视听类分别占 4.06% 。 这 种 趋 势 也 表 现 在 UCF-GAUGL 和VGGSound-GAUGL数据集上,这表明视觉输入特征提供了比音频输入更丰富的视频内容信息。尽管如此,联合训练AVCA与两种输入方式相比,单独使用它们中的每一种都有显着的改善,GML性能为12.13%,GML性能为9.13%。表4.在VGGSound-Gogel L、UCF-Gogel L和ActivityNet-GogelL上使用Gogel L和GogelL的AVCA不同组件带x-att的音频(视觉)仅对交叉注意使用视觉(音频)模态。W/o x-att单独优化每个分支,并对它们的输出预测进行平均。x-att表示交叉注意。ActivityNet-GandelL数据集。这证实了来自音频和视觉输入的复杂信息对于GALML和GALML用于视频分类是非常有益的。我们在补充资料中提供了表3的S/U性能。评估跨模态注意力障碍。接下来,我们研究使用表4中的跨通道注意力块的效果。为了在不使用交叉注意(W/o x-att)的情况下获得结果,每个分支都被单独优化。为了评估,我们计算两个分支的输出之间的距离 和 每 个 类 的 θw 当 不 使 用 交 叉 注 意 块 时 , 在ActivityNet-GogaL数据集上,GogaL和GogaL的表现分别 从 AVCA 的 12.13% 和 9.13% 急 剧 下 降 到 GogaL 和GogaL 分 数 的 6.50% 和 5.64%VGGSound-GALML 和UCF-GALML的模式类似,证实了我们的跨通道注意力块对于在输入通道之间共享信息的重要性。此外,我们将优化完整的AVCA模型与仅使用视觉(Visual with x-att)或仅使用音频分支(Audio with x-att)进行训练进行比较。仅使用视觉分支需要从音频分支中移除Arec和Aproj通过从视觉分支中移除相应的组件,对音频分支重复该实验。联合优化两个分支比仅使用10562|−||−|−模型输出VGGSo 温德甘勒UCF-GALMLActivityNet-GogelHMZSLHMZSLHMZSLAVCA(θa)5.184.8725.9818.2512.549.23AVCA(θv)6.316.0027.1520.0112.139.13AVCA(θa,θv)5.905.4225.7819.3012.178.95AVCA(min(θa,θv))6.105.3625.8618.3912.459.08表5.单独使用音频和视频分支θa和θv的输出,或联合使用两者 ( θa , θv ) 对 VGGSound-Gogel L 、 UCF-Gogel L 和ActivityNet-Gogel L的影响。所有模型均使用θa和θv进行训练。ActivityNet-GWML 和 UCF-GWML 的 分 支 之 一 在ActivityNet-GALML上,我们获得了12.13%的GALML性能,而仅使用音频和视频分支的GALML性能分别为11.05%和9.50%。有趣的是,对于VGGSound-GARML数据集,Visual with x-att模型产生的GARML性能略强于 我 们 的 完 整 AVCA 模 型 , HM 为 6.63% , 而 不 是6.31%。这与VGGSound-GALML上音频分支的性能比视觉分支差一致而AVCA的联合优化得到了最佳的结果.评价不同的模式作为产出。 在表5中,我们研究了仅使用音频(θa)或视觉(θv)分支的输出特征,或同时使用两个分支((θa,θv)和min(θa,θv))的输出特征来评估我们的完整训练AVCA模型的效果。 对于AVCA(θa,θv),我们计算距离θaθw2+θvθw2.AVCA(min(θa,θv))使用来自与词嵌入具有最小距离的模态的嵌入。与最接近的文本嵌入相对应的类类似于类预测。使用视觉分支在VGGSound-GALML/UCF-GALML上提供了最强的性能,HM为6.31%/27.15%,而音频分支为5.18%/25.98%。在ActivityNet-GandyL上,音频分支 产 生 的 结 果 略 好 ( HM 为 12.54% , 视 觉 支12.13%)。AVCA(θa,θv)和AVCA(min(θa,θv))的得分均低于θv。所有三个数据集的最佳结果(最高平均HM)仅在使用视觉分支时产生。然而,由于交叉注意块融合了音频和视觉模态,因此两个分支都包含来自两个输入模态的多模态信息。评估不同的损失函数。最后,我们在表6中分析了使用不同损失函数训练AVCA对GALML和GALML性能的影 响 。 我 们 观 察 到 , 使 用 我 们 的 全 损 失 l 在 UCF-GALML , VGGSound-GALML 和 ActivityNet-GALML数 据 集 上 提 供 了 最 强 的 GALML 结 果 ( HM ) 在ActivityNet-GML上,省略lt训练我们的模型(l lt)提供了比使用完全损失l略强的GML结果,平均类别准确率为9.54%,而不是9.13%。然而,当使用具有12.13%的HM的l时,与使用具有12.13%的HM的l时相比,使用l−lt时为8.39%。 我们的损失消融证实,表6. 将训练AVCA与我们的全损失函数l进行为了去除各个分量LT、LREC、LCT、LW或LR,在VGGSound-GALDL、UCF-GALDL和ActivityNet-GALDL数据集上的GALDL和GALDL性能。我们在所有三个数据集上的强大的整体性能只有在使用我们完整提出的损失函数进行训练4.6. 限制和讨论我们提出的GREML基准数据集构成了一个非常具有挑战性的设置,因为底层数据集跨越了各种各样的类(例如,包括滑水和为ActivityNet数据集做蛋糕我们的AVCA有效地利用了不同的视听输入信息,从而比相关方法具有更强大的GALML性能然而,AVCA使用时间平均的视听输入信息,因此不考虑精细的语义细节。此外,我们的模型依赖于多模态输入数据,并且当只有一种模态可用时不能使用。5. 结论我们在VGGSound、UCF和ActivityNet数据集上为视频分类引入了三个新的视听(广义)零拍摄学习基准。我们提出了一个框架,(G)从视听数据学习对齐视听嵌入与文本标签嵌入。此外,我们提供了七个(G)GML方法的基线性能,并表明我们的模型在我们的新基准上优于GML和GML。最后,我们提供了一个定性分析学习的多模态嵌入。我们希望我们提出的基准将使和鼓励进一步研究视听零拍摄学习。确认这项工作得到了BMBF FKZ的支持:01IS18039A,DFG:SFB 1233 TP 17,项目编号:276693517,ERC(853489-DEXIM)和EXC编号2064/1- 项目编号390727645作者感谢国际马克斯普朗克智能系统研究学院(IMPRS-IS)对O.B. 梅西亚作者要感谢M。Mancini提供有用的建议和反馈。模型VGGSoUCF-Gobel ActivityNet-GobelHMZSLHMZSLHMZSLl-lt5.064.8418.5119.178.399.54l-l接收5.925.2224.3217.209.596.93l-lct6.314.8717.8817.5111.208.99l-lw5.184.9320.7516.419.088.00l-lr6.244.4321.3114.0211.147.94L6.316.0027.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功