没有合适的资源?快使用搜索试试~ 我知道了~
多模态动作预测的融合Transformer模型在EpicKitchen-100和EGTEA Gaze数据集上表现优于之前的方法
6068?…过去的法语(西班牙语)观察到预期时间(TMF)未来行动用于多模态动作预测的预期特征融合TransformerZe yunZhong1,2*,Da vidSchneider2,MichaelVoit1,RainerStiefelhagen2,andJür genBeyerer1,21Fraunhofer IOSB,Karlsruhe{firstname.lastname}@iosb.fraunhofer.de2卡尔斯鲁厄理工学院(KIT){firstname.lastname}@ kit.edu摘要虽然人类动作预期是固有地多模态的任务,但是在公知的动作预期数据集上的现有技术方法通过应用集成方法和平均单峰预期网络的分数来利用该数据。在这项工作中,我们介绍了基于Transformer的模态融合技术,统一多模态数据在早期阶段。我们的预期特征融合Transformer(AFFT)被证明是优于流行的分数融合方法,并提出了最先进的结果优于以前的方法,打开水龙头冲洗玻璃将玻璃放入支架拿抹刀冲洗刮刀未观测EpicKitchen-100和EGTEA Gaze+。我们的模型是easily可扩展的,并允许添加新的模式,而无需架构的变化。因此,我们提取了EpicKitchens-100的音频功能,我们添加到社区中常用的功能集。11. 介绍除了人类动作识别之外,如图1所示,预测可能的未来动作是人机合作和机器人辅助的最重要任务之一,例如,机器人辅助。以便在适当的时候伸出手来,或者生成主动对话以提供更自然的交互。由于预期结果只是假设,因此这往往比传统的动作识别更具挑战性,而传统的动作识别在当今经过精心打磨的判别模型中表现良好[13,35]。由于建模长期上下文通常对于预测至关重要[16,42,20],近年来提出了许多此类方法,包括聚类[21,36],注意力[42]和递归[16]。虽然基于视觉的系统是行动预期的事实标准[16,20,48],但还使用其他支持形式,如光流特征[47,7,28]或*同等贡献1代码:https://github.com/zeyun-zhong/AFFT图1:动作预期任务旨在使用所观察到的长度为τ0的视频片段来在未来动作发生之前τa关于场景中的对象的知识[15]已经显示出是有益的。在最近的工作中[28,27,37],音频已经被探索并被证明与第一人称视觉中的动作识别与大多数多模态动作识别模型[47,7]一致平均基于每个单个模态计算的预测)以融合不同的模态。虽然使用固定权重进行平均(包括简单平均[42]和加权平均[20])显示了优于单峰基线的结果,但Furnari等人。[16]表明,为每个模态分配最终预测的动态重要性对于预测自我中心行为特别有益受多感官整合的经典观点启发,即,在最初的感官处理完成后,感官之间的信息被合并[6,45],我们在这项工作中采取中级融合策略。我们提出了一个基于变换的特征融合模型,预期特征融合变换器(AFFT),它成功地将多模态特征组合在一个中级融合过程中,在这个过程中,特征首先被融合,融合后的表示声学视觉6069Π- -联系我们用于预测下一个动作,不同于上述所有的我们的方法是基于特征的,不需要端到端的特征提取器的训练。我们认为这是一个主要的优势,因为最近在各种任务上的最先进的结果是由大型基础模型驱动的,这些模型很难训练,而且需要大量的资源。通过将强大的特征提取器(如OMNIVORE [22])与中级特征融合相结合,我们在普通动作预测数据集上实现了最先进的结果,而无需对其进行微调。综上所述,我们的主要贡献包括:• 预期的特征F变换器(AFFT)成功地在表现特征上执行中级融合,比基于分数融合的方法显著改进 , 并 在 EpicKitchen-100 动 作 预 期 和 EGTEAGaze+上的竞争结果上提供最先进的性能;• 基于多重自注意和交叉注意的特征融合策略以及我们最终模型的详细超参数消融的比较;• 提 取 EpicKitchen-100 的 基 于 音 频 和 OMNIVORE 的RGB特征,我们将其提供给社区,并分析时间和模态性能贡献和模型注意力值。2. 相关工作动作预测的目的是预测未来的行动,给定一个视频剪辑的过去和现在。虽然许多方法研究了来自第三人称视频的不同形式的动作和活动抑制[17,12,29,23],但第一人称(自我中心)视觉最近随着支持它的多个挑战基准的开发而流行[8,9,32]。为了模拟过去行为的时间进程,[16]提出使用LSTM来总结过去,并使用另一个LSTM来预测未来。[42]利用了长期的过去信息,并使用了一种适应性的注意力机制来聚合短期为了在解决递归架构的长范围时间依赖性建模问题的同时保持顺序时间演化,最近在[20]中提出了GPT-2[40]的变体。我们提出了一个基于Transformer的特征融合模型,以有效地融合多种模态,并遵循[20]使用生成语言模型进行未来动作预测。用于动作预测的多模态融合。在以自我为中心的视觉的先前工作中通常使用的模态为了融合包含在不同模态中的信息,预期模型通常利用后期融合策略,类似于许多多模态动作识别模型[47,7,28]。这些融合方法大致可分为分数融合和特征融合。在分数融合中,使用固定权重(以简单平均[42,49]或加权平均[20]的形式)或基于场景的动态权重[16]来组合每个模态的预测的未来动作分数,特征融合组合预测的未来动作特征,并且利用附加的前馈层来生成动作分数[50]。与后期融合策略不同,我们采取了受多感觉整合经典观点启发的中级融合策略[6,45]。具体来说,我们采用多头注意机制[46]在每个时间戳组合不同的模态,并利用GPT-2的变化[20]来分析融合的过去特征的时间演变并预测未来的动作特征。最后,前馈层用于预测未来的动作类。视听学习。 最近的工作使用音频进行一系列视频理解任务,包括自我监督表示学习[5,3,30],视听源分离[38,2,11],在视频中定位声音帧[4,43],从视频生成声音[39,52,18],利用音频进行有效的动作识别[31,19],以及利用音频来提高动作识别的分类性能与上述工作不同的是,我们着重于利用音频作为动作预测的补充信息源。3. 方法图2中显示的架构由三个可交换的组件组成:模态特定特征提取器f mj,j 1,. . .,M,跨模态融合模块g Φ和预测模块a Φ。 由于这项工作分析了冻结特征上的多模态融合,我们假设所有的特征都具有预先训练的冻结权重,因此请参阅第4.2节以了解用于我们实验的特定特征集的更多细节。我们提出的融合模块在第3.2节中介绍我们遵循[20]并使用GPT-2 [40]模型的变体作为特征预测模块,预测z<$i+1=a<$(zi),i∈{1,. . . ,T}。3.1. 问题陈述在这项工作中,我们遵循[8,9]中定义的预期设置。如图1所示,动作预期任务旨在通过观察长度为τ0的视频片段来预测在时间τ s开始的动作。观察片段是动作之前的τ秒,即,从时间τs(τa+ τo)到τsτ a,其中τa表示“抗感染时间”,即,预计提前多少秒采取行动。每个数据集的预期时间τa通常是固定的,而观测段的长度通常取决于各个方法。在6070我z2…zTzT+1联系我们−我联系我们LL我L∈{} L伊古里×分类器z1z1z2…zT功能预测模块(基于GPT-2)融合模块...图2:AFFT的架构。特征编码器被省略,我们直接列出特征向量xM。融合模块组合模态特定特征向量。特征预测模块然后预测下一个时间步的特征,随后是线性分类器。在我们的实验中,我们假设T个时间顺序的输入观测xmj,i1,. . . ,T,j 1,. . . ,M,其描述了M个可用模态中的每一个的观察时间τ0。预期的动作被定义为在时间步长T+ 1处没有观察,并且标记为yT+1。取决于数据集,前面的观测可能另外用yi标记。 由于这项工作的目的是基于特征的模态融合,我们假设固定的特征提取器f,并将各个提取的特征定义为xmj=f mj(xmj),并且所有T输入样本的M个特征作为xM。3.2. 交叉模态融合时间解耦特征融合为了分别融合每个单独时间步长上的特征x∈M,我们应用如在[10]中使用的具有维度d和k的关注头的L我们发现,模态位置嵌入不会产生性能的改善我们确实消除了可学习到kenxkΛ的模态不可知的使用,类似于在融合每个时间步的多模态特征,所有时间步的所有模态特征用于一次提供所有输出特征z=g(x≠M)。可学习的位置嵌入pi用于编码每个模态的时间位置,并且注意力掩码强制时间位置i处的输出特征仅注意先前或并发的多模态特征。我们为提供给模块的每个时间步提供了一个学习令牌,而不是一个单一的模态不可知令牌。学习的位置嵌入被添加到每个时间步的标记中,以允许模型区分它们。时间交叉注意特征融合我们的第三个融合模块,显示在图3的右侧,受到[26]的启发,并遵循不同的范式。而不是一次提供所有的模态,我们迭代地丰富的主要模态(RGB在我们的实验中)与其他模态的信息。代替 L 个 Transformer 编 码 器 块 , 使 用 ( M1 ) 个Transformer解码器块[46]。对于解码器架构,提供RGB特征x∈RGB作为主输入,其提供用于多头交叉注意的查询,并且每个块利用另一模态x∈Mj。 作为提供键和值的第二解码器输入。位置嵌入被添加到所有模态特征。我们不使用额外的令牌,而是直接预测融合特征z。我们将此模块称为交叉注意融合器(CA-Fuser)3.3. 特征预测和分类在不同的模态特征被融合模块融合之后,GPT-2[40]模型的变体被用于预测未来特征zi+1=a(zi),i1,. . .[20],T. 为了编码时间排序和获得生成能力,使用可学习的位置嵌入和时间注意掩模。基于预期的特征z,我们定义分类头h,单个线性层,后跟softmax激活函数。预测结果基于预测的未来特征,因此yi=h(zi)和最终预测结果yT+1=h(zT+1)。3.4. 损失函数我们的损失函数遵循[20]的设置。 我们应用[10]第10段。具有前置可学习令牌xΛ的模块自我注意力融合器(Self-Attention Fuser没有三个损失=对下+Lcls +Lfeat . L下一个被定义我们对这个可学习的标记对所得到的输出标记zij求平均。我们认为使用可学习的知识是错误的,没有标记的实验也是如此。在图3的中间显示的时间自我注意力融合器(T-SA-Fuser)遵循SA-融合器的范例,但是代替y=T+1和y= T+1,根据行动预期的任务第 由于网络输出不仅为预期的n个动作提供特征z∈T+1,而且还为先前的时间步长i1,. . .,T,cls评估这些先前特征的动作分类性能,因此y_i=h(z_i)和y_i。 两者都是跨行业亏损。feat是预测和融合之间的均方误差特征为zi和zi。xm1xm11 2不xm2xm21 2不6071图3:左侧的SA融合器在各个时间步长应用Transformer Encoder块,而中间的T-SA融合器和右侧基于Transformer解码器的CA融合器同时对整个时间序列执行融合4. 实验装置为了研究不同融合策略的影响,并评估所提出的行动预期任务的方法,我们在两个不同的数据集上训练和评估我们的方法为了与先前的工作进行公平的比较,我们首先使用预提取的TSN特征[47]作为[16]提供的两个数据集的输入特征。为了研究音频模态对动作预期的影响,我们按照[28]训练TSN音频动作识别模型,并提取其特征以与其他模态融合。为了显示我们提出的融合方法的推广,我们从最近最先进的视觉模型OMNIVORE [22]中提取替代RGB特征。有关特征提取的信息将在4.2节中详细讨论。所有实验均遵循第4.3节中描述的训练程序4.1. 数据集和指标我们在两个大规模的自我中心(第一人称)视频数据 集 上 进 行 实 验 : EpicKitterfly-100 [9] 和 EGTEAGaze+ [32]。EpicKitchen-100由700个烹饪活动的长视频小时它包含90.0K动作注释,97个动词和300个名词。我们考虑了公共训练集中所有独特的(动词,名词)对,获得了3,807个独特的动作。我们使用官方的train、val和test拆分来报告性能。测试评估是通过提交给官方挑战服务器在保留集上进行的。EGTEA Gaze+是另一个流行的以自我为中心的动作模拟数据集。它包含10.3K动作注释,19个动词,51个名词和106个独特的动作。我们报告了EpicKitchen- 100的类平均前5名召回率[14],对于EGTEA Gaze+,我们报告top-1/5和类平均值top-1。由于一些先前的作品报告了他们在官方三次分裂中的平均结果,而一些人只在第一次分裂时评估他们的方法,我们使用这两种配方来测试我们的方法。4.2. 单峰特征RGB。我们比较了两种类型的RGB特征,由[16]提供的 常 用 TSN 特 征 [47] 和 我 们 用 OMNI 提 取 的 SwinTransformer [34]特征。x无源Moda lity不可知论toke nxmj时步j-t h模的特征z我ziMJMHSA:多头自我关注MHCA:多头交叉关注z1z2.z T在第i个时间步第i个时步的第j个模态的融合模块输出T位置嵌入层规范我+z1zzMm1M……zMm1M11不 … z(M -1)不zTMLP层规范层规范L+xmj+MLP1掩蔽MHCA层规范xmj2层规范+xmj不+掩蔽MHSA掩蔽MHSA层规范层规范投影投影1x10001x1x2x3M 1 …M1M …11TxX M不1 … TxX M不MTxX 不1x1米 2xm1. T x m11 2不zizM1 zMm2M我我…层规范L+MLP层规范+MHSA层规范投影xx Mi1 xx M2M…M我我层规范投影…126072×VORE[22]代表最近的基于Transformer的方法。两个特征提取器都经过动作识别训练。TSN特征是通过对每帧图像应用TSN来提取的,融合战略法案平均值16.4加权平均值17.3马特12.2连续过去的帧总计1.067s视频与一帧对于每个时间戳,将30fps的速率传输到OMNIVORE音频. 在[28]之后,我们提取1.28s的音频,将其转换为单通道,并将其重新采样为24kHz。然后,我们使用窗口长度为10ms、跳长为5ms和256个频带的STFT将其转换为对数谱图表示256 256,然后我们计算对数。与[28]不同的是,我们以在线方式提取音频,即,我们为每个时间戳提取过去的音频段,禁止模型访问未来,这是预测任务的先决条件。我们将这些矩阵输入到TSN网络,训练它执行动作识别任务,并为我们的工作提取特征。物体和光流。我们使用[16]提供的现有对象和光流特征。对象表示是通过累积每个对象类的Faster R-CNN[41]预测的所有边界框的置信度得分来获得的光流特征通过将水平和垂直流的5个连续过去帧馈送到训练用于动作识别的TSN模型来提取,形成具有10个通道的张量。4.3. 实现细节建筑细节。对于我们的AFFT模型,我们使用表2中标记的默认超参数对于EGTEA Gaze+,我们将融合器和未来预测器的层数减少到2,因为EGTEA Gaze+与EpicKitchen-100相比相对较小。我们采用线性投影层的模态功能,不对齐,与融合器的隐藏大小为了匹配未来预测器中使用的隐藏维度,另一个线性层被用来投影融合的模态特征。培训测试。我们以1 fps对所有模态特征进行采样,从而产生一系列特征向量,其长度对应于观察时间τo。默认观察时间为10 s,其他观察长度在第5.3节中进行分析。我们使用SGD+动量训练我们的模型,使用10−6的权重衰减和10−3的学习率进行50个epoch,其中20个epoch预热[24]和30个epoch的余弦退火衰减[20]。我们使用混合数据增强[51],α=0.1。 表2中列出了dropout和随机深度正则化技术[25]的默认设置。根据标准实践[16,20,48],我们的模型经过优化,可以在训练期间预测动作标签,并将输出概率边缘化,以在测试中获得动词和名词预测。SA-Fuser(不带令牌)17.1SA-Fuser 18.0T-SA-热熔器15.2CA-Fuser 16.6表1:融合策略的比较。结果基于具有RGB-Swin特征的所有模态。我们将使用SA-Fuser的模型称为我们的方法AFFT。5. 结果在第5.1节中,我们消融了申报的融合结构。继续最佳架构,我们在第5.2节中找到优化的超参数,在第5.3节中找到最佳时间上下文。在第5.4节中,我们分析了各个模态对最终模型性能的贡献,在第5.5节中,我们的模型与EpicKitchen-100和EGTEA Gaze+上最先进的基于特征的动作预期模型进行了使用RGB-TSN和RGB-Swin 特 征 训 练 的 模 型 分 别 称 为 AFFT-TSN 和AFFT-Swin5.1. 融合策略我们评估了第3.2节中提出的融合架构与基于分数融合的方法,并评估了我们的策略中哪一种最适合多模态融合。表1列出了所有方法。在我们的比较中,我们包括模态注意力(MATT)[16],这是一种学习的分数融合加权方法,但发现它在我们的设置中缺乏。对于得分平均和加权平均,我们选择与[20]相同的设置,验证他们的结果。在我们的特征融合模型中,结合时间和模态注意力的T-SA-Fuser表现最差,我们认为这是由这个过程的复杂性引起的。CA-Fuser通过在每个连续块中引入新的模态来引入归纳偏差,将注意力的过程分成单独的较小问题,而不是同时呈现所有的时间和模态标记。另一方面,我们最好的方法SA-Fuser甚至更简单,因为它沿着时间步长分割问题,并且只关注模态令牌。然后,在一个完全独立的步骤中使用基于GPT-2的未来预测器来执行时间注意力。我们相信,这种降低的复杂性是导致我们的最终模型的最佳性能的机制。对于进一步的实验,我们使用SA-Fuser作为我们的默认融合模块。特征评分6073→↑→↑(a) 投影层。《层法》(b) 维度头法418.0818.41617.4(c) 人头数181716154 8 12 16 20观察时间[s]0.40.30.2RGBObjAU流量(d) 层数。(e) 正规化。图 4 : 节 奏 背 景 对EpicKitchen-100 验 证 集 的影响。我们的方法利用了长期的图 5 : AFFT-Swin 在 EK验证集上的模态状态-100. 我们的方法学会了表2:EpicKitchen-100确认集上的融合器结构消融。默认设置以灰色标记。依赖关系来提高竞争性能。在没有任何监督的情况下更加注意5.2. 建筑烧蚀在表2中,我们消融了我们架构的不同超参数。默认参数用灰色的表格单元格标记,最佳值用粗体键入。投影层和公共维度。所有多模态输入特征的尺寸必须一致。这可以使用简单的线性层、具有ReLU激活函数的线性层[27,23]或门控层来实现。0.60.40.20.01 2 3 4 5 6 7 8 9 10意见线性投影[36,44],见表2a。我们添加了一个额外的变体稀疏线性,这意味着线性层仅适用于具有与所需公共维度不同维度的特征,并表明它优于其他投影方法。在表2b中,我们研究了投影维度如何影响性能。我们发现1024的维数是最佳的,由于参数数量的增加和过拟合效应,更高的维数可能会降低性能。注意磁头和编码器。 我们在表2c中比较了不同头数对编码器多头注意力的影响,在表2d中分析了编码器块的数量,我们发现八个头和六个连续的编码器块是最好的。正规化的效果 我们使用无脱落和无随机深度进行消融[25](即无正则化)或使用具有最大层丢弃概率的随机深度0.1. 表2e中的结果表明,dropout和随机深度正则化都是非常有益的。5.3. 时间背景的影响。为了研究对长距离时间交互序列建模的能力,我们用不同长度的时间上下文训练和测试模型,即,观测时间τo。如图4所示,随着更多的上下文帧被合并,AFFT-TSN和图6:AFFT-Swin对EK-100的验证集的我们的方法不仅关注最近的过去,而且关注整个过去的帧。AFFT-Swin。当使用RGB-Swin特征进行训练时,收益尤其明显(16.518.5=2.0)对比RGB-TSN特征(15.7 17.0= 1.3)。为了进一步探索如何利用时间上下文,在[20]之后,我们从EpicKitchen-100的验证集中的所有样本的特征预测模块的最后一层提取时间注意力预测模块学习关注最近的过去的视觉特征,表明最近的过去帧为预测未来动作提供了关键的关键。这与以前的工作[29,42]一致,反映了最近在设计交互模型方面的重要性然而,虽然更远的过去帧的注意力中值较小(接近0.1),但注意力分布明显分散,表明模型不仅可以选择关注最近过去的重要动作,还可以选择关注整个观察时间的重要动作,如图8中的示例所示。在这里,模型在观察的中间关注早期的时间步骤,该时间步骤显示打开冰箱,以预测未来的动作“关闭冰箱”。AFFT-TSN的结果列于补充文件中。Fusion TSNFusion SwinMT5R [%]关注关注Dim.法51216.776817.2102418.0128018.0204816.9投影法是林书17.6是林书(稀疏)18.0是林书+ReLU17.117.82417.917.3618.0正则化法无正则化随机深度(0.1)15.816.2下降&stoch。深度(0.1)18.06074百分百百分之八十百分之六十百分之四十百分之二十0%的百分比图7:EpicKitchen-100验证集中最大25个动作的每类前5名融合准确度(AFFT-TSN)和单一模态。这些类按每个类的样本数量的顺序从左到右呈现。对于大多数类的融合方法提供了显着更好的结果比单一的方式。关闭袋子关闭袋子打开冰箱放袋子关闭冰箱RGBObjAU时间流0 4 8 12 16修正主干法案RGB TSN 13.2RGB Swin 16.1物镜F. R-CNN 9.9AU TSN 5.3流量TSN 7.5(a) (b)多种模式的结果图8:EpicKitchen-100的定性结果那只狗-模式。与RGB结合。横轴和纵轴表示过去帧的索引以及模态。颜色越接近黄色,注意力得分越高。当视频帧的注意力分数被高度激活时,该帧用黄色框突出显示。5.4. 模式贡献如表3a所示,视觉模态,特别是RGB,具有比音频更高的性能,也可在图7中观察到。得益于更大的模型容量和更好的代表性能力,使用Omnivore-pre-trainedSwin-Transformer提取的RGB特征比TSN特征表现得更好。表3b中的结果表明,当针对两种RGB特征引入广告模态时,预期性能保持增加特别地,AFFT-TSN和AFFT-Swin分别比表3a中的它们的单峰RGB性能具有3.6%和1.9%的增益。图7中可以看到针对单个模态以及针对在所有四种模态上训练的我们的融合模型(AFFT-TSN)的每类前5个准确度。对于大多数类别,融合模型的性能优于单峰模型,通常是显著的。AFFT-Swin的结果见补充资料。为了分析我们提取的音 频 特 征 的 贡 献 , 我 们 只 使 用 视 觉 模 型(RGB+Obj+Flow)进行实验,并将它们与模型进行表3:单个模式对EpicKitchen-100验证集的影响。与其他模式相比,RGB的表现要好得多,特别是在Swin提取的特征上。所提出的融合方法受益于多模态输入。提供的模态越多,预期模型的性能就越好。在所有四种模态上训练,这导致平均前5个动作预期准确 度 增 加 0.6% ( AFFT-TSN ) 和 0.4% ( AFFT-Swin),为了进一步验证音频的好处,我们计算了一个混淆矩阵,其中使用了最大的15个动作类的音频,如下[28],我们在附录中列出。为了更好地理解融合模块如何建模不同模态的相对重要性,我们在图5中可视化AFFT-Swin的学习模态注意力。具体来说,我们使用attention rollout [1]来聚合头部和层上的attention。如图所示,RGB获得了最多的关注,这表明对预期任务贡献最大的模态(如表3a所示图5还显示了所有模态的注意力分布分布范围很广,这表明模型学会了根据每个样本调整各个模态的相对重要性。OFL离子FUS嗷AUBJRGBTop-5类Acc.RGBTSN Swin其他法法Obj15.9十六点七AU15.4十六点八流15.2十六点五6075→↑方法整体看不见的厨尾类动词名词法。 动词名词法 动词名词法机会6.42.00.2 14.4二点九 0.5 1.60.20.1AVT+[20] 28.2 32.015.929.5 23.9 11.921.1 25.8 14.1[48]第48话28.6 27.4 15.225.3 31.0 15.5RULSTM [16]27.830.814.028.8 27.214.219.822.0 11.1[42]第四十二话23.2 31.4十四点七28.0 26.2十四点五14.522.5 11.8AVT+-TSN [20] 25.5 31.814.825.5 23.6 11.518.5 25.8 12.6我们的TSN21.3 32.716.424.1 25.5 13.613.2 25.8 14.3Ours-TSN+22.3 31.517.023.8 25.3 14.014.6 23.6 15.0我们的斯温23.4 33.717.624.5 25.4 15.215.6 26.5 15.3Ours-Swin+22.834.6 18.524.8 26.4 15.515.027.7 16.2机会6.22.30.18.1第3.3节 0.3 1.90.70.0AVT+[20]25.6 28.8 12.620.9 22.3 8.819.0 22.0 10.1RULSTM [16]25.3 26.711.219.4 26.9 9.717.616.0 7.9[42]第四十二话21.8 30.6十二点六17.9 27.0十点五13.620.6 8.9TCN-TSN [50] 20.4 26.610.917.9 26.9 11.111.7十五点二 7.0TCN-TBN [50] 21.5 26.811.020.8 28.3 12.215.4 7.2Ours-TSN+19.4 28.313.414.0二十四点二 9.912.0 19.510.9Ours-Swin+20.731.8 14.916.2 27.7 12.113.423.8 11.8表4:EpicKitchen-100验证和测试集的最新技术水平方法比较 我们的模型创造了一种新的艺术状态。黑体数字表示最高分。所有方法都使用[16]提供的所有模态,除了MeMViT仅使用RGB。Tem- pAgg和标记为+的那些分别额外使用交互手对象边界框和音频5.5. 与最新技术水平的我 们 的 最 终 模 型 遵 循 表 2 中 的 默 认 超 参 数 。 在EpicKitchen-100上,AFFT-TSN和AFFT-Swin分别使用18秒和16秒的观测值,而EGTEA Gaze+使用默认观测时间(10秒)为了进行比较,我们区分了使用冷冻骨架的训练(即,在冻结特征上的训练在本节的所有表格中,突出显示了用于对这些数据集的方法进行排名的主要指标。在表4中,我们将我们的方法与EpicKitchen-100上的最新方法进行了根据验证和测试部分,表格分为两个部分在验证分割上,我们的AFFT-TSN以较大的幅度(14.8 16.4= 1.6)优于其他融合方法。与[16]提供的功能完全相同。随着音频的加入,性能进一步提高了0.6%。AFFT-Swin+使用Omnivore功能,比当前最先进的模型MeMViT在val分割上的平均前5个比率动作预期性 能 高 与 验 证 分 割 的 结 果 一 致 , 我 们 的 方 法 在EpicKitchen-100的测试集上也优于先前的融合方法。如表4中的底部隔室所示,我们在尾部类别上获得了最大的收益,方法Top-1类平均值@1Top-5动词 名词法动词 名词法法I3D-Res50 [7]48.042.1 三十四点八31.330.023.2-FHOI [33]49.045.5 三十六点六32.532.725.3-AVT [20]54.952.2 43.049.948.335.2-RULSTM [16]--- -一种---71.84磅ImagineRNN [49]--- -一种---72.32磅[20]第二十话51.750.3 三十九点八41.241.428.3-AFFT-TSN(我们的)53.450.4 四十二点五42.444.535.272.47米表5:与EGTEA Gaze+(τ a = 0)最新方法的比较。5只 标记为“0”的结果是三个官方分裂的平均值,而其他结果仅基于分裂1。 我们使用与RULSTM相同的输入方式。关于每种方法所用模式的更多细节,见补充材料。我们的方法证明特别有效。请注意,表4仅列出了同行评审结果。在我们的补充材料中,我们还列出了EpicKitchens-Challenge的结果,其中包含许多未经同行评审的结果,通常使用各种方法的模型集成创建。接下来,我们在EGTEA Gaze+上评估我们的方法,如表5所示。根据以前的工作[33,20],我们将等待时间τ a设为0.5s。由于一些先前的作品报告了三个官方分裂的平均结果,而其他人只在分裂1上测试,我们使用这两种配方来评估我们的方法。使用固定的功能,AFFT-TSN优于使用两种配方的先前作品,特别是对于类平均值top-1。6. 结论和未来工作本文提出了一种基于注意力的多模态特征融合方法--预期特征融合转换器(AFFT)。广泛的消融表明,与基本评分融合或其他多模态融合方法相比,我们的方 法 的 性 能 有 所 改 善 , 并 且 在 EpicKitchen-100 和EGTEA Gaze+上进行的最新比较中,AFFT优于现有方法。我们的方法可以很容易地与各种特征提取器相结合,并可扩展到新的modali- ties没有架构的变化。考虑到这种可扩展性,我们希望为其他研究人员提供一个多模态动作感知的框架,并希望在未来对其他模态进行实验,如身体姿势和对象手致谢这项工作得到了JuBot项目的支持,该项目得到了卡尔蔡司基金会的资助。这项工作是在HoreKa超级计算机上进行的,该计算机由巴登-符腾堡州科学、研Val测6076究和艺术部以及联邦教育和研究部资助。6077引用[1] Samira Abnar和Willem Zuidema。量化变压器中的注意力流。在ACL,2020年。[2] TriantafyllosAfouras , Joon Son Chung , 和 AndrewZisser-man. 对 话 内 容 : 深 度 视 听 语 音 增 强 。InInterspeech,2018.[3] Relja Arandjelovic 和 Andrew Zisserman 看 、 听 、 学 。InICCV,2017.[4] Relja Arandjelovic和Andrew Zisserman。会发出声音的物体。在ECCV,第435-451页[5] 尤瑟夫·艾塔卡尔·冯德里克安东尼奥·托拉尔巴声音网络:从未标记的视频中学习声音表示. InNeurIPS,volume 29,2016.[6] Floyd E Bloom,Arlyne Lazerson,Laura Hofstadter,等.大脑,思想和行为,第300卷。弗里曼,纽约,1988年。[7] Joao Carreira和Andrew Zisserman。什么是行动识别?新模 型 和 动 力 学 数 据 集 。 在 CVPR 中 , 编 号 arXiv :1705.07750,2017。[8] DimaDamen , HazelDoughty , GiovanniMariaFarinella , Sanja Fidler , Antonino Furnari , EvangelosKazakos , Davide Moltisanti , Jonathan Munro , TobyPerrett,Will Price,et al.扩展以自我为中心的愿景:epic-kitchens数据集。在ECCV,第720-736页[9] DimaDamen , HazelDoughty , GiovanniMariaFarinella , Sanja Fidler , Antonino Furnari , EvangelosKazakos , Davide Moltisanti , Jonathan Munro , TobyPerrett,Will Price,et al. epic-kitchens数据集:收集,挑战和基线。TPAMI,43(11):4125[10] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图像值得16x16字:大规模图像识别的变形金刚ICLR,2021年。[11] Ariel Ephrat、Inbar Mosseri、Oran Lang、Tali Dekel、Kevin Wilson、Avinatan Hassidim、William T Freeman和Michael Rubinstein。在鸡尾酒会上聆听:一种用于语音分离的与说话人无关的视听模型。在SIGGRAPH,2018年。[12] Yazan Abu Farha、Alexander Richard和Juergen Gall。你什么时候做什么?- 预期活动的时间发生。在CVPR,2018年。[13] Christoph Feichtenhofer , Haoqi Fan , Jitendra Malik ,and Kaiming He.用于视频识别的慢速网络。在ICCV,第6202-6211页[14] 安东尼·弗纳里,巴蒂亚诺·巴蒂亚托,乔瓦尼·玛丽亚·法里内拉。利用不确定性重新思考自我中心行动预期的损失在ECCVW,2018年。[15] Antonino Furnari,Bristiano Battiato,Kristen Grauman,and Giovanni Maria Farinella.从自我中心的视频中预测下 一个 活 动 对象 Journal of Visual Communication andImage Representation,49:401[16] 安东尼·弗纳里和乔瓦尼·法里内拉。你会期待什么?用滚动-展开LSTM和模态注意预测自我中心行为在ICCV,2019年。6078[17] Jiyang Gao,Zhenheng Yang,and Ram Nevatia. RED:Rein-forcedEncoder-DecoderNetworksforActionAnticipation。在BMVC,2017年。[18] Ruohan Gao和Kristen Grauman。2.5 d视觉声音。在CVPR,第324-333页[19] Ruohan Gao , Tae-Hyun Oh , Kristen Grauman , andLorenzo Torresani.听听看:通过预览音频识别动作。在CVPR,2020年。[20] RohitGirdhar 和 KristenGrauman 预 期 的 视 频Transformer。ICCV,2021。[21] Rohit Girdhar、Deva Ramanan、Abhinav Gupta、JosefSivic和Bryan Russell。Actionvlad:学习动作分类的时空聚合。在CVPR中,第971- 98
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功