基于枢轴相关神经网络的多模态视频分类

150 浏览量更新于2023-10-13 收藏 1.56MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于枢轴相关神经网络的多模态视频分类Sunghun Kang1[0000−0003−2632−7522]，JunyeongKim1[0000−0002−7871−9627]，Hyunsoo Choi2、Sungjin Kim2和Chang D.Yoo11KAIST，大田，韩国{sunghun.kang，junyeong.kim，cd_yoo}@kaist.ac.kr，2三星电子公司LTD，首尔，韩国{hsu.choi，sj9373.kim}@ samsung.com抽象。本文认为，多模态视频分类的架构称为枢轴相关神经网络（枢轴CorrNN）。该架构由专用于一个特定模态输入的模态特定流以及无区别地考虑所有模态输入的模态不可知枢轴流组成，并且该架构试图基于模态特定预测来细化枢轴预测枢轴CorrNN由三个模块组成：（1）最大化枢轴相关模块，其最大化隐藏状态之间的相关性以及网络中模态不可知枢轴流和模态特定流的预测，（ 2 ）上下文门控递归单元（cGRU）模块，其扩展通用GRU的能力以在更新枢轴隐藏状态时采用多模态输入，以及（3）自适应主动聚合模块，其将所有模态特定预测以及模态不可知枢轴预测聚合成一个最终预测。我们在两个公开的大规模多模态视频分类数据集FCVID和YouTube-8 M上评估了Pivot CorrNN。从实验结果来看，PivotCorrNN在FCVID数据库上实现了最佳性能，并且在YouTube-8M数据库上的性能与最先进的性能相当关键词：视频分类·多模态表示·序列建模·深度学习1介绍多模态视频分类是用于基于不同模态输入来预测给定视频的类别的任务，所述不同模态输入可能已经使用传感器和软件的不同混合来捕获，以保护视频的不同模态。图1示出了来自FCVID数据集的四个视频示例，其具有从被称为Pivot CorrNN的所提出的算法获得的地面实况和前3个得分。在不同模态之间加强和补充以进行更准确的整体预测是可以推动未来创新以更好地理解和识别视频中的内容的关键技术。新兴应用包括视频监控、视频推荐、自主2S. Kang等人驾驶和运动视频分析系统。深度卷积神经网络（CNN）的使用已经在不同的任务中取得了许多巨大的进展，但通常局限于单一模态-通常以图像，语音或文本的形式-与辅助模态（如文本查询）的可选关联事实上，到目前为止，利用多种模式之间的协同关系的研究已经有相当多的研究致力于视频分类的主题，但这些主要是视觉的。听觉通道常常被忽视。一些值得注意的过去的研究集中在时空视觉表示。Karpathy等人。[19]在大型视频数据集上训练了一个深度CNN，同时研究了各种时间融合的有效性 Tran等人[29]将传统的二维卷积运算扩展到三维，以考虑视频中的时空信息。其他研究集中在利用运动模态以及视觉外观模态。Donahue等人[9]研究并比较了CNN-LSTM组合的各种配置这里，两个CNN-LSTM组合的输出-一个将RGB图像作为输入，而另一个将流图像作为输入-在进行最终预测时合并在两个流网络[10，11，25]中，考虑了两个单独的CNN流-一个以静态图像作为输入，而另一个以光流为输入，并且通过求和[10]或乘法运算[11]融合导致最终预测的两个流的中间特征。听觉模态也被认为是在一个次要的方式。 Jiang等人[18]提出了正则化DNN（rDNN），其联合利用特征（包括音频特征）和类关系来对视频语义进行建模。Miech等人[23]考虑了一种具有两个可学习池化层的架构-一个采用视觉输入，而另一个采用音频输入-由完全连接的层合并并进行门控以进行最终预测。虽然视频分类已经取得了相当大的进展，但仍有许多未解决的问题有待研究。首先，通常难以确定异构模态之间的关系，尤其是当模态涉及不同实体时，使得难以确定模态之间的关系。例如，涉及共同实体（在这种情况下，像素）的静态图像及其光流可以容易地在相同的空间域中融合，而学习静态图像与视频的音频信号之间的关系是不容易的其次，多模态顺序建模应考虑模态与其语境信息之间的互补关系。由于诸如遮挡和噪声的各种原因，与分类相关的信息随时间而变化强调一种模态而不是另一种模态可能更合适第三，根据类别的不同，一种方式将提供比另一种方式更重要的关于类别的信息，这一大多数类别在视觉域中定义得很好，而在听觉域中定义得更好如Wanget al.[31]，在大多数错误分类的情况下，存在一种模态失败，而另一种模态正确。在枢轴相关神经网络3图1：来自FCVID数据集的四个视频示例，具有从被称为Pivot CorrNN的所提出的算法获得的groundtruth和在这种情况下，有必要开发考虑每个模态预测的置信水平的模型。为了克服上述问题，本文考虑了一个架构的多模态视频分类称为枢轴相关神经网络（枢轴CorrNN）。它被训练以最大化隐藏状态之间的相关性以及网络中的模态不可知枢轴流和模态特定流的预测，并基于模态特定预测来细化枢轴预测。这里，模态不可知枢轴隐藏状态无区别地考虑所有模态输入，而模态特定隐藏状态专门专用于一个特定模态输入。 Pivot CorrNN由三个模块组成：（1）最大化枢轴相关性模块，其尝试最大化地关联隐藏状态以及网络中模态不可知枢轴流和模态特定流的预测，（2）上下文门控递归单元（cGRU）模块，其扩展通用GRU的能力以在更新枢轴隐藏状态时采用多模态输入，以及（3）自适应聚合模块，其聚合所有模态相关性。将特定预测以及模态不可知枢轴预测合并为一个最终预测。最大化枢轴相关性模块，其为模态不可知枢轴和模态特定隐藏状态之间的共现以及它们的预测提供指导。上下文门控递归单元（cGRU）模块，其对模态之间的时变上下文信息进行建模。当进行最终预测时，自适应聚合模块考虑每个模态的置信度。本文的其余部分组织如下。第二节回顾了以往关于视频分类和多模态学习的研究。第3节详细讨论了建议的体系结构。第4节给出了实验结果，最后，第5节总结了本文。4S. Kang等人2多模式学习在本节中，对多模态学习进行简要回顾。介绍了多模态表示学习的一些相关工作深度学习已被证明有能力为有用的表示建模多种模态[3，24，27]。一般来说，多模态表征学习的主流方法分为两种：联合表征学习和协调表征学习。联合表示学习。它学习可以获得的输入模态的联合表示通过级联、逐元素求和和逐元素乘法，作为神经网络的输出。第二种方法是基于相似性的分离表示。它学习每个输入模态的单独表示，而每个表示被约束为与其他模态相似。第一种方法的研究重点是利用特征之间的各种一阶和二阶相互作用进行联合表示。Ngiam等人。[24]提出了一种基于深度自动编码器的架构，用于视频和音频模态的联合表示学习。利用自重构和交叉重构学习联合表示，实现了音视频语音识别。 Srivastava等人[27]提出了一种基于深度玻尔兹曼机（DBM）的架构，以学习多模态输入空间上的联合密度模型。通过Gibbs采样，即使存在一些缺失模态，也可以得到Antol等人[4]提出了基于深度神经网络的VQA架构。通过元素乘法融合图像特征和文本特征，得到联合表示。外积也用于融合输入模态[6，13，20]。由于完全参数化的双线性模型（使用外积）由于参数的数量而变得难以处理，因此需要模型复杂性的简化或近似。 Fukui等人[13]使用计数草图投影将外积投影到低维空间，Kim等人。[20]限制所得张量的秩，Ben-Younes等人。[6]利用塔克分解来减少参数的数量，同时保持模型的复杂性。第二种方法的研究重点是对图像进行分离表示，并引入损失函数来减小表示之间的距离。诸如内积或余弦相似性的相似性度量可以用于协调表示。 Weston等人[32]提出了WSABIE，它使用内积来度量相似性。计算图像特征和文本特征的内积并使其最大化，从而使对应的图像和注释之间具有较高的相似度。 Frome等人[12]提出DeViSE用于视觉语义嵌入。DeViSE使用类似于WSABIE的铰链排名损失Huang等人。[16]利用余弦相似度来度量查询和文档之间的相似度该方法直接利用文档间的相似度对协调表示的研究重点是基于典型相关分析（CCA）[15]。CCA是旨在学习每种模态的单独表示的方法，同时最大化它们之间的相关性。一个-枢轴相关神经网络5德鲁等人[3]提出了深度CCA（DCCA），这是CCA的DNN扩展。DCCA使用深度网络学习非线性投影，使得结果表示与不同视图图像高度线性相关Wang等人。[30]提出了深度规范相关自动编码器（DCCAE），这是一种基于DNN的模型，结合了CCA和基于自动编码器的术语。DCCAE联合优化自动编码器（AE）目标（重构误差）和典型相关目标。 Chandar等人[7]提出了相关神经网络（CorrNet），其在联合使用重建目标和相关性最大化目标方面类似于DCCAE。然而，CorrNet仅最大化小批量内的经验相关性，而不是CCA约束最大化典型相关性。3枢轴相关神经网络图2：在双模态场景中提出的Pivot CorrNN的框图Pivot CorrNN由三个模块组成：（a）上下文门控递归单元，（b）最大化枢轴相关性，以及（c）自适应聚合在本节中，将描述Pivot CorrNN及其模块。提出的Pivot CorrNN由三个模块组成：上下文GRU（cGRU）模块、最大化枢轴相关性模块和自适应聚合模块。所提出的Pivot CorrNN可以使用M个模态特定的GRU和一个模态不可知的cGRU及其分类器来推广用于M个模态图2示出了Pivot CorrNN的整体框图，其示出了用于顺序双模态场景的模块之间以顺序双模态情况，其中，ηνενε η νε和1t =1X2={xt}T，Pivot CorrNN融合两个输入，然后预测标签2t =1对应于两个输入。两个GRU和一个CGRU用于获得两个单独的模态特定隐藏状态（h1和h2）和一个枢轴隐藏状态hPivot。每个隐藏状态被馈送到其分类器，用于预测相应的标签（y_i，y_i，和y_i，v_t）。在训练所提出的PivotCorrNN期间，6S. Kang等人枢轴最大化枢轴相关性模块测量模态特定枢轴和模态不可知枢轴之间的隐藏状态和标签预测两者的相关性，并且最大化它们。为了产生最终预测y，涉及自适应聚合模块在章节中介绍了所提出的cGRU、最大化枢轴相关性和自适应聚合模块3.1、3.2和3.3。3.1情境门控复发单位（cGRU）图3：cGRU的图示。引入门控掩码α1和α2以基于先前的隐藏枢轴状态和其他模态输入来控制每个模态输入的上下文流所提出的上下文GRU（cGRU）是GRU[8]的扩展，其通过在GRU的通常过程接管之前连接加权输入来将许多模态输入组合成一个。通过考虑cGRU的隐藏状态和不包括其自身的其他模态输入来确定特定模态输入上的权重位置。图3示出了采用两个模态输入Xt和Xt的特定cGRU。t−1t1 2时间步长t并将其隐藏状态h_pivot更新为h_pivot。经过从t= 1到t=T的所有输入序列，最终模态不可知的枢轴隐藏状态h枢轴被呈现给枢轴分类器。为了对每个模态的时变上下文信息进行建模，引入了cGRU内的两个每个输入模态通过考虑在先前隐藏模态的枢轴状态ht−1。门控输入在构造更新时被级联门掩模以及复位门和隐藏枢轴状态。隐藏的枢轴状态以通常的GRU方式更新。枢轴相关神经网络721（r⊙h+ z⊙h枢轴枢轴CorrNCorr（y−y）（y−y）12α1=σ（Wα2=σ（Wα1hα2ht−1枢轴t−1枢轴+Wα1x+Wα2xxt+bα），xt+bα），xt= [α1⊙xt;α2⊙ xt]，zt =σ（Wzhrt =σ（Wrh1t−1枢轴t−1枢轴2+Wzx+Wrxxt+bz），xt+br），~t枢轴 =（Whx xt+Whht t−1枢轴）+bh），t枢轴 =（1−zt）⊙ht−1t~t枢轴其中，σ、σ分别是logistic sigmoid函数和双曲正切函数。这里，⊙表示Hadamard乘积。xt是使用选通掩码的调制输入。是在时间t的更新和重置门，其与原始GRU相同。 h_p_v_t和h_p_i_v_t是模态不可知的枢轴隐藏状态及其内部候选隐藏枢轴状态。3.2最大化透视相关模块最大化枢轴相关性模块被提出用于在训练期间捕获隐藏状态和标签预测中的模态之间的共现。共现现象表达了神经元在特定模态隐藏状态中的共激活最大化枢轴相关性模块尝试在隐藏状态以及网络中模态不可知枢轴流和模态特定流的预测之间最大化相关。最大化隐藏状态中的枢轴相关性利用模态特定状态h1和h2以及模态无关枢轴隐藏状态hT.枢轴芯-第m个模态隐藏状态Lhm上的关系目标定义如下：Lhm =.ΣNi=1（hm，i— h¯ m）（h枢轴，i— h¯ 枢轴），校正ΣN¯2ΣN¯2i=1（hm，i− hm）i= l（h枢轴，i −h枢轴）其中下标i表示样本索引。这里，h¯=1ΣN H和拉姆Ni=1m，ih¯pivot =1Ni=1 hpivot，i是特定模态和模态的平均值不可知的隐藏状态。这里，h，m，i表示第i个样本的第m个模态。FormaximizingpivotcorrelationofobjectiveinlabelpredictionsLym是-罚款如下：Lym =.ΣNi=1 （ym，i— 是的）（y枢轴，i— y¯枢轴），CorrΣNi=1m，im 2ΣN2i=1枢轴，m枢轴其中y=1ΣN y而y=1ΣN y分别表示mNi=1m，i枢轴Ni=1枢轴，i模态特定和模态不可知预测的平均值HHHHH、H8S. Kang等人m=13.3自适应聚合我们提出了一种基于软注意力的后期融合算法，称为自适应聚集。自适应聚合是后期融合框架中的注意力机制的扩展，其基于模态特定预测和模态不可知主元预测之间的置信度。对于M多模态情况，所有特定的预测{ym}M以及模态不可知枢轴预测在进行最终预测时考虑y gg，如下所示：yagg=σ.ypivot+ΣMm=1Σαagg，m·ym，其中αagg，m是对应于第m个模态的标量多模态注意力权重。使用类似于软注意机制的神经网络来获得多模态注意权重：α=Σexp（sm），m=l，···，M，哪里agg，mMi=1 exp（si）s_m= W_s[h_m; h_pivot]+ b_s，m = l，···，M。与广泛使用的后期融合算法如均值聚合不同，自适应聚合可以调节最终预测中每个模态的比例。学习的多模态注意力权重可以被视为每个模态的可靠性。考虑带有“冲浪”标签的视频。冲浪板可以用肉眼观察到，但我们听到的不是海浪，而是音乐。在这种情况下，对应于视觉模态标签的注意力权重应该高于对应于音频的注意力权重，使得基于视觉模态而不是听觉模态来进行最终预测。3.4培训训练所提出的Pivot CorrNN的目标损失函数由三项组成。首先，包括（M+ 2）个交叉熵损失，其中M表示输入模态的数量。另外两个交叉熵专用于枢轴预测和自适应聚合模块之后的预测，该自适应聚合模块负责监督学习每个模态预测的置信水平第二，M个隐藏状态之间的相关性以及模态特定子网络和模态不可知子网络中的每一个第三，为了实现更好的泛化性能，额外应用了N2-正则化最小化总体目标损失函数导致最小化M+2个分类误差，并且同时最大化枢轴相关性目标。为了处理该相反方向，设计最终损失函数L枢轴相关神经网络9为了最小化交叉熵、正则化和相关性损失的负值，如下所示：ΣML=m=1ΣC.ΣCc=1Σyclog（ym，c）+（1− yc）log（1−ym，c）+c=1ΣC+c=1（yclog（ypivot，c）+（1−yc）log（1−ypivot，c））（yclog（yagg，c）+（1−yc）log（1−yagg，c））-λ1.ΣMm=1HMCorrΣymCorr+λ22，其中，c和C分别表示第c个类别和类别的总数。yc是第cλ1和λ2是用于控制枢轴相关性和λ2正则化项的有效性为了评估主元相关性，同时对全部N个样本，但在实践中，经验相关性是在单个小批量内计算的，与深度CCA [3]相同。因此，可以使用任何类型的基于梯度下降的方法来优化所提出的最大化主元相关性模块包括亚当[21]4实验本节提供Pivot CorrNN的实验细节。最初，我们描述了用于训练和评估所提出的架构的数据集。4.1. 实验详情见第节。4.2节中所示，并对每个拟议模块进行了调查。4.3作为消融研究。最后，节。 4.4和4.5显示了两个数据集的Pivot CorrNN的实验结果：FCVID和YouTube-8 M。4.1数据集FCVID[18]是一个多标签视频分类数据集，包含91，223个Web视频，手动注释了239个类别。该数据集代表了超过4，232小时的视频，平均视频持续时间为167秒。FCVID中的分类涵盖了广泛的主题，包括对象（例如，“汽车”），场景（例如，“海滩”），社交活动（例如，“尾门派对”）和程序性事件（“做蛋糕”）。存在一些无法播放的破碎视频，我们过滤掉无法用于提取特征的破碎视频。在过滤之后，剩余数量的视频是用于训练的44，544和用于测试的44，511。训练和测试的划分与上一篇文章[18]相同。FCVID分发原始视频和8种不同的预先计算的视频级别L+L10S. Kang等人特征： SpectrogramSIFT 、 SIFT 、 IDT-Traj 、 CNN 、 IDT-HOG 、 IDT-HOF、IDT-MBH和MFCC。在本文中，7种类型的预提取的特征（除Spec- trogramSIFT）用于评估建议的枢轴CorrNN。对于评价，使用平均精度（mAP）度量。YouTube-8 M[2]是最大的视频分类数据集，由大约700万个YouTube视频组成每个视频被注释一个或多个正标签。类别数量为4，716，每个视频的平均正面标签为3.4。训练、验证和测试的划分分别预定义为70%、20%和10%。此外，发布数据集是为了举办竞赛，不提供用于测试分割的地面实况标签。由于其巨大YouTube-8 M提供了两种类型的预提取特征，涵盖视觉和听觉模态。分别使用预训练的 Inception-V3[28] 和VGGish[14]提取视觉和听觉特征。为了测量预测的质量，在Kaggle竞争中使用前20名的全局平均精度（GAP），因此测试分割的性能仅在GAP中测量4.2实验细节整个模型使用Tensorflow[1]框架实现本文中报告的所有结果均使用Adam优化器[21]进行，小批量大小为128。我们使用的超参数如下。学习率设置为0.001，一阶矩和二阶矩的指数衰减率分别设置为0.9和0.999。对于cGRU和GRU中的稳定梯度下降过程，采用梯度裁剪，裁剪范数为1.0.对于损失函数，用于最大化主元相关性目标的平衡项λ1和用于2正则化的λ2被设置为0.001和3×10−7。所有实验均在CUDA加速下使用单个NVIDIA Titan Xp（12GB内存）GPU执行4.3FCVID的消融研究为了验证Pivot CorrNN各模块的有效性，我们对FCVID进行表. 1介绍了FCVID的消融研究。在该消融研究中，使用了两种模态输入：C3D[29]视觉和VGGish[14]听觉特征。基线模型的性能（无拟定模块）见表的第一行。1. 对于基线模型，C3D和VGGish特征被级联并馈送到标准GRU而不是cGRU中以产生模态不可知的枢轴隐藏状态。基线模型在mAP测量中显示66.86%然后，我们逐一应用所提出的模块将原始GRU替换为cGRU用于模态不可知的枢轴隐藏状态，将性能提高约0.7%，并且在mAP测量中达到67.57%在隐藏状态和预测的主元相关性最大化的情况下，该模型的性能分别达到66.68%和当最大化两者的相关性时观察到协同效应枢轴相关神经网络11地物名称C3D，VGGish+CNN、SIFT+IDT-HOF、IDT-HOG+IDT-MBH、IDT-Traj+MFCC特征类型帧级特征外观特征运动特征运动特征音频特征最大平均接入点（%）69.5475. 33七十六。58七十七。23七十七。60cGRU最大轴相关性自适应聚合最大平均接入点（%）透视隐藏状态轴心预测✓66.8667.57✓✓67.68✓✓68.02✓✓✓68.45✓✓✓✓69.54表1：FCVID上Pivot CorrNN的消融研究。可以看出，Pivot CorrNN的每个模块通过激活每个模块来优雅地提高性能。在这项研究中，C3D视觉和VGGish听觉功能。透视隐藏状态和预测。最后，使用所有提出的模块，Pivot CorrNN显示出69.54%的性能。所提出的模块的整体增益约为2.7%，并且所提出的模块中的每一个都优雅地提高了性能。4.4FCVID实验结果Pivot CorrNN的性能如表2所示，用于FCVID测试部分。在表2a中，列出了所提出的Pivot CorrNN与先前最先进算法的性能。除了rDNN之外，FCVID上的先前算法的性能没有报道他们的原始论文，我们参考了[18]的性能。所提出的枢轴CorrNN在FCVID的测试分区上实现了77.6%的mAP度量，并且与先前的最先进的结果相比，显示出1.6%的绝对mAP增益。(b)Pivot CorrNN(a) 性能比较表2：FCVID的测试分区的实验结果。(a)显示了Pivot CorrNN和之前算法的性能比较，以及（b）显示了特征消融结果关于性能增益的详细信息，对多种模态进行了消融实验，如表2b所示。具有帧级功能模型最大平均接入点（%）DMF[26]72.5DASD[17]72.8M-DBM[27]74.4SVM-MKL[22]75.2rDNN-F[8]75.412S. Kang等人类别αagg，1αagg，2跆拳道0.9810.019漂流0.9580.042冲浪0.940.06风筝冲浪0.9370.063游泳专业0.9150.085埃及金字塔0.9010.099骑马0.8950.105自行车技巧0.880.12韵律体操0.8670.133山0.8630.137火山爆发0.8580.142与狗同行0.8520.148玩FrisbeeWithDog0.8460.154类别αagg，1αagg，2长笛演奏0.0910.909钢琴性能0.1260.874小号性能0.1790.821harmonica性能0.1860.814唱歌在KTV0.2050.795大提琴演奏0.2160.784手风琴表演0.2390.761合唱0.3090.691萨克斯演奏0.3150.685beatbox0.3770.623公众发言0.4130.587小提琴演奏0.4150.585吉他演奏0.420.58仅Pivot CorrNN记录了69.54%mAP，并且添加不同类型的特征，性能适度地增加。添加外观、运动和音频，分别观察到6%、1.2%、0.7%和0.3%mAP增益增益说明每个特征中存在互补信息，但也存在一些冗余信息。在表3中，示出了自适应聚合模块中的多模态注意力权重的比较。在表中，按视觉注意力权重αagg，1和听觉注意力权重αagg，2的降序选择了十三个类别。在表3a中，所有类别都与操作相关或物体。在属于这些类别的视频中，听觉模态中的信息有限，无法从听觉信息中描述其上下文，大多数预测都是基于视觉模态。另一方面，表3b中列出的所有类别都是相关的音乐活动。视觉通道不能提供与其类别相关的信息，但听觉通道可以。(a) 按视觉模态排序（b）按听觉模态表3：对于每种模态图4示出了Pivot CorrNN的定性结果。对于每个视频样本，提取四个静止帧。相应的groundtruth类别和前三名的预测枢轴流和自适应聚合。前两个视频是从表3a的类别中采样的，并且剩余的两个视频是从表3b的类别中采样的。正确的预测是红色的，带有概率分数。最右边的条形图表示自适应聚集模块的多模态注意力权重。在本实验中，αagg，1和αagg，2分别用于视觉和听觉特征枢轴相关神经网络13图4：Pivot CorrNN的定性结果。我们展示了每个视频样本的地面实况类别，其中前三个枢轴和建议的枢轴CorrNN的最终预测。自适应聚合中的多模态注意力权重在最右侧示出。实验结果如图所示。4表明该模块有效地减少了上述示例的假阳性错误。通过增加正确预测的概率并减少假阳性预测来微调采样视频的预测在“冲浪”和“骑马”类别中，视觉模态的信息量被认为是听觉模态的2倍和10倍，而在“大提琴演奏”和“小提琴演奏”类别中，听觉模态的信息量被认为是听觉模态的2倍和10倍。对于地面实况类别为 “celloPerformance” 的采样视频，枢轴预测在“celloPerformance”上为37.8%，另一方面，“symphonyOrchestraFrom”具有更高的置信度。然而，自适应聚合模块将正确类别“celloPerformance”的概率微调为95.21%。从这些结果中，自适应聚集模块测量哪个模态预测更可靠，然后用主元和模态特定预测来细化最终预测。4.5YouTube-8 M上的实验结果为了在YouTube-8 M数据集上评估所提出的Pivot CorrNN，从视频和帧级特征两者进行为14S. Kang等人对于视频级特征，来自每个视频的所有帧级特征被平均成单个特征向量。在视频级特征中不存在cGRU不被应用于视频级特征的实验的顺序信息对于帧级特征，所有三个模块都应用于Pivot CorrNN。特征级模型差距（%）视频逻辑回归（Concat）76.79视频Pivot CorrNN（无cGRU）77.40帧双层LSTM（Concat）80.11帧Pivot CorrNN（带cGRU）81.61表4：YouTube-8 M数据集Pivot CorrNN与基线模型的性能比较见表4。逻辑回归用于模型内的所有分类器。在GAP度量中，分别观察到所提出的Pivot CorrNN 0.7%和1.5%在这些实验中，使用预提取的Inception-V3和VGGish特征，而不使用任何额外的特征编码算法，例如可学习的池化方法 [23] ，NetVLAD[5]等。使用高级特征编码算法作为额外的特征，我们相信提出的Pivot CorrNN将在YouTube-8 M上实现更好的性能。5结论本文考虑了一种用于多模态视频分类的枢轴相关神经网络（PivotCorrNN），通过最大化隐藏状态之间的相关性以及网络中模态不可知枢轴流和模态特定流的预测来实现Pivot CorrNN由三个模块组成：（1）最大化枢轴相关模块，其最大化隐藏状态之间的相关性以及网络中模态不可知枢轴流和模态特定流的预测，（2）上下文门控递归单元（cGRU）模块，其对模态之间的时变上下文信息进行建模，以及（3）自适应聚合模块，其在进行一个最终预测之前考虑每个模态的置信度。第我们在两个公开的大规模多模态视频分类数据集上评估了Pivot CorrNN：FCVID和YouTube-8 M。从实验结果来看，PivotCorrNN在FCVID数据库上实现了最佳性能，并且在YouTube-8 M数据库上的致谢。这项研究得到了Samsung Research的支持。枢轴相关神经网络15引用1. Abadi，M.，Barham，P.，陈杰，陈志，戴维斯，A.，迪恩J Devin，M.，Ghe-mawat，S.，Irving，G.Isard，M.，等：Tensorflow：一个大规模机器学习系统在：OSDI。第16卷，第2652. Abu-El-Haija，S.，Kothari，N.，李，J.，Natsev，P.，Toderici，G.，Varadarajan，B.，Vijayanarasimhan，S.：Youtube-8 m：大规模视频分类基准。arXiv预印本arXiv：1609.08675（2016）3. Andrew，G.，阿罗拉河Bilmes，J.，Livescu，K.：深度典型相关分析。国际机器学习会议（International Conference on Machine Learning）pp.第12474. Antol，S.，阿格拉瓦尔，A.，卢，J，Mitchell，M.Batra，D.，LawrenceZitnick，C.Parikh，D.：Vqa：可视化问答。IEEE计算机视觉国际会议论文集。pp. 24255. 阿兰杰洛维奇河Gronat，P.，Torii，A.，Pajdla，T.，Sivic，J.：Netvlad：弱监督位置识别的CNN架构。IEEE计算机视觉和模式识别会议论文集。pp. 52976. Ben-Younes，H. Cadene河Cord，M.，托米，N.：Mutan：用于视觉问答的多模态折叠融合。In：美国电气与电子工程师学会国际规程配置文件目视第三卷（2017）7. Chandar，S.，Khapra，M.M.，Larochelle，H. Ravindran，B.：相关神经网络神经计算28（2），2578. Chung，J. Gulcehre角周，K.，Bengio，Y.：门控递归神经网络对序列建模的经验评价。ArXiv预印本arXiv：1412.3555（2014）9. Donahue ， J. ，安妮 · 亨德里克斯 Guadarrama ， S. ， Rohrbach ， M. ，Venugopalan美国，Saenko，K.达雷尔，T.：用于视觉识别和描述的长期递归卷积网络。在：IEEE计算机视觉和模式识别会议论文集。pp. 262510. Feichtenhofer，C.，Pinz，A.，Wildes，R.：用于视频动作识别的时空残差网络。在：神经信息处理系统的进展。pp. 346811. Feichtenhofer，C.，Pinz，A.，Wildes，R.P.：用于视频动作识别的时空乘子网络。2017年IEEE计算机视觉和模式识别会议（CVPR）。pp. 7445-7454. IEEE（2017）12. Frome，A.，科罗拉多州科拉多Shlens，J.，Bengio，S.，迪恩J Mikolov，T.，等：Devise：一个深度视觉语义嵌入模型。在：神经信息处理系统的进展。pp. 212113. Fukui，A.，D.H.公园杨，D.，Rohrbach，A.，Darrell，T.，Rohrbach，M.：多模态紧凑双线性池的视觉问题回答和视觉接地。arXiv预印本arXiv：1606.01847（2016）14. Hershey，S.，Chaudhuri，S.，埃利斯，D.P.，Gemmeke，J.F. Jansen，A.，摩尔共和国Plakal，M.，Platt，D.，索罗斯，R.A.，Seybold，B.，等：用于大规模音频分类的Cnn结构。在：声学，语音和信号处理（ICASSP），2017年IEEE国际会议上。pp. 131-135. IEEE（2017）15. 霍特林，H.：两组变量之间的关系Biometrika28（3/4），32116. Huang，P.S.，他，X.，高，J.，邓湖Acero，A.，赫克，L.：使用点击数据学习网络搜索的深度结构化语义模型。在：第22届ACM信息知识管理国际会议的会议pp. 2333-2338. ACM（2013）16S. Kang等人17. Jiang，Y.G.，Dai，Q.，王杰，Ngo，C.W.，Xue，X.，中国科学院，Chang，S.F.：大规模基于上下文的图像和视频注释的快速语义扩散。IEEE Transactions on Image Processing21（6），308018. Jiang，Y.G.，吴志，王杰，Xue，X.，中国科学院，Chang，S.F.：利用正则化深度神经网络在视频分类中利用特征和类别关系。IEEE Transactionson Pattern Analysis and Machine Intelligence40（2），35219. Karpathy，A.，Toderici，G.，Shetty，S.，Leung，T.，Sukthankar河李菲菲：用卷积神经网络进行大规模视频分类。在：IEEE计算机视觉和模式识别会议论文集。pp. 第172520. Kim，J.H.，恩，K.W.，Lim，W.，金，J.，J.W. Zhang，B.T.：低秩双线性池的Hadamard乘积。arXiv预印本arXiv：1610.04325（2016）21. 金玛，D.P.，Ba，J.：Adam：随机最佳化的方法arXiv预印本arXiv：1412.6980（2014）22. Kloft，M.，布雷菲尔德大学，Sonnenburg，S.，Zien，A.：Lp范数多核学习Journal of Machine Learning Research12（Mar），95323. Miech，A.，拉普捷夫岛Sivic，J.：用于视频分类的具有上下文门控的可学习池。arXiv预印本arXiv：1706.06905（2017）24. Ngiam，J.，Khosla，A. Kim，M.，南，J.，李，H.，Ng，A.Y.：多模态深度学习。第28届机器学习国际会议（ICML-11）论文集。pp. 68925. 西蒙尼扬，K.，齐瑟曼，A.：双流卷积网络用于视频中的动作识别。在：神经信息处理系统的进展。pp.第56826. Smith，J.R. Naphade，M.，Natsev，A.：使用模型向量的多媒体语义索引。2003年：多媒体与博览会03年ICME。诉讼 2003年国际会议。第2卷，第II-445 IEEE（2003年）27. Srivastava，N.，Salakhutdinov，R.R.：利用深度玻尔兹曼机进行多模态学习。在：神经信息处理系统的进展pp. 第2222-2230号决议（2012年）28. 塞格迪角Vanhoucke，V.，Ioffe，S.，Shlens，J.，Wojna，Z.：重新思考计算机视觉的接收架构。在：IEEE计算机视觉和模式识别会议论文集。pp.281829. Tran，D.，Bourdev，L.费格斯河托雷萨尼湖Paluri，M.：用三维卷积网络学习时空特征。收录于：IEEE国际计算机视觉会议论文集. pp. 448930. 王伟，阿罗拉河Livescu，K.，Bilmes，J.：深度多视图表示学习。国际机器学习会议（International Conferenceonpp. 108331. 王玉，Long，M.，王杰，Philip，S.Y.：基于时空金字塔网络在：CVPR中。第6卷，第7页（2017年）32. Weston，J.，Bengio，S.，Usunier，N.：Wsabie：扩展到大词汇图像注释。在：IJCAI.第11卷，第11页。2764

下载后可阅读完整内容，剩余1页未读，立即下载