基于交叉引导注意网络的演员和动作视频分割

195 浏览量更新于2023-10-12 收藏 962KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

3939基于非对称交叉引导注意网络的自然语言查询中演员和动作王昊1、邓成1、2、严俊池3、陶大成41西安电子科技大学电子工程学院西安2腾讯人工智能实验室，深圳，中国3上海交通大学计算机工程系、MoE智能重点实验室4UBTECH Sydney AI Centre，School of Computer Science，FEIT，悉尼大学，澳大利亚{haowang.xidian，chdeng.xd}@ gmail.com，yanjunchi@sjtu.edu.cn，dacheng. sydney.edu.au摘要基于自然语言查询的演员和动作视频分割旨在基于输入的文本描述有选择地分割视频中以往的工作主要集中在通过动态卷积或全卷积分类来学习视觉和语言两个异质特征之间的简单相关性然而，它们忽略了自然语言查询的语言变化，并且难以对全局视觉上下文建模，从而导致分割性能不理想。为了解决这些问题，我们提出了一个非对称的交叉引导注意力网络的演员和动作视频分割从自然语言查询。具体而言，我们构建了一个非对称的交叉引导注意网络，该网络由视觉引导语言注意和语言引导视觉注意组成，前者用于减少输入查询的语言变异，后者用于同时整合以查询为中心的此外，我们采用多分辨率融合方案和加权损失的前景和背景像素，以获得进一步的性能改善。在Actor-Action数据集句子和J-HMDB句子上的大量实验表明，我们提出的方法明显优于最先进的方法。1. 介绍近年来，随着视频数据的爆炸式增长，视频理解在计算机视觉领域引起了越来越多的关注。然而，传统的研究强调视频分类[23，27，29]，动作识别和定位[35，36，37，38，40]。它们都缺乏对视频内容的细粒度分析，例如对演员及其动作的像素级联合理解*通讯作者女子空翻一个男人在黑暗中站在摄像机附近图1.基于输入的自然语言查询，演员和动作视频分割旨在在给定视频中生成逐像素的分割掩码彩色面具对应于视频顶部相同颜色的句子。其在人机交互和自动驾驶中起着至关重要的作用试图了解演员和行动目前在视频中，Gavrilyuk等人。[6]介绍了一个具有挑战性的任务，从自然语言查询中分割演员和动作视频，如图1所示。最近，许多方法[7，8，16，22，39]已被用于从自然语言查询进行语义分割或对象定位。这些方法可以大致分为两类。在第一类中，利用动态卷积自适应地分割或定位对象，其中生成的动态卷积滤波器随输入的自然语言查询而变化。然而，输入文本描述的语言变化会严重影响句子表示，并随后使动态卷积滤波器不稳定，导致不准确的分割或定位。例如，“蓝色汽车停在草地上”和“蓝色汽车站在草地上”具有相同的含义，但生成的过滤器不同，导致性能不令人第二，视觉和语言3940首先将模态连接起来，然后通过全卷积网络将其用于不幸的是，它们无法对全局视觉上下文进行此外，查询关注的像素应致力于上下文建模，以促进视觉信息和语言描述之间的相关性。例如，为了分割“椅子上的本文提出了一种新的非对称交叉引导注意力网络来处理自然语言查询中的演员和动作该网络在结构上是不对称的，由两个并行的atten- tion模块组成：视觉引导语言注意模块和语言引导视觉注意模块。具体而言，针对自然语言查询的语言变异，设计了视觉引导的语言注意模块，以获得更鲁棒的句子表示，减少了噪声词的干扰，提高了视觉像素与文本描述之间的相关性此外，为了将全局视觉上下文用于分割，我们精心设计了一个语言引导的视觉注意模块来聚集以查询为中心的视觉上下文，从而获得更好的分割性能。此外，我们利用多分辨率融合的各种粒度的分割掩模和加权损失的前景和背景像素，以实现额外的性能改善。本工作的主要贡献如下：我们构建了一个非对称的交叉引导注意网络，同时减少语言变异并结合以查询为中心的全局视觉上下文，以实现更有效的演员和动作视频分割;我们设计了一种简单有效的多分辨率融合算法，并引入了一种加权损失法，该算法在计算量很小的情况下提高了分割性能;两个流行的视频分割数据集上的实验结果表明，我们提出的方法显着优于国家的最先进的方法。2. 相关工作2.1. 演员和动作分割为了全面的行动理解，Xuet al. [31]收集和标注了固定演员和动作对的演员-动作数据集（A2 D），并介绍了演员和动作视频分割的挑战任务。防爆方法主要分为两类：基于超体素特征的方法和基于深刻的特征在第一类中，Xuet al. [31]提出了一种三层方法来模拟单独的行动者和行动节点与行动者-行动产品节点的相互作用。Xu和Corso [30]提出了一种分组过程，以鼓励视频部分的自适应和长期交互。Yan等人[34]利用鲁棒的多任务排序模型来处理弱监督的演员和动作分割。在第二类中，Kalogeitonet al. [10]利用深度特征联合学习视频中的对象及其动作的检测器，然后通过现有的分割方法得到分割结果。最近，Gavri-lyuket al.[6]扩展了A2D与人类注释的句子，并介绍了具有挑战性的任务，演员和动作视频分割从自然语言查询。他们采用动态卷积，其中过滤器自适应地随不同的输入文本描述而变化。然而，他们不仅忽略了文本描述的语言变化，而且只处理每个像素，而不考虑上下文信息。与上述工作不同的是，我们提出的非对称交叉引导注意力网络使视觉和语言特征相互学习，从而获得更好的分割性能。2.2. 从一句话看行动者和动作的定位根据他们所关注的任务，现有的从句子中定位演员和动作的方法可以分为两类：从句子中定位演员和从句子中定位动作。在第一类中，Liet al.[15]介绍了一个有趣的任务，即用自然语言描述进行个人搜索，并提出了一个具有门控神经注意机制的递归神经网络来计算单词-图像亲和力。Yamaguchi等人[33]提取候选管状体，并进行文本特征与管状体特征的相关性计算，用于时空人物检索。在第二类中，Gaoet al. [5]提出了一种多模态处理网络，用于通过语言查询生成用于时间活动定位的对齐分数和位置偏移。Hendricks等人[1]集成了本地和全局视频功能，可以使用自然语言对视频中的时刻进行本地化。代替在人类演员或执行动作周围生成边界框，我们更喜欢从自然语言查询中进行像素级演员和动作视频分割，以进一步理解视频内容。2.3. 注意机制为了模仿人类视觉的工作方式，注意力机制已被用于许多领域，如自然语言处理[26]、视觉问答[18]、图像标题[32]和视频分类[28]。根据网络结构的不同，这些方法可以分为两类：基于自我注意的方法和基于共同注意的方法。自我注意机制···3941注意网络Word2Vector非对称交叉引导多模态特征编码器多分辨率特征解码器图2.我们提出的非对称交叉引导注意网络，它由多模态特征编码器，非对称交叉引导注意网络和多分辨率特征解码器组成。在提取视频和文本特征之后，模型学习视觉像素的最相关的语言特征，例如，“black dog walking” for the dog, and incorporatesquery-focused context, 精确描述的“狗”的像素。最后，我们将加权的视觉和语言特征连接起来进行分割。[26首先将特征转化为查询、关键和值特征，然后通过内积计算查询和关键特征之间的自注意矩阵。归一化后，在自注意矩阵的基础上对原始特征进行加权求和得到最终特征与自我注意相比，共同注意机制显式地计算了两种不同模态之间的交互。然后，基于共同注意矩阵，将每种模态的特征聚合同样，MRN [12]以残差方式学习[24]通过对称的残余融合和单向注意力来扩展它。我们的模型提供了一种新的非对称交叉引导注意机制，它包括视觉引导语言注意（即，共同注意力）以减少语言变化和语言引导的视觉注意力（即，门控的自我注意力）来聚集以查询为中心的全局视觉上下文。3. 该方法给定一个视频和一个相应的自然语言查询，我们的方法是分割演员和它的动作在视频中所提到的查询。在本文中，我们提出了一种新的非对称交叉引导注意网络，站性能我们的方法的架构如图2所示，其由三个组件组成：多模态特征编码器、非对称交叉引导注意网络和多分辨率特征解码器。3.1. 多模态特征编码器为了提取用于分割的多模态特征，我们在下面介绍了文本编码器和视频编码器我们首先通过使用在Google News Dataset [20]上预训练的word2vec模型来获得词向量，而不是从头开始训练词嵌入模型。它不仅可以简化自然语言模型的训练过程，而且有助于利用不同数据集之间描述的相似性。然后，文本描述的时间信息由一个简单而有效的1D卷积神经网络[13]捕获，而不是像[7，16]中那样的长短期记忆网络。具体地说，每个词被编码为一个300维的词向量，然后输入的句子是由individual词表示。随后，在输入句子矩阵上使用具有非线性激活的单个1D卷积层。我们将句子矩阵表示为S∈RNT×DT，其中NT是数据集中单词的最大长度，DT是单词vec的特征维数托尔因此，文本编码器可以公式化为：同时减少了自然语言查询的语言变化，并结合了以查询为中心的全局vi。FT= EncT （S;θT）），（1）super上下文，实现对segmen的显著改善-其中EncT 是使用θT参数化的文本编码器，语言引导视觉注意力黑狗行走和一个女人FCN上采样FCN上采样FCN黑狗与女人黑狗行走和一个女人串联C视觉引导语言注意力FCNCNNi3D3942∈∈不不值原创视频关键Softmax查询加权视频特征最大池化注意力矩阵重复加权语言特征原文特色注意力矩阵Softmax图3.提出的非对称交叉引导注意网络由共同注意机制实现的视觉引导语言注意模块和门控自注意机制实现的语言引导视觉注意模块组成nism其中，“”表示元素乘法，而“”表示内部产生。F TRNT×DT是提取的句子表示。为了同时编码演员的外观信息和其相应动作的运动信息，我们采用3D卷积神经网络来学习视频表示。与2D卷积神经网络不同，Tranet al.[25]提出了C3D网络，并证明了3D卷积和池化在视频处理中的有效性。为了更好地利用视频的时空特性，Carreira和Zisserman [2]提出了Inflated 3D ConvNet（I3D），并在人类动作识别方面实现了最先进的性能。在这里，采用在Im-ageNet [4]和Kinetics [2]数据集上预训练的I3D模型进行视频特征提取。我们将一个视频片段输入到I3D模型中，并在maxpool3d 5a层之前提取中间输出然后对每个像素进行时间平均池化和L2归一化，得到剪辑特征给定输入视频VR3×NV×HV×WV，视频编码器可以公式化为：FV=L2（平均值（EncV（V;θV），（2）其中EncV代表用θV参数化的预训练I3D模型的部分，Avg和L2代表时间平均池化和L2归一化。NV、HV和WV分别表示输入帧的帧号、高度和宽度。为了识别像“bottom”或“in the middle”这样的词将特征 C∈RHF×WF×DC 与视频片段特征FV∈RHF×WF×DF沿通道维度进行匹配。这里，HF、WF、DF和DC表示高度、宽度、尺寸。提取的视频特征图的大小和空间坐标特征的维数。3.2. 非对称交叉引导注意网络如[7，19]中所提出的，沿通道维度连接连接以执行分割。然而，它们忽略了文本描述的语言变化，只处理每个像素而不考虑上下文信息。为了解决这些问题，我们提出了一种新的非对称交叉引导注意网络，该网络由视觉引导语言注意模块和语言引导视觉注意模块组成，前者用于减少输入查询的语言变化，后者用于聚合以查询为中心的全局视觉上下文。非对称交叉制导atten- tion网络的架构如图3所示。视觉引导的语言注意力模块捕获视觉和语言模态之间的逐像素交互，然后利用计算出的共同注意力矩阵，随后进行归一化，以计算原始语言特征的加权和。具有空间信息的视频特征，表示为FVC，首先与具有与语言特征相同维度的特征对齐，FVC→T=线性（FVC），（3）其中FVC→T是对齐的特征，线性代表完全连接的层。通过共同注意、归一化和加权求和，我们可以将视觉引导语言注意的过程表述为：. FV C→TFF TA= softmaxDF T.（四）然后将加权后的语言特征与视觉特征沿通道维度进行连接。这意味着，对于视觉特征图的每个像素，大多数相关的文本特征被学习，这显著地减少了语言变化并提高了分割性能。最近，自注意机制被提出来捕获长距离依赖性，并在自然语言处理[26]和视频分类[28]中取得了良好的结果。然而，原生自我注意仅利用模态内信息来估计像素到像素的重要性，即，聚合全局上下文信息。受不同像素之间的关系应根据输入的自然语言查询进行不同加权的想法的启发，我们设计了一个语言引导的视觉注意模块，将查询为重点的全球视觉上下文。首先，我们对文本特征进行时间最大池化和空间分块，使其与视觉特征具有相同的维度，可以定义为F T→VC= Linear（Repeat（Max（F T）.（五）然后具有空间信息的视频特征（即，FVC）通过单个全连接层转换为查询、键和值特征，FVCQ= Linear（FVC），在对视频和自然语言查询进行特征提取后，FVCK=线性（FVC），FVCV=线性（FVC），（六）3943⊙∈{}L√1其中，FVCQ、FVCK和FVCV分别是查询、键和值特征为了引入自然语言描述的条件信息，通过对原始查询和关键特征与文本信息进行门控，得到动态查询特征和动态关键特征，F<$VCQ=F VCQ <$FT→ VC，其中RS、RM和RL分别是小、中和大分辨率分割响应。Interp表示双线性插值操作，FCN表示全卷积网络。此外，我们详细阐述了一种多分辨率融合方案，以利用不同粒度的分割响应，并获得最终响应，FVCK =FV CK VT→V C（七）、R L= FCN（[Interp（R S），Interp（R M），RL]）。（十二）其中是逐元素乘法。最后，语言引导的视觉注意可以描述为：总之，多分辨率特征解码器可以表示为.ΣFVCQFS M LFVA= softmaxV CKDVFVCV.（八）R，R，R= Dec（FVA，C，FTA;θD），（13）它可以增强与自然语言查询相关的区域的像素之间的相关性，从而通过结合以查询为中心的全局视觉上下文来更好地分割。为了简化描述，我们将非对称交叉引导注意网络定义为FTA，FVA= Att（FVC，FT;θAtt），（9）其中Att是用θAtt参数化的注意力网络。它是用神经网络中的标准组件实现的，因此可以无缝地集成到其他任务中，如视觉问答和短语引用。3.3. 多分辨率特征解码器为了获得具有相同分辨率的最终分割结果其中Dec表示用θD参数化的特征解码器。与静态插值的分割重-因此，特征图上的可训练反卷积将使模型利用更准确的分割结果。此外，多分辨率结构不仅可以利用各种粒度信息进行分割，而且可以提供足够的梯度，以便更好地训练整个模型3.4. 训练和推理我们提出的方法将视频剪辑V、自然语言查询S和二进制地面实况分割掩码Y作为输入，并生成与文本匹配相关的选择性分割掩码。对于每个分辨率r S，M，L，响应Rr和地面实况Yr之间的分割损失r计算为HrWrΣ ΣR r r分辨率作为输入视频，我们采用多分辨率（即，32×32、128×128和512×512）具有解码器，L=HrWri=1j =1n（Rij，Yij），（14）以渐进的方式对特征图进行上采样我们...将加权的语言特征FTA、加权的视频特征FVA和空间特征C沿通道维度串联起来，然后通过全卷积网络进行分割。中分辨率视频特征和大分辨率视频特征分别表示为FM和FL。我们-其中，R1是加权二进制交叉熵，并且Hr和Wr是地面实况掩码Yr，re-R2的高度和宽度。给定前景像素的系数P，加权损失可以用公式表示为R r r rV V把它们模拟成<$（Rij，Yij）=−PYijlog（σ（Rij））R r（十五）FM= Deconv（FVA），V（10）FL= Deconv（FM），-（1−Yij）log（1−σ（Rij）），其中σ是sigmoid函数。中间地带-V V真值YS和YM是通过双线性内插获得的其中，Deconv代表解卷积网络，由一个解卷积层和一个后续卷积层组成。YL.最后，我们提出的方法的损失可以公式化为功能层多分辨率分割响应是ob-L=λ1L+λ2L+λ3L 、（十六）保留为RS= FCN（[FVA，C，FTA]），SML3944VVRM= FCN（[FM，Interp（C），Interp（FTA）]），RL= FCN（[FL，Interp（C），Interp（FTA）]），（十一）其中λ1、λ2和λ3是不同分辨率的权重在推理过程中，当一个像素的响应值大于响应图中最大值的50%时，应该注意的是，我们将最终遮罩映射回其原始帧大小以进行评估。3945表1. A2D句子的分割结果。以“*”标记的方法在A2D句子上进行了微调。我们提出的模型显着优于国家的最先进的，即使只需要多个RGB帧作为输入。方法重叠地图IOUP@0.5P@0.6P@0.7P@0.8P@0.90.5：0.95整体是说Hu等人[七]《中国日报》7.73.90.80.00.02.021.312.8Li等[16个]10.86.22.00.30.03.324.814.4Hu等人[7]* *34.823.613.33.30.113.247.435.0Li等[16]* *38.729.017.56.60.116.351.535.4Gavrilyuk等人[6]（RGB）47.534.721.18.00.219.853.642.1Gavrilyuk等人[6]（RGB +Flow）50.037.623.19.40.421.555.142.6我们的（RGB）55.745.931.916.02.027.460.149.0表2.我们使用在A2 D句子上训练的最佳模型来评估J-HMDB句子的泛化能力方法重叠地图IOUP@0.5P@0.6P@0.7P@0.8P@0.90.5：0.95整体是说Hu等人[七]《中国日报》63.335.08.50.20.017.854.652.8Li等[16个]57.833.510.30.60.017.352.949.1Gavrilyuk等人[6]（RGB +Flow）69.946.017.31.40.023.354.154.2我们的（RGB）75.656.428.73.40.028.957.658.4表3.消融研究的A2D句子分割结果多分辨率融合、加权二进制交叉熵和注意力模型分别简称为方法重叠地图IOUP@0.5P@0.6P@0.7P@0.8P@0.90.5：0.95整体是说Gavrilyuk等人[6]（RGB）Gavrilyuk等人[6]（RGB + Flow）47.550.034.737.621.123.18.09.40.20.419.821.553.655.142.142.6基线（RGB）48.936.121.89.20.320.652.844.1基线+ MRF（RGB）50.138.426.213.01.123.157.745.5基线+ MRF + WBCE（RGB）53.543.429.713.71.425.557.447.5基线+MRF + WBCE + ATT（RGB）55.745.931.916.02.027.460.149.04. 实验4.1. 数据集和评价标准A2 D句子是Gavrilyuk等人在演员-动作数据集（A2D）上扩展的。[6]通过为每个视频提供文本描述。它包含从YouTube收集的3，782个视频，包括由7个演员类执行的8个动作类每个视频有3到5帧，具有密集的像素级演员和动作注释，用于评估分割性能。此外，它包含6，655个句子来描述视频中呈现的演员和他们的动作。在[6]之后，我们将数据集分为3，017个训练视频，737个测试视频和28个未标记的视频。J-HMDB Sentences包含928个视频和相应的928个句子，在J-HMDB数据集上扩展注释包括用于密集分割标记的2D铰接人木偶面具和用于描述对象是什么动作的自然语言查询在每个视频中。我们通过使用Intersection-over-Union（IoU）和精度的标准来评估我们提出的方法。具体而言，总体IoU计算所有测试样本的总交叉面积除以总联合面积的比值，这显然有利于大的参与者和对象。平均IoU通过平等对待不同大小的样本来计算所有测试样本的平均IoU。precision@K报告IoU分数高于阈值K的测试样本的百分比。我们在5个不同的IoU阈值下测量精度，平均精度超过0.50：0.05：0.95 [17]。4.2. 实现细节根据[6]，多模态特征编码器采用预训练的I3D模型来提取视频片段特征，并采用预训练的word2vector模3946型来将句子转换为向量矩阵。单词的最大长度设置为20，3947×××一个女孩在地上打滚穿绿衬衫的男人站着一个穿黄色衬衫的男人跳过一个男人宝宝在走廊里爬右边的狗在爬左边的狗在图4.A2D句子的定性结果第一行显示输入视频的帧第二行说明了[6]的分割结果，第三行是我们方法的分割输出它们都是在RGB帧上训练的，以进行公平的比较。彩色面具对应于每个视频顶部相同颜色的句子一些重叠是颜色的混合特征尺寸为300。我们只在A2D句子上微调视频编码器的maxpool3d 5a层之前的最后一个起始块。去卷积网络中的FCN由三个完全卷积层组成，其中前两层的内核大小为3 3，其余层的内核大小为1 1。对于多分辨率融合中的FCN，只有一个完全卷积层，内核大小为3×3。本文的所有实验都是用Py-Torch软件包实现的.我们使用Adam [14]优化器，学习率为5 10−4。批量大小和最大训练时期数分别为4和12学习速率每8个时期除以10。减肥在所有实验中，λ1、λ2和λ3的值将前景像素的加权二进制交叉熵损失的系数设置为1.5。对于我们所提出的方法，我们只取16个RGB帧作为视频输入。用地面实况遮罩注释的帧位于视频剪辑的中间。4.3. 与现有技术方法的我们展示了与一种方法相比，从自然语言查询中[6]相同的任务和两种方法[7，16]的图像分割从表1中的句子有两3948小爬行狗海鸥站中间保龄球保持正确图5.在每个图像上方以单词作为输入的关注区域上的可视化。为以前的工作培训设置[7，16]。在第一个设置中，它们仅在ReferIt数据集[11]上进行训练，而没有对A2D句子进行任何微调，其结果显示在前两行中。在第二种设置中，我们在A2D句子的训练样本上对模型进行微调，并用“*”标记方法。我们观察到，在A2D句子上微调的相同方法显著提高了分割性能，这表明特定于视频的视频特征在像素级语义分割中起着至关重要的作用。我们提出的方法在更高的IoU阈值下实现了显著的改进，例如精度度量此外，与最新技术水平相比，我们在总体IoU、平均IoU和mAP方面分别带来了5.0%、6.4%和5.9%的绝对改善应该注意的是，我们提出的方法仅将RGB帧作为视频输入而不使用任何附加信息（即，如在[6]中从广告帧计算的光流此外，A2D句子的定性结果见图4。我们观察到，我们的方法可以产生比[6]更细粒度和分离的掩模。具体来说，我们的模型可以生成演员或对象的细粒度分割，第一个视频中女孩的手该模型可以处理背景干扰，第二个视频中的“绿色主”。此外，我们的模型可以为空间限定符生成更好的响应，在第三个视频中。在图5中，我们还提供了单个单词的注意区域的可视化，我们发现，该模型可以学习名词、动词、空间限定词与其对应的视觉部分之间的相关性。为了进一步评估我们提出的方法的泛化能力，我们使用在A2 D句子上预训练的模型在评估过程中，我们按照指示对每个测试视频的3帧进行[6]。分割结果见表2。尽管在大多数度量上获得了明显的改进，但在阈值处，我们仍然获得较差的精度性能。0.9.我们猜测在A2 D句子上训练的视频编码器不能在J-HMDB句子上没有任何微调的情况下更详细的分析将列入补充材料。4.4.消融研究为了验证我们提出的方法中每个组件的有效性，我们进行了消融研究，其结果如表3所示。Baseline仅用全卷积网络代替动态卷积来建模级联异构特征的复杂映射。当使用RGB帧作为视频输入时，它显然击败了最先进的方法[6]在大多数情况下，在不同的指标。Baseline+MRF通过融合多分辨率分割响应，大幅提高了分割性能。它反映了融合不同粒度的结果进行最终分割的巨大潜力。基线+MRF+WBCE在总体IoU上实现了类似的性能，但与基线+MRF相比，平均IoU的性能更高，这意味着加权损失有利于分割出更多的前景像素。Baseline+MRF+WBCE+ATT在所有指标上都得到了显著的改善，这表明非对称交叉引导注意网络可以显著减少语言变异，并融入以查询为中心的全局视觉语境。5. 结论在本文中，我们提出了一个非对称的交叉引导注意网络来处理自然语言查询的语言变化，它也结合了以查询为中心的全局视觉上下文。我们的方法实现了无表的分割性能的改善。它可以无缝集成到其他任务中，例如视觉问答和短语引用。未来，我们应该在分割模型的泛化能力上投入更多的精力，以更深入地了解其内在机制。6. 确认我们的工作得到了国家自然科学基金项目61572388和61703327的资助，重点研发项目-陕西省重点产业链项目2017 ZDCXL-GY- 05-04-02，2017 ZDCXL-GY-05-02和2018 ZDXM-GY-2018的176 、中国国家重点研发计划资助项目 2017 YFE0104100、ARC FL-170100117、DP- 180103424。3949引用[1] Lisa Anne Hendricks 、 Oliver Wang 、 Eli Shechtman 、Josef Sivic、Trevor Darrell和Bryan Russell。使用自然语言对视频中的时刻进行本地化在ICCV，第5803[2] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在CVPR中，第6299-6308页[3] 陈哲，黄少立，陶大成。用于对象检测的上下文细化。在ECCV，第74-89页[4] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，第248-255页[5] Jiyang Gao ， Chen Sun ， Zhenheng Yang ， and RamNevatia. Tall ：通过语言查询的时间活动定位。在ICCV，第5267-5275页[6] Kirill Gavrilyuk ， Amir Ghodrati ， Zhenyang Li ， andCees GM Snoek.从句子中分割出演员和动作视频在CVPR中，第5958-5966页[7] 胡荣航马库斯·罗尔巴赫和特雷弗·达雷尔。从自然语言表达中分割。在ECCV，第108-124页[8] Ronghang Hu ， Huazhe Xu ， Marcus Rohrbach ， JiashiFeng，Kate Saenko，and Trevor Darrell.自然语言对象检索。在CVPR，第4555-4564页[9] Hueihan Jhuang ， Juergen Gall ， Silvia Zuffi ， CordeliaSchmid，and Michael J Black.对行动识别的理解。在ICCV，第3192-3199页[10] Vicky Kalogeiton，Philippe Weinzaepfel，Vittorio Ferrari和Cordelia Schmid。物体和动作检测器的联合学习。在ICCV，第4163-4172页[11] Sahar Kazemzadeh ， Vicente Ordonez ， Mark Matten ，and Tamara Berg.推荐游戏：指的是自然场景的照片中的物体。在EMNLP，第787[12] Jin-Hwa Kim、Sang-Woo Lee、Donghyun Kwak、Min-Oh Heo 、 Jeonghee Kim 、 Jung-Woo Ha 和 Byoung-TakZhang。多模态残差学习在视觉品质分析中的应用。在NeurIPS，第361-369页[13] 金允。用于句子分类的卷积神经网络 arXiv ：1408.5882，2014年。[14] Diederik P Kingma和Jimmy Ba。亚当：随机优化的一种方法。arXiv：1412.6980，2014。[15] Shuang Li，Tong Xiao，Hongsheng Li，Bolei Zhou，Dayu Yue，and Xiaogang Wang.使用自然语言描述进行人员搜索。在CVPR中，第1970-1979页[16] Zhenyang Li ， Ran Tao ， Efstratios Gavves ， Cees GMSnoek，and Arnold WM Smeulders.通过自然语言规范进行跟踪。在CVPR中，第6495-6503页[17] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：在上下文中常见的对象。在ECCV，第740-755页[18] Jiasen Lu，Jianwei Yang，Dhruv Batra，and Devi Parikh.用于视觉问答的分层问题图像共注意。在NeurIPS，第289-297页3950[19] Bruce McIntosh，，Kevin Duarte，Yogesh S Rawat，and Mubarak Shah.基于自然语言查询的演员和动作视频分割的多模式胶囊路由。arXiv：1812.00303，2018年。[20] Tomas Mikolov 、 Ilya Sutskever 、 Kai Chen 、 Greg SCorrado和Jeff Dean。单词和短语的分布式表示及其组合性。在NeurIPS，第3111[21] Chao Peng ， Xiangyu Zhang ， Gang Yu ， GuimingLuo，and Jian Sun.大核在CVPR中，第4353[22] Hengcan Shi ， Hongliang Li ， Fanman Meng ， andQingbo Wu.关键词感知网络用于参考表情图像分割。在ECCV中，第38-54页[23] Karen Simonyan和Andrew Zisserman双流卷积网络用于视频中的动作识别。在NeurIPS，第568-576页[24] 田亚鹏，石静，李博辰，段志尧，徐振良.无约束视频中的视听事件定位。在ECCV，第247-263页[25] Du Tran ， Lubomir Bourdev ， Rob Fergus ， LorenzoTorre- sani，and Manohar Paluri.用3d卷积网络学习时空特征。在ICCV，第4489[26] Ashish Vaswani，Noam Shazeer，Niki Parmar，JakobUszko-reit ， Llion Jones ， Aidan N Gomez ， ukaszKaiser，and Illia Polosukhin.注意力是你所需要的。NeurIPS，第5998-6008页，2017年[27] Limin Wang ， Yuanjun Xiong ， Zheng Wang ， YuQiao，Dahua Lin，Xiaoou Tang，and Luc Van Gool.时间段网络：深入行动识别的良好实践。在ECCV，第20-36页[28] 王晓龙，Ross Girshick，Abhinav Gupta，和KaimingHe.非局部神经网络。在CVPR中，第7794- 7803页[29] 谢德，邓成，王浩，李超，陶大鹏。基于多尺度金字塔的语义对抗网络视频分类。在AAAI，第9030-9037页，2019年。[30] Chenliang Xu和Jason J Corso.基于分组过程模型的演员-动作语义在CVPR中，第3083-3092页[31] Chenliang Xu，Shao-Hang Hsieh，Caiming Xiong，andJa- son J Corso.人类能飞吗？多类参与者的行动理解。在CVPR中，第2264[32] Kelvin Xu、Jimmy Ba、Ryan Kiros、Kyunghyun Cho、Aaron Courville、Ruslan Salakhudinov、Rich Zemel和Yoshua Bengio。显示、出席和讲述：具有视觉注意的神经图像字幕生成。在ICML，第2048-2057页，2015中。[33] Masataka Yamaguchi、Kuniaki Saito、Yoshitaka Ushiku和Tatsuya Harada。基于自然语言查询的时空人物检索在ICCV，第1453-1462页[34] Yan Yan ， Chenliang Xu ， Dawen Cai ， and Jason JCorso.通过鲁棒多任务排序的弱监督演员动作分割。在CVPR中，第1298-1307页3951[35] Yanhua Yang，Cheng Deng，Shangqian Gao，Wei Liu，Dapeng Tao，and Xinbo Gao.判别式多范例多任务学习于三维动作辨识。IEEE Trans. Multimedia，19（3）：519[36] Yanhua Yang ， Cheng Deng ， Dapeng Tao ， ShaotingZhang，Wei Liu，and Xinbo Gao.隐式最大容限多任务学习与3-d动作识别。 IEEE Trans. Cybern. ，47（2）：439[37] Yanhua Yang，Ruishan Liu ，Cheng Deng，and XinboGao.基于超范畴探索的多任务人体动作识别。IEEETrans.Signal Process. ，124：36[38] Zhenheng Yang，Jiyang Gao，and Ram Nevatia.具有级联建议和位置预测的时空动作检测arXiv：1708.00042，2017年。[39] Licheng Yu，Zhe Lin，Xiaohui Shen，Jimei Yang，XinLu，Mohit Bansal，and Tamara L Berg. Mattnet：指涉表达理解的模块化注意网络。在CVPR中，第1307-1315页[40] 赵岳，熊元军，王利民，吴志荣，唐晓鸥，林大华.结构化分段网络的时间动作检测。在ICCV，第2914-2923页，2017年。

下载后可阅读完整内容，剩余1页未读，立即下载