UMT：一种统一的多模态变换器用于联合视频矩检索和高光检测问题

200 浏览量更新于2023-10-25 收藏 2.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3042(No查询）问题1：一个人剪照片视频（输UMT音频（输UMT：用于联合视频矩检索和高光检测的刘烨1李思远2杨武2陈昌文1，4应珊2戚晓虎31香港理工大学2腾讯盈科ARC实验室3腾讯盈科4鹏程实验室csyeliu@comp.polyu.edu.hk，changwen. polyu.edu.hk{思源里，dylanywu，yingshan，tigerqie} @ tencent.com问题2：一只有斑点的白色猫正在玩羽毛玩具图1.所提出的UMT是一个统一而灵活的框架，它可以处理不同的输入模态组合，并输出视频时刻检索和/或高光检测结果（分别用红色矩形和金色星星请注意，不同的文本查询会导致同一视频的不同结果。不同颜色的箭头表示不同的输入-输出组合。摘要在当前视频内容爆炸时代，根据自然语言查询在视频中找到相关时刻和亮点是一种自然且然而，联合进行时刻检索和亮点检测是一个新兴的研究课题，即使其组成部分的问题和一些相关的任务已经研究了一段时间。在本文中，我们提出了第一个统一的框架，命名为统一多模态变换器（UMT），能够实现这种联合优化，同时也可以很容易地退化为解决个别问题。据我们所知，这是第一个将多模态（视觉-音频）学习集成到联合优化或个体矩检索任务中的方案，并将矩检索作为关键点*通讯作者。检测问题，使用一种新的查询生成器和查询解码器。与现有方法和QVHighlights、Charades-STA、YouTubeHighlights和TVSum数据集上的消融研究的广泛比较证明了所提出的方法在各种设置下的有效性、优越性和灵活性源代码和预训练模型可在https://github.com/TencentARC/UMT上获得。1. 介绍视频已经成为我们日常生活中内容生产、分发和消费它具有独特的优势，能够将视觉，听觉和语言信息包含在同一媒体中，符合我们的自然经验。然而，这种信息丰富的优势也是限制其生产和消费的一个挑战性因素，因为它带来了非常3043满足两个关键需求的成本很高。第一个是在现有视频中找到相关的时刻，以产生新的内容，或者只是从这些参考中获得创作提示。第二种是通过扫描视频亮点来快速浏览大量视频内容，而不是以正常速度观看整个原始视频或视频时刻，这是视频生产者和消费者在这样一个内容爆炸时代所需要的这两个关键需求导致了两个重要的研究主题：视频时刻检索[1，8]和视频精彩部分检测[32，37，44]虽然人们可能会意识到这两个任务是密切相关的（特别是当给出文本查询时），但直到最近的工作[18]才明确地联合研究它们，该工作为此目的构建了一个名为QVHighlights的新数据集，并提出了第一个优化的模型Moment-DETR，用于联合解决这两个问题。然而，这项开创性的工作有几个局限性。它假设文本查询始终存在，并且只应用于每个视频的视觉模态。此外，它仍然是一个非常基本的模型，称为强基线，尽管它采用了Transformer框架，这是最新和快速崛起的神经网络架构类型。本文深入设计联合视频时刻检索和亮点检测方法，主要探索两个方面：多模态学习和灵活性，如图1所示。除了文字和视频（即视觉信息），音频也被视为重要的输入。此外，一个统一而灵活的框架，称为统一的多模态变压器（UMT），提出了处理不同的模态可靠性的情况和组合。例如，当文本输入不可用时，任务退化为仅突出显示检测。当文本中有一些明显的干扰时，它的可靠性就会受到影响。此外，音频也可能是嘈杂的，这可能限制有效的探索。城市轨道交通涵盖了所有这些自然变化，这些变化通常需要通过不同的专门设计的模型来解决为了证明所提出的框架的有效性和优越性，我们不仅在QVHighlights数据集[18]上进行实验，这是唯一一个为联合视频时刻检索和高光检测而构建的数据集，而且在流行的公共数据集上进行实验，用于时刻检索（ Charades- STA [8]）和高光检测（TVSum [31]，YouTube Highlights [32]），有或没有文本指导。对于每种情况下，我们比较了几个国家的最先进的方法所提出的计划。还进行了详细的消融研究，以评估所提出的方案的基本组成部分，并揭示有意义的见解。2. 相关作品视频时刻检索是近年来的一个研究热点，它主要研究在给定的自然条件下，提取视频中的相关时刻。语言查询。大多数现有的作品[1，8]假设在视频中只有一个时刻对应于给定的文本查询，并且这样的查询通常是关于活动的。最近提出的QVHighlights数据集[18]通过为每个查询注释视频中的多个时刻通过文本查询的视频检索[24]是一个类似的任务，但它检索整个视频而不是视频时刻。一些关于语言基础的工作[27，34]将文本短语与时间视频片段对齐，其操作尺度比时刻检索更精细，并针对不同的应用程序。高光检测关注的是检测感兴趣的或突出的视频片段（即，亮点）在视频中。它有着大约二十年的悠久历史，拥有丰富的文献，涵盖了视频的各个领域，包括体育[33 ， 37] ，社交媒体 [32] 和第一人称 [44] 。QVHighlights是唯一支持基于文本引导矩检索结果的高光检测的数据集。视频摘要是一个密切相关的任务，其目标是用短视频片段总结长视频。它侧重于代表性、多样性和故事情节，因此它往往被视为高光检测的下游应用[44]。动态视频缩略图生成是另一个下游任务，它选择有吸引力的视频亮点并将其重组为非常短的片段[42]以用作缩略图。在所有这些任务中，时刻检索和高光检测是两个基本的任务，当给定文本查询时，它们高度相关本研究遵循QVHighlights在单个框架内对两项任务进行建模的开创性工作。与Moment-DETR [18]不同，我们的模型具有仅执行矩检索或高光检测的灵活性。基于文本查询的模型虽然文本查询是时刻检索的必要条件，但它很少出现在视频精彩部分检测的研究中，尽管我们认为提供文本查询会导致更好的结果，因为精彩部分通常是主观的和依赖于兴趣的。早期的工作[16]提出使用文本来查找视频亮点，但它只是使用文本排名算法来对文本域中的视频描述进行排名，以提供对视频镜头排名的监督，而不是直接匹配文本和亮点。唯一的文本引导高亮检测存在于非常近期的工作中[18]。在与视频缩略图生成密切相关的领域中，文本查询首先在[46]中进行了研究，其中使用图卷积网络来对逐个剪辑的交互进行建模。后来，提出了时间引导的时间调制机制[28]来调制基于编码器-解码器的网络。所有这些工程作为-sounds的可靠性的文本查询，并依赖于它，而我们提出的框架可以很容易地工作，没有文本查询或不可靠的文本查询。3044i-1i=1i=1--∈i=1Nv--i=1i=1--i=1--联系我们联系我们吉夫单模编码器{}$vL+重要性ii-1视频剪辑显著性评分（用于突出显关 $vii-1交叉模态编码器查询解码器Lcen$erLin（）L）**+e$&单模编码器音频{n}$t关 $ii-1关 $vv我我i-1i-1一个人在做煎饼文本查询生成器中心度窗口偏移1.4s5.8s3.1s2.6s不+ 1.2s+ 0.9s+ 0.2s-0.4s恢复的时刻图2.我们框架的整体架构。当视频或音频不可用时，对应的单模态编码器和跨模态编码器被停用。如果没有提供文本查询，模型将简单地使用可学习的时刻查询。第3.1节描述了符号的详细解释。多模态学习最近，多模态学习方法已经被探索用于通过联合建模视觉和音频模态来进行高光检测。最早的工作似乎是MINI-Net [12]，它简单地连接了两种模态的特征向量。最近，已经提出了两个更复杂的模态融合模型[3，45]，并显着提高了性能。其中一人发明了一种视觉-音频张量融合机制[45]，用于学习具有张量分解和低秩约束的跨模态另一种是通过跨模态双向注意层[3]进行融合，该层提取音频注意的视觉特征和视觉注意的音频特征。虽然这三种方法在学习多模态融合表示以进行亮点检测方面与我们有着相同的想法，但只有基于注意力的工作在与我们相同的监督学习设置下构建了他们的模型（其他两种是弱监督的，因此不太可比）。此外，据我们所知，我们的方法是第一个解决联合时刻检索和突出检测与多模态（视觉-音频）学习。3. 方法3.1. 概述给定包含Nv个剪辑的未修剪视频V和具有Nt个令牌的自然语言查询T，联合视频时刻检索和高光检测的目标是局部化V中的所有时刻（由时间边界bR2 表示），其中视觉和/或音频内容与T高度相关，同时预测每个时刻的剪辑级显著性得分s iNv。如图2所示，我们框架的整体架构源自Transformer编码器-解码器结构，并可分为五个部分，即单模态编码器、交叉模态编码器、查询生成器、查询解码器和预测头。输入的视频和文本首先由预训练的特征提取器处理。具体地说，我们使用三种不同的模型（Ev，Ea和Et）来提取视觉，音频和文本特征，分别。因此，每个视频文本对可以由三个颜色表示选择特征向量，即视觉特征{vi}Nv，音频特征a iNv，以及文本特征t iNt。视觉和音频特征被馈送到单独的单模态编码器中以在全局感受野下进行情境化，然后由跨模态编码器融合以用于视觉-音频联合表示r iNv。这些表示与文本特征一起用于生成剪辑级矩查询，其可以用于从查询解码器中的联合表示检索矩和高光。解码后的查询引导视频功能dii=1时，我们使用两个预测头来获得最终的时刻检索和高光检测结果。3.2. 单模编码器大多数现有的视频和音频特征提取器[4，15，35]都是在滑动窗口方案下，因此这些方法只考虑局部时间相关性，而不知道全局上下文信息，这对于视频理解任务至关重要检测视频中的查询时刻和精彩片段还需要全局内容的整体视图。因此，为了在每个模态内增加具有全局上下文的特征，我们采用单模态编码器来处理输入的视觉和音频特征。该模块通过堆叠标准Transformer编码器层[36]构建，每个编码器层由多头自关注块和前馈网络组成。在每一个注意头上，自我注意的视觉3045添加规范添加规范前馈网络前馈网络添加规范添加规范{Y}Nbii#$多头注意规范，，多头注意规范多头注意，关 NB我我多头注意，i=1Σ我→ →→我v J我我Nvm=1v J我我Nvm=1v J×{Y}Nv{Y}Nv其他方式的较少。第二，计算交叉-ii#$ii#$当计算片段到片段的相关性时，模态注意是昂贵的，具有平方复杂性最近的一项工作[23]试图通过引入注意力瓶颈来解决第一个问题，注意力瓶颈可以被视为跨模态的信息桥梁。虽然已经取得了可喜的成果，该模块仍然遭受高的计算成本，因为间和交叉模态相关性联合建模。在这项工作中，我们扩展了这一思想，并建议解开这些策略，从而产生的瓶颈Transformer模块可以分为两个阶段，即。功能压缩和扩展，如图3所示。特征压缩在[23]之后，我们将介绍bot-tleneck令牌{z i}Nb 来捕捉压缩的特征所有的模式。这里，Nb是比视频剪辑的数量Nv小得多的数量。特征压缩是通过瓶颈标记与不同模态特征之间的多次多头关注来实现的。N N领带。由于在这个过程中只有视觉和听觉形式，{i}v{i}v我#$我#$在这种情况下，压缩过程可以表示为图3.瓶颈Transformer模块的体系结构。我们引入瓶颈令牌用于跨模态特征压缩和扩展，大大降低了计算成本。z′=z+wexp（wqziwkxj）Σj=1我（2）或者音频模态x∈ {v，a}可以被计算为Nv其中zi和zi′是瓶颈标记的输入和输出特征。其他符号与Eq一致。1.一、Eq之间的唯一区别1和等式2是查询矩阵x′=x+wΣΣexp(wqxi×wkxj)j=1我（1）M被zi取代，旨在将特征聚合到瓶子中-颈牌我们将此操作应用于视觉和听觉特征，以便细化多模态信息其中xi和x′i是剪辑i的输入和输出特征，w{q，k，v，z}表示查询、键、值和输出矩阵的线性变换权重。关于自我注意力计算的更多细节参见[36]。上面的公式计算剪辑之间的嵌入高斯分布，并将全局上下文信息聚合到每个剪辑中。在聚合特征之后，并被压缩成瓶颈令牌。在压缩多模态信息之后，我们扩展特征并使用另一个多头注意力将它们传播到每个模态中。具体计算如下。Nv随后，由以下线性ReLU Dropout线性用于进一步投影特征。x′=x+wΣΣexp(wqxi×wkzj)j=1我中文（简体）3.3. 交叉模态编码器以前的工作[3，23]声称联合建模多模态特征可以更好地获得整体表示。因此，在单模态编码器之后，利用额外的跨模态编码器来联合捕获跨模态的这里，交叉模态编码器的确切形式并不重要。一个简单的方法是应用跨模态注意力[3]。然而，这种战略有两个弱点。首先，作为典型的自然信号，视觉和听觉特征都具有很强的时空冗余和噪声信息，这里，x'i表示剪辑i的跨模态增强特征。这些特征然后被馈送到前馈网络中以用于进一步投影。利用这种跨模态的两阶段特征传播，在线性计算复杂度下增强视觉和音频特征，而不并入噪声信息。3.4. 查询生成器由于transformer首先被引入用于语言翻译任务，因此输入和输出序列的长度可能不相同，其中输出序列的长度由馈送到zNvm=1exp（wq z×wk xM）zexp（wq x×wk x ）zexp（wq x公司简介）MNv3046i=12σp2NΣ−|XαXXi=1i=1oN˜∈（x-p）∈L2L= −Σ|w − w|（五）表1. QVHighlights测试分割的实验结果。MR和HD表示矩检索和高光检测、检索。w/ PT是指带有ASR字幕的预培训。表2.与Charades-STA测试分裂的所有型号都使用官方发布的VGG和/或Charades的光流功能。MRHD方法R@1 R@5[30]第30话第30话第30话第30话[21][1] 11.41 2.7224.94 8.22 10.67标准[6] 25.49 11.54 23.40 7.65 9.89XML [19]41.83 30.3544.63 31.7334.49 55.25UMT†（我们的）48.3129.2588.7956.08XML+[18]46.69 33.4634.67 34.9035.38 55.06城市轨道交通（Ours）49.3526.1689.4154.95译码器当推广到视觉任务时，查询嵌入是随机初始化的，并在训练过程中学习。这样的方案可能不适合于视频高光检测，因为输出应该与输入令牌严格对齐。此外，查询嵌入应该自然地指导表示解码的过程。因此，我们引入了一个查询生成器，根据自然语言输入自适应地生成时间对齐的矩查询。该模块也由多个模块组成，头部注意层，其中视觉-音频联合表示{ri}Nv作为查询，文本特征是关键，视频+音频，视频+光流中心注意，热图中的点是离散的，其可能与真实的时间中心不对准并且不可避免地损害检索性能。还应预测用于调整中心的额外我们采用四个线性投影层来预测显著性，中心，窗口和偏移量，分别。在训练期间，使用二进制交叉熵损失s优化剪辑级显著性得分预测。对于具有中心p[1，Nv]和窗口d的每个地面真值矩，我们将中心点映射到p并填充热图H[0，1]使用1D高斯核H x=exp（-其中X是时间坐标，σp是窗口自适应标准偏差。我们使用高斯焦点损失[20]优化中心点预测，值我们的假设是通过计算注意力视频剪辑和文本查询之间的权重，每个剪辑可以1Σ。（1−H<$）αlog（H<$）ifH=1X了解它是否包含所描述的概念并预测可以使用N（1−Hx）γH<$xlogg（1−Hx）其他智慧（四）来解码学习到的信息以满足不同的需求。请注意，当文本查询不可用时，联合表示和可学习的位置编码将被汇总以用作矩查询。3.5. 查询解码器和预测头查询解码器采用视听联合表示{ri}v和文本引导的矩查询{qi}Nv作为输入，这里，N是矩的数量，α和γ表示焦点损失中调制因子的权重和指数对于窗口和偏移回归，我们简单地采用L1损失来优化所有地面真值中心的实际值，1wNpp p并解码视频特征以用于联合矩检索和高光检测。查询解码器的输出序列具有与编码器输入相同的长度这样的L=1（op-p）−op|特殊性具有两个优点：1）我们可以像添加具有S形激活的线性投影层一样简单地获得剪辑级显著性（突出）分数2)输出序列的动态长度也使我们能够将矩检索定义为关键点检测问题[17，50]。也就是说，每个时刻可以由其时间中心和持续时间（窗口）表示，其中中心点可以通过预测时间热图和提取局部最大值来该窗口可以从以下特征进一步回归：其中，wp、wp、op和op是基础真值，窗口和偏移量分别。整体训练损失将是上述所有损失的加权和，L=λsLs+λcLc+λwLw+λoLo（7）其中λ{s，c，w，o}分别是显著性、中心、窗口和偏移损失的权重。在测试时，力矩边界是通过合并[17，50]中介绍的中心、窗口和偏移项获得的。Lc=−（六）p方法R1 mAP≥非常好IoU=0.5IoU=0.7IoU=0.5IoU=0.7@0.5@0.7 @0.5@0.75平均值 mAP HIT@1SAP [5]27.4213.3666.3738.15Moment-DETR [18]52.89 33.0254.82 29.4035.69 55.60Moment-DETR w/PT59.78 40.3360.5135.3637.43 60.17城市轨道交通（我们的）56.23 41.1853.83 37.0138.18 59.99UMT（Ours）w/PT60.83 43.2657.3339.1239.12 62.39SM-RL [39]24.3611.1761.2532.08[第四十七话]41.2420.5483.2151.852D-TAN [49]40.9422.8583.8450.35FVMR [9]42.3624.1483.9750.153047×表 3. YouTube Highlights 上的实验结果（度量：mAP）。以上是仅使用视觉特征的方法，其他是使用视听特征的方法。表 4. 与代表性高光检测方法在 TV- Sum 上的比较（度量： Top-5mAP）。以上是仅使用视觉特征的方法，其他是使用视听特征的方法。方法狗狗健身房段落斯卡滑冰. 苏尔方法VTVUGAMSPKPRFMBKBTDS平均RRAE [43]49.0 35.0 50.0 25.0 22.0 49.0 38.3sLSTM [48]41.1 46.2 46.3 47.7 44.8 46.1 45.2 40.6 47.1 45.5 45.1[第11话]30.8 33.5 54.0 55.4 32.8 54.1 46.4第二十二章42.3 47.2 47.5 48.9 45.6 47.3 46.4 41.7 48.3 46.6 46.2最小二乘支持向量机[32]60.0 41.0 61.0 62.0 36.0 61.0 53.6LIM-S [40]55.9 42.9 61.2 54.0 60.4 47.5 43.2 66.3 69.1 62.6 56.3LIM-S [40]57.9 41.7 67.0 57.8 48.6 65.1 56.4[第38话]61.3 54.6 65.7 60.8 59.1 70.1 58.2 64.7 65.6 68.1 62.8[41]第四十一话70.8 53.2 77.2 72.5 66.1 76.2 69.3[41]第四十一话86.5 68.7 74.9 86.2 79.0 63.2 58.9 72.6 78.9 64.0 73.3[12]第十二话58.2 61.7 70.2 72.2 58.7 65.1 64.4[12]第十二话80.6 68.3 78.2 81.8 78.1 65.8 57.8 75.0 80.2 65.5 73.2TCG [45]55.4 62.7 70.9 69.1 60.1 59.8 63.0TCG [45]85.0 71.4 81.9 78.6 80.2 75.5 71.6 77.3 78.6 68.1 76.8美国[3]64.5 71.9 80.8 62.0 73.2 78.3 71.8美国[3]83.7 57.3 78.5 86.1 80.1 69.2 70.0 73.0 97.4 67.5 76.3城市轨道交通（我们的）65.9 75.2 81.6 71.8 72.3 82.7 74.9城市轨道交通（我们的）87.5 81.5 88.2 78.8 81.4 87.0 76.0 86.9 84.4 79.6 83.14. 实验4.1. 数据集和实验设置数据集QVHighlights [18]是唯一一个现有的公共数据集，它具有用于矩检索和高光检测的地面实况注释，因此适合评估我们提出的模型的完整版本。该数据集包含裁剪成10，148个短（150秒长）片段的视频，并且每个片段都用至少一个描述其相关时刻的文本查询进行注释。平均每个查询有大约1.8个不相交的时刻，注释在非重叠的2s长的剪辑上。总共有10，310个查询，18，367个注释时刻。我们在所有实验中遵循原始QVHighlights数据分割。我们还利用另外三个数据集：Charades-STA [8]，YouTube Highlights [32]和TVSum [31]，仅用于进一步评估时刻检索或高光检测任务，因为我们的模型具有任务的灵活性。Charades- STA包含16，128个注释不同动作的查询-时刻对。YouTube Highlights目前有6个域名，433个视频。TVSum包括10个域，每个域有5个视频。我们遵循传统，随机进行0.8/0.2的训练/测试分割。请注意，TVSum的注释器知道视频标题，因此我们认为这些标题可以作为嘈杂的文本查询。我们的模型评估我们使用与现有作品相同的评估指标。具体而言，对于QVHighlights，使用IoU阈值0.5和0.7的Re-call@1、IoU阈值0.5和0.75的平均平均精度（mAP）以及一系列IoU阈值[0.5：0.05：0.95]上的平均mAP进行矩检索。对于高光检测，利用mAP和HIT@1，其中如果剪辑预测具有非常好的显著性分数，则将其视为真阳性。对于Charades-STA，使用具有IoU阈值0.5和0.7的 Recall@1 和 Recall@5 。对于 YouTube Highlights 和TV-Sum，分别采用mAP和Top-5 mAP。在QVHighlights上，我们使用SlowFast [7]和CLIP [26]简单地利用预提取的特征。官方的VGG [29]和光流特征，以及 GloVe [25] 嵌入，用于 Charades-STA 。在YouTube Highlights和TVSum上，我们使用在Kinet-ics400 [13]上预训练的I3 D [4由于每个特征向量捕获32个连续帧，因此我们遵循[3]并考虑属于剪辑的特征向量，如果它们的重叠超过50%。我们还使用CLIP来提取TVSum中的标题特征。所有数据集的音频特征都是通过在AudioSet [10]上预先训练的PANN [15]模型提取视觉和音频特征在剪辑级别上暂时对齐。我们实验中的所有模型都包含一个单模态和跨模态编码器层。对于QVHighlights和Charades- STA，解码器层的数量被设置为3，对于YouTube Highlights和TVSum，解码器层的数量被设置为1，因为它们具有较小的比例。瓶颈令牌的数量Nb是不敏感的，因此被设置为4。损失的权重设置为λ s=3。0，λ c=1。0，λw=0。1，且λ o=1。0，而λw和λo分别降低到0.05和0.5，特别是对Charades-STA。在[18]之后，我们将隐藏维度设置为256，前馈网络的4维扩展。所有Transformer层都使用了可学习的位置编码、预规范样式层规范化[2]、8个注意力头和0.1的丢弃率。我们还采用额外的预辍学率0.5的视觉和音频输入，和0.3的文本输入。在所有实验中，我们使用Adam [14]优化器，具有1 e-3学习率和1 e-4权重衰减。该模型在QVHighlights上使用批量大小32训练200个epochs，在Charades-STA上使用批量大小8训练100个epochs，在YouTube Highlights上使用批量大小4训练 100个epochs，在TVSum上使用批量大小1训练500个epochs。4.2. 联合视频矩检索和高光检测我们首先评估我们提出的城市轨道交通QVHighlights测试分裂。结果如表1所示，与所有其他性能的报告。在两个月-3048(a)一只毛茸茸的白狗在烤架附近玩耍，在餐桌上吃自己的饭。(b)问：他们开车穿过一个有点绿色的沙漠，而音乐播放。(c)问题1：一个蹒跚学步的孩子遇到了卡通人物。问题2：米老鼠和一只粉红色的兔子正在和一个被妈妈抱着的婴儿互动。图4. QVHighlights上的定性结果。预测的矩和显著性分数由括号和线示出。a）呈现了所有精彩片段，表明UMT可以学习视频内容和查询语义之间的隐式相关性（2）不同的模态组合引导模型关注不同的时刻。c）我们的模型可以在单个视频中处理多个查询在语音检索和突出显示检测任务中，我们提出的模型优于所有现有方法，包括在两种设置下的先前最先进的方法Moment-DETR [18]（具有或不具有自动语音识别字幕的预训练）。图 4 展示了我们的方法在QVHighlights上的一些定性结果。4.3. 矩检索表2显示了UMT与Charades-STA测试拆分的一些代表性方法的比较。在不同的度量下，我们的方法比以前的方法有更好的我们还尝试采用光流代替音频，并获得了类似的性能。4.4. 高光检测YouTube Highlights和TVSum上的高光检测结果分别见表2和表3。在这两个数据集上，UMT不仅比仅使用视频的代表性方法表现得更好，而且比现有的利用视频和音频的多模态方法表现得更好。4.5. 消融研究多模态（视听）表5显示了使用不同模态时所有多模态方法的性能。注意，Moment-DETR+是原始Moment-DETR [18]的多模态扩展，通过实现与UMT类似的瓶颈结构。显然，与使用单一模态相比，多模态学习可以显着提高大多数方法与同类算法Moment-DETR+相比，UMT能更好地挖掘来自不同模态的复杂信息，抑制信息传递过程中可能出现的噪声。多任务协同优化给定视频的文本查询，检索相关时刻和检测这些时刻中的突出亮点似乎是高度相关的任务。因此，有趣的是，看看多任务协同优化与训练相比的表现如何。3049LLLMR HD mAP HIT@1（我们的）-65.03分表5. YouTube Highlights、TVSum和QVHighlights上多模态学习的有效性。MR和HD分别表示矩检索和高光检测。表7. QVHighlights值分割上力矩恢复的抵消损失的有效性论证。这两个模型都是使用共同优化配方进行训练的。方法YouTube TVSum QV亮点mAP Top-5 mAP MR（mAP）HD（mAP）损失R1 mAP@0.5 @0.7@0.5 @0.75平均值MINI-Net† 61.38 69.79关节-VA<$ [3] 70.50 74.80[18]第十八话––32.2036.52UMT†（我们的）73.4881.8937.7938.97[12] 2016年12月 29日[3] 10.00 10.70Moment-DETR [18]上海轨道交通（中国）65.61 76.51 13.73 23.91Lc + Lw62.32 43.2357.78 38.61 37.36Lc+ Lw+ Lo60.2644.26 39.9038.59表8.弱相关（TVSum）或高相关（QVHighlights）文本查询对高光检测的影响。文本查询TVSumQV亮点仅支持视频，仅支持音频，+带瓶颈Transformer表 6. 在 QVHighlights 值分割上使用不同训练任务组合与Moment-DETR进行比较MR和HD去音符时刻检索和突出检测。Tr. 任务MR HD力矩恢复损失表7显示了使用不同组合的力矩恢复损失时城市轨道交通的性能。由于中心损失c和窗口损失w对于表示时刻是强制性的，因此仅补偿损失o的必要性是合理的。正如比较所示，对时间偏移进行建模确实使方法力矩-力矩[18]第十八话R1 R1 mAP@0.5@0.7平均值44.84 25.87 二十五点零五✓– 五十六点四十五力矩边界预测更准确。我们认为，基于文本查询的高亮检测是一个重要的设置，价格53.94 三十四点八十四 32.20 35.65 五十五分上海地铁54.14 三十三点八二三十四点零二60.26 四十四点二十六38.59 39.85六十四点一九当使用相同的框架和骨干时，每个单独的任务。我们通过关闭与每个任务对应的损失并训练模型的其余部分来进行单任务实验请注意，时刻检索被认为是一项比第1节中解释的高光检测更难的任务。表6中的结果表明，协同优化不仅为两个任务模拟生成结果，而且还显著提高了矩检索的性能。这对我们的UMT和Moment-DETR都很清楚[18]。请注意，当只训练矩检索时，UMT的表现要比Moment-DETR好得多，这表明它在模型设计上的优越性。我们的UMT更好地将矩检索任务建模为关键点检测问题[17，50]，而不是集合预测或剪辑分类。此外，UMT解码器的输入是剪辑对齐的文本引导查询而不是位置编码，这使得能够实现更灵活的输出序列长度，并且可以为每个剪辑提供更强的查询信息。因此，我们认为UMT比Moment-DETR更能模拟这两个任务之间的关系。突出部分检测，因为不同的兴趣可能偏好来自同一视频的非常表8报告了我们的模型的结果，有或没有文本查询。可以看出，当查询是相关的时，它确实提高了高光检测性能，并且当相关性越大时，这种改进越显著。5. 结论本文介绍了一种新颖的、也是第一个统一解决联合矩检索和高光检测及其单个分量问题的框架。它也是第一个为此目的将多模式学习纳入其模式的机构该方法在不同的公共数据集上的有效性和优越性得到了验证，并与相关方法进行了比较该框架对模态质量的变化具有鲁棒性，并且具有足够的灵活性，可以在不同的文本查询条件下工作。确认本研究得到了中国广东省重点领域研究与发展计划的部分支持，资助号为2019B010155002，并得到了腾讯PCG ARC实验室的资助。[12]第十二话64.3673.24––地图HIT@1美国[3]71.8076.30––81.4225.1433.42Moment-DETR+ [18]––34.0537.67✓83.1439.8564.19城市轨道交通（我们的）74.9383.1438.5939.853050引用[1] Lisa Anne Hendricks 、 Oliver Wang 、 Eli Shechtman 、Josef Sivic、Trevor Darrell和Bryan Russell。使用自然语言对视频中的时刻进行本地化。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，第5803-5812页，2017年。二、五[2] Jimmy Lei Ba，Jamie Ryan Kiros，Geoffrey E Hinton.层归一化。神经信息处理系统进展（NeurIPS），2016年。6[3] Taivanbat Badamdorj，Mrigank Rochan，Yang Wang，and Li Cheng.用于视频亮点检测的联合视觉和音频学习。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，第8127-8137页，2021年。三、四、六、八[4] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的Proceedings中，第6299-6308页，2017年。三、六[5] 陈少祥和蒋玉刚。基于句子查询的视频活动定位语义建议。在AAAI人工智能会议（AAAI）的Proceedings中，第8199-8206页，2019年。5[6] Victor Escorcia 、 Mattia Soldan 、 Josef Sivic 、 BernardGhanem和Bryan Russell。用自然语言对视频集合中的时刻进行时间定位。技术报告arXiv：1907.12763，2019。5[7] Christoph Feichtenhofer ， Haoqi Fan ， Jitendra Malik ，and Kaiming He. 用于视频识别的慢速网络。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，第6202-6211页，2019年。6[8] Jiyang Gao ， Chen Sun ， Zhenheng Yang ， and RamNevatia. Tall ：通过语言查询的时间活动定位。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，第5267-5275页，2017年。二、六[9] 高俊宇和徐长生。快速视频瞬间重检。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，第1523-1532页，2021年。5[10] Jort F Gemmeke、Daniel PW Ellis、Dylan Freedman、Aren Jansen 、 Wade Lawrence 、 R Channing Moore 、Manoj Plakal和Marvin Ritter。音频集：音频事件的本体和人类标记的数据集。在IEEE声学，语音和信号处理国际会议（ICASSP）的会议记录中，第776-780页，2017年。6[11] Michael Gygli ， Yale Song ， and Liangliang Cao.Video2gif：从视频自动生成动画GIF。在IEEE/CVF计算机视觉和模式识别会议（CVPR）中，第10016[12] 洪发庭，黄轩腾，李伟宏，郑伟世。Mini-net：用于视频亮点检测的多实例排名网络。在欧洲计算机视觉会议（ECCV）的会议记录中，第345-360页，2020年。三六八[13] Will Kay ， Joao Carreira ， Karen Simonyan ， BrianZhang，Chloe Hillier，Sudheendra Vijayanarasimhan ，Fabio Viola，Tim Green，Trevor Back，Paul Natsev，etal. 的人体动作视频数据集。技术报告arXiv：1705.06950，2017。6[14] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。国际学习代表会议（ICLR），2015年。6[15] Qiuqiang Kong，Yin Cao，Turab Iqbal，Yuxuan Wang，Wenwu Wang，and Mark D Plumbley. Panns：用于音频模式识别的大规模预训练音频神经网络。IEEE/ACMTransactionsonAudio ， Speech ， andLanguageProcessing，28：2880-2894，2020. 三、六[16] Sukanya Kudi和Anoop M Namboodiri。言语代表行动：使用文本查找视频亮点。在IAPR亚洲模式识别会议（ACPR）的会议记录中，第322-327页，2017年。2[17] 黑律和贾登。Cornernet：将对象检测为成对的关键点。在欧洲计算机视觉会议论文集（ECCV）中，第734-750页，2018年。五、八[18] JieLei ， TamaraLBerg ， andMohitBansal.Qvhighlights：通过自然语言查询检测视频中的时刻和亮点。神经信息处理系统进展（NeurIPS），2021年。二五六七八[1

下载后可阅读完整内容，剩余1页未读，立即下载