没有合适的资源?快使用搜索试试~ 我知道了~
10503IntentVizor:面向通用查询引导的交互式视频摘要吴冠德* 林健哲*Claudio T.纽约大学{guandewu,jianzhelin,csilva} @ nyu.edu摘要自动视频摘要的目标是在记录主要内容/事件的同时,对原始长视频进行简短的浏览。将用户查询集成到视频摘要或查询驱动的视频摘要中的兴趣越来越大。该视频摘要化方法基于用户查询预测原始视频的简明概要,其通常由输入文本表示。然而,这种查询驱动的方式存在两个固有的问题。首先,文本查询可能不足以描述用户的准确和多样化的需求。第二,用户不能编辑,一旦摘要产生,而我们假设用户的需求应该是微妙的,需要进行交互式调整。为了解决这两个问题,我们提出了IntentVizor,一个交互式的视频摘要框架指导下的通用多模态查询。描述用户需求的输入查询我们进一步表示这些多模态细粒度的查询作为用户的在本文中,我们使用一组建议的意图来表示用户查询,并设计了一个新的交互式可视化分析接口。用户可以通过界面交互控制和调整这些混合主动意图,以获得更满意的摘要。同时,为了通过视频理解提高摘要质量,提出了一种新的粒度可扩展的自我图卷积网络(GSE-GCN)。我们在两个基准数据集上进行了实验与最先进的方法的比较验证了所提出的框架的有效性。代码和数据集可在https://github.com/jnzs1836/intent-vizor上获得。1. 介绍随着在线爆炸性视频内容的增加,已经确定了对自动视频汇总的日益增长的需求*平等贡献“表格”文本视觉意图模块意图#1#2#3相互作用概要模块总结一B图1.IntentVizor框架的插图我们以查询包括与“表”相关的文本/视频片段的通用查询意图模块将这些查询转换为基本意图上的概率分布,随后是摘要模块,其通过组合基本意图及其概率值来生成由于用户可以找到每个基本意图的底层视觉语义含义(例如,在图中,基本意图#1:餐桌; #2:工作桌),他们可以通过我们提出的接口(图4)调整这些基本意图的分布以满足他们的需要,并且最终生成的摘要可以相应地/迭代地更新。近年来的崛起。传统的视频摘要方法通常使用无监督[5,15,16,20,25,38,45]、超监督[ 5,15,16,20,25,viewed [7,26,27,44,47,48,51]和强化学习方法[2,49]。但是,这样的摘要不能满足用户的需要,实用价值低。由于扩展视频,尤其是在现实场景中捕获时,可以覆盖广泛的主题,因此只有特定主题的部分内容将满足用户的需求。基于10504基于此,考虑用户偏好的用户查询驱动的摘要模型逐渐引起了查询驱动摘要的基本思想是利用文本查询来指导视频摘要的生成。这种查询驱动的摘要的流行数据集是由Sharghi等人提出的文本查询数据集。[29]。本文提出的摘要模型被训练来预测与文本查询密切相关的视频镜头的子集(每个镜头5秒)。对于后续工作,还引入了注意力机制[22,35,36]和基于生成对抗网络[46]的摘要模型,以实现更好的摘要性能。然而,这些模型的性能仍然不令人满意的文本查询是不足以代表用户更具体地说,首先,用户不能在摘要的最开始用很少的固定输入文本查询来表达他们的详细需求。他们可能有多种需求,并希望调整不同需求的优先级。第二,文本查询可能是模糊的。人们在交流中可能对一个词有不同的理解,更不用说在固定的词典上训练的模型了。因此,该模型应该是交互式的,以将用户循环到摘要中,以及其他查询格式(例如,视觉查询)应当被考虑以更好地表示具有较低模糊性的用户偏好。为了提出一个通用的模型,从不同的模态查询,并允许用户在总结过程中进行交互,在本文中,我们提出了一个新的框架命名为IntentVizor。我们从信息检索(IR)社区借用了内涵的概念来定义用户然而,我们的意图与IR中的传统定义不同,具有不同的表示和提取:(1) 我们通过基础意图上的可调整分布来表示意图,而不是预定义的类别[3],分类法[4,40]或分布式表示空间[12,41];基础意图被定义为用户需求的学习和基本组件与传统的定义[3,4,12,40,41]相比,我们的方法可以实现交互式操作,满足用户(2)我们从不同模态的查询中提取统一的意图,而不仅仅是文本查询,以避免前面提到的歧义问题。intentVizor框架由两个模块组成,即,所述意图模块用于从所述查询中提取所述意图,并且所述概要模块用于概要具有所述意图的所述视频。为了有效地将视频特征与两个模块中的通用查询/意图相关联,我们设计了一种灵活的网络结构,称为粒度可扩展的自我图卷积网络(GSE-GCN)。这个GSE-GCN将作为摘要模块和意图模块的共享主干。除此之外在主干中,这两个模块分别具有意图头和摘要头。总而言之,我们的贡献结构如下:• 据我们所知,我们的IntentVizor框架是第一次尝试引入通用查询,以更好地满足用户的不同需求。我们还提出了一个新的数据集的视觉查询引导的视频摘要的基础上UTE视频。• 我们制定的视频摘要作为一个互动的过程,用户可以微调其意图,它与我们提出的新颖的接口。• 我们提出了一种新的GSE-GCN结构,以有效地将多模态的通用查询与输入视频相关联。2. 相关作品2.1. 根据用户意图在视频摘要中集成用户查询一直是一个热门话题。以前的方法通常表示的文本概念的查询。Sharghi等人基于UTE视频数据集构建了第一个以查询为中心的视频摘要数据集,并提出了一种基于镜头级语义标签的评估协议,该协议成为研究社区的标准协议[29]。Zhang等人提出了一种生成对抗网络(GAN)来解决这个问题[46]。Xiao等人将该任务定义为镜头查询相似性问题,并提出了一种基于卷积的网络来捕获局部和全局信息[36]。我们还计算了基于距离的相似度之间的视频镜头和用户意图。Jiang等人采用多级自注意模块和变分自动编码器(VAE)来添加面向用户的多样性和随机因素[13]。虽然他们的工作也关注用户意图,但他们不允许交互式调整意图。相反,最近的工作逐渐注意到用户反馈和用户交互的重要性[6,14]。然而,这些作品仍然缺乏一个灵活的方法,为用户控制的互动过程。为了解决这个问题,本文通过意图(用户的可控变量)的调整来实现这种交互。2.2. 用于视频的图卷积网络图卷积网络已广泛应用于各种视频分析任务。这些方法可以基于图类型粗略地分为两类,即,时空图和片段图。Spatia-Temporal graph将视频视为时空域中的区域pro-bandwidth或对象的图形。Liu等人将视频表示为时空区域图,并应用GCN来执行动作识别[33]。Yanet10505|--∼|--|||--|∗i=1||i=1t=1i=1等人将动态身体关节建模为时空图以估计人体姿势[39]。类似的方法也用于各种任务,包括动作识别[10,21,32],人类重新识别[19],凝视预测[8]和视频字幕[24]。 与上述工作不同的是,片段图通过它们的语义和时间关系将片段(如前所述,在我们的论文中,“片段”是“段”)关联起来。Zeng等人构建了一个时间1-D建议图来执行时间动作定位[42]。Xu等人构建了一个片段图,并设计了一种有效的边缘卷积方法来检测时间动作[37]。当我们引入一个带有用户意图的混合图来对齐视频片段和用户意图时,我们借用了他们的边缘卷积操作。3. IntentVizor框架我们的IntentVizor框架的目标是(1)对视频摘要过程进行交互式本节首先说明,通过将多模态查询建模为统一的交互式用户意图,可以满足这两个要求。然后,我们将描述GSE-GCN,它旨在更好地处理多模态查询。3.1. 统一和交互式用户意图3.1.1问题设置我们引入了一个新的问题设置与我们提出的统一和互动的意图。针对以查询为中心的视频摘要的规范设置是基于T个镜头的输入视频v和文本查询qt来输出视频镜头的代表性和简明子集。我们通过将文本查询qt泛化为通用查询q来重新定义任务。然后,我们建议预测不仅是最终的视频摘要,但也是一个统一的和交互式的用户意图预测的多模态查询。可隐式地学习,就像一个潜在变量。我们假设存在一组基本意图,如Z=101,102,.,ζk并且根据以查询q为条件的分类分布从基本意图中选择用户意图v作为v_p(v_q,v)。给定用户查询q,分布p(q,v)由基本意图的概率向量p(q,v)=[p(q,v),p(q,v),., p(k,q,v)]T.在实践中,查询可以是文本、视觉或其他格式。在这项工作中,我们只实现了文本和视觉查询的模型。根据前面的工作[29],我们用两个文本概念表示文本查询qt=c1,c2,其中c1,c2是两个概念。通过比较-在此基础上,我们用一组代表性的原始视频中的镜头为q v=u1,u2,... P其中P是一个常数。然后,对于每个镜头s,我们表示ηs∈ {True,False}是否应该在摘要中选择s。我们假设ηs是从伯努利分布中采样的,其目的是:p(η s)= p(η s|1999,v).(1)最后,我们可以条件镜头选择概率p(ηs)的用户查询,p(ηs|q)=i≤kp(i|q,v)p(ηs|(1999).(二)我们用分布p(q,v)来表征用户的需求,而不是确定性的意图,这种概念遵循贝叶斯主义的观点,因为潜在变量(意图)是随机变量而不是确定性值。用户可以迭代地调整概率向量p(k)以微调其意图。由于镜头选择概率通常被视为当η=True时,我们可以互换使用镜头得分和选择概率。为了实现等式1和等式2,我们设计两个模块p(η q)=g(q,v:θg)(意图模块)和p(ηs θ)= g(q,v:θ g)(意图模块)。h(n,v:θh)(汇总模块),其中θg和θh是g和h参数p(ηs|q,v)=i≤kgi(q,v:θg)h(i,v:θh).(三)给定地面真值标签,我们可以通过BCE损失优化模块的参数θg,θhLBCE(θg,θh)=θt≤Tlo g(p(yt|q,v)),(4)其中y t是第t个镜头的地面实况标签。3.1.2非线性激活等式3严格遵循等式2中的选择概率然而,它限制了意图模块的容量,因为所得到的概率仅仅是h(qi,v)gi(q,v)的线性组合。为了解决这个问题,我们通过在每个基本意图得分上添加非线性层来权衡严格性以获得更好的性能。具体来说,我们采用移位的ReLU[1]作为非线性激活。p(ηs|q)=i≤kReLU(gi(q,v)h(i,v)−δ),其中δ是指移位的ReLU的阈值。3.2. GSE-GCN:粒度可扩展的自我图卷积网络作为意图模块g和汇总模块h的共享主干,GSE-GCN利用两个新提出的组件,即,粒度可扩展路径(GS-路径)和自我图卷积网络(E-GCN),以更好地处理时间的多粒度和稀疏的相关性。10506图2. GSE-GCN利用两个概念,即,GS路径和自我图。输入视频将由两个卷积网络处理,以产生粗粒度和细粒度的两个段级特征序列然后,每个序列将被处理以生成自我图,其中意图/查询顶点是具有连接的所有视频片段的自我顶点将图输入GCN后Intent Head将片段特征汇集到分布式表示中,该表示将由具有softmax的MLP处理以产生意图概率。摘要头部利用本地GCN模块来产生镜头级特征,这些特征将用于预测镜头选择概率。.剪辑A表1中的超参数。所产生的段级特征被馈送到下面描述的E-GCN中,以与查询/意图对齐。剪辑B图3.具有较长长度的进食动作(剪辑A)应通过粗路径用粗粒度特征处理相比之下,具有更快移动的跳跃事件(剪辑B)应该使用更细粒度的特征来处理。3.2.1粒度可扩展途径(GS途径)具有恒定时间粒度的模型可能会3.2.2自我图卷积网络给定长视频,不同视频片段与查询/意图之间的相关性可以相对稀疏例如,如果用户查询此外,查询相关视频内容还可以与其他视频片段(特别是具有长时间距离的视频片段)具有稀疏关系。因此,将所有视频片段(例如,基于变压器的模型)可能是时间低效和空间低效的。我们建议利用动态边缘卷积的概念[34]和卷积,短于将多粒度的视频事件/动作与用户查询/意图对准。我们在图3中已经表明,不同时间长度和移动速度的动作应该用不同时间粒度的特征来处理。这个问题提出了一个粒度可扩展的模型的必要性。为了实现这一点,我们提出了一个灵活的结构,具有两个不同的颗粒度的路径。这个想法在技术上与[9]相似,但出于不同的考虑。对于每个路径,我们通过卷积网络将镜头级特征聚合为片段级特征(片段分别跨越4个和16个镜头,分别具有精细和粗略的路径)我们列出了通过动态连接视频片段和查询/意图来构造图G=(V,E)。图动态建模视频片段和用户意图之间的相关性,我们将它们与由三种类型的边组成的边集合E连接,即,意图边Ei、语义边Es和时间边Et。Intent Edge将片段顶点与中心意图顶点连接起来,这就是为什么我们将该图称为Ego-Graph。我们通过两个MLP动态地将意图嵌入和分割特征映射到一个相互关联的潜在空间然后我们意图X视频摘要标题意图模块概要模块意图头意图汇集视频意图概率#1#2#3#4#5意图汇集查询GNNGS途径自我图镜头特点视频Top-k自我图X意图GSE-GCN选择概率细径粗径精细路径粗通道乙状MLPGCN本地GCNGCN本地GCNGSE-GCNSoftmaxMLPConvConvAvgPool关注AvgPoolGSE-GCNResNet10507不不不∪层内核粗通道斯特里德海峡输出大小内核罚款步幅途径信道输出大小Conv1581024[L//8,1024]51256[L//2,256]MaxPool1211024[L//8,1024]22256[L//2,256]Conv2511024[L//8,1024]51256[L//2,256]MaxPool2321024[L//16,1024]22256[L//4,256]表1.粒度可伸缩路径的超参数设置。L是指原始视频的长度。可以将意图段边缘集合Ez导出为,Ez={(w′,wt),wt∈VT},(6)其中VT是指视频片段的顶点集,w′指的是映射的查询/意图向量x。语义边缘将视频片段与相关语义连接起来。出于相关性的稀疏性,我们遵循[37]并连接VT中每个视频片段顶点的前k个相关顶点。Es={(w t,w nt(k))|t = 1,2,… T; k = 1,2,...,K},(7)其中wn(k)是特征空间中顶点wt的第k个最近邻居,K是常数。时间边连接时间上相邻的边。每个顶点都有一个到下一个顶点的前向边和一个到最后一个顶点的后向边,除了线段序列的两端。我们将两组边表示为:Ef={(w t,w t+1|t = 1,2,…T − 1},(8)Eb={(wt,wt−1|t=2,3,...,T},(9)其中,Ef包括前向时间边缘,Eb包括意图嵌入和局部GCN处理的镜头特征以获得相似性向量。然后利用Sigmoid激活的MLP生成镜头的选择概率。相比之下,意图模块利用具有Softmax的MLP头来生成意图分布。由于意图模块是为不同模态的查询而设计的,因此视觉查询和文本查询之间存在轻微差异。用于文本查询的意图模块严格遵循GSE-GCN结构,而用于视觉查询的意图模块将查询镜头建模为单独的顶点而不是一个合并的顶点。4. 实验4.1. 实现细节我们利用Pytorch [28]在NVIDIA RTX 8000上实现我们的模型。我们有20个基本意图,每个由128维嵌入向量表示。对于摘要模块,我们采用3层GCN和GCN层之后的3层MLP。我们将Intent模块的GCN层和MLP层的数量设置为2和3模型tb bt由Adam优化器训练,基本学习率为后向时间边缘和Et=Et Et。边缘卷积在获得图形之后,我们应用边缘卷积作为我们的图卷积运算[34]。按照Xu等人的观点。[37],我们采用卷积运算对所获得的图进行有效的边缘卷积。4.1.1镜头级特征边缘卷积的输出特征是段级的.为了从片段特征中重构镜头特征序列,我们为每个片段构建局部自我图。该图由一个线段特征顶点与所有生成的镜头顶点连接而成。我们还将语义和时间边缘添加到图中。对构造的图进行边缘卷积后,得到镜头级特征序列。4.1.2模块的实施意图和摘要模块都是基于GSE-GCN实现的,具有不同的输入和输出。sum- mary模块对105081e-4。我们采用预热策略[11]在10个epoch中将学习率从0线性增加到基本学习率。之后,我们每二十个epoch将学习率降低到前一个值的十分之一。4.2. 实验设置4.2.1文本查询数据集我们在查询驱动的视频摘要数据集上进行文本查询实验[29]。该数据集包括UT自我中心(UTE)数据集中的四个视频[18]。每个视频(3-5小时)都是在日常生活场景中拍摄的。数据集中的每个查询由总共48个概念中的两个概念表示。4.2.2可视化查询数据集和数据集基线我们基于文本查询数据集构建可视化查询数据集。对于每个注释摘要,我们采用特征向量中心性作为标准来挑选最具代表性的镜头作为查询镜头。详细的例子和说明可以在补充材料中找到10509一BID概率评分样品C查询D输入查询视频总结评价54 66 45F-1精确 召回刷预览E图4.原型概述。答:摘要视图提供了两个时间条形图,其中显示了总体得分和汇总的镜头。 底部的条形图显示了所有镜头的概览,而顶部的条形图则放大了底部图表中画笔决定的细节。B:Intent View列出所有基本Intent及其概率、射击分数和代表性样本。选择得分最高的样本。C:预览视图播放用户悬停镜头的GIF。在这种情况下,用户悬停在意图#12中的突出显示的镜头上,其包括房间场景。D:查询视图允许用户更改查询并使模型可查询。E评估视图显示汇总的定量结果。方法视频-2视频-3视频-4Avg.Pre.Rec.F-1Pre.Rec.F-1Pre.Rec.F-1Pre.Rec.F-1Pre.Rec.F-1[29]第二十九话49.8653.3848.6833.7162.0941.6655.1629.2436.5121.3963.1229.9640.0360.2544.19[36]第三十六话54.7346.5749.1445.9250.2646.5359.7564.5358.6525.2351.1633.4246.4053.1346.94[第13话]52.5552.9151.4538.6662.7047.4960.2862.5861.0826.2754.2135.4744.5758.1048.87QSAN [35]48.4152.3448.5246.5151.3646.6456.7861.1456.9330.5446.9034.2545.5652.9446.59Nalla等人[23日]54.5852.5150.9648.1252.1548.2858.4861.6658.4137.4043.9039.1849.6452.5549.20我们62.1945.2351.2750.4357.8153.4873.4553.5661.5828.2456.4737.2553.5853.2750.90表2.文本查询数据集:与以前最先进的方法的比较方法视频-2视频-3视频-4Avg.Pre.Rec.F-1Pre.Rec.F-1Pre.Rec.F-1Pre.Rec.F-1Pre.Rec.F-1线性基线59.2445.3349.7521.4926.7123.6256.0944.4249.2214.4433.119.7737.8237.3935.59注意基线45.0133.9637.7138.8648.0141.0957.748.7550.6618.0041.524.7539.8943.0638.55我们58.1744.9149.4342.5252.6946.6465.4551.9257.4921.1549.2329.1946.8249.6945.69表3.可视化查询数据集:与基线的比较。由于可视化查询数据集是新引入的,并且没有以前的工作存在,我们比较了我们的方法与两个基线,即,线性预测和注意查询模型,可以建立在补充。4.2.3评价方案为了与以前的方法公平地进行比较,我们采用了Sharghi等人提出的语义评估协议。[29]。该协议基于机器生成的视频镜头和地面实况视频镜头之间的语义相似性。相似性是通过找到基于所述语义交并截取(IOU)计算的所述二分图的最大权重匹配匹配镜头对的加权和用于计算精确率、召回率和F-1度量。请注意,对于可视化查询数据集,我们在评估阶段屏蔽了查询快照。为了评估交互意图,这涉及到人的主观性,我们开发了一个原型,并提出了一个案例研究的定性分析。4.3. 比较分析我们的方法和SOTA方法在文本查询任务中的比较可以在表2中找到。我们10510观察到我们的方法实现了50.90%的最高F-1值。实验结果表明,该方法能较好地识别查询和摘要之间的相关性.我们还在表3中展示了可视化查询任务的实验结果。我们发现我们的方法显著优于基线7%,尽管总体性能不如文本查询任务的性能。4.4. 消融分析我们评估了所提出的方法的效果,并发现途径Pre.Rec.F-1镜头级功能47.4545.3844.40粗粒度47.4047.6645.15细粒度50.1850.2347.81完整模型53.5853.2750.90表6. GS通路的消融研究。镜头级特征路径是指将我们的Ego-GCN直接应用于镜头级视频特征的模型。通过消融研究确定最佳模型设置。4.4.1自我图卷积网络I.M.S.M.Pre.Rec.F-1TransformerTransformer44.8244.5242.68TransformerEgo-GCN49.0047.8946.15Ego-GCNTransformer47.0947.2644.75Ego-GCNEgo-GCN53.5853.2750.90表4.消融研究申报的Ego-GCN。I.M. 当S.M.是指汇总模块。我们提出的Ego-GCN方法将视频片段特征与查询/意图对齐。为了验证有效性,我们在意图和摘要模块中迭代地用基于transformer的方法[30,31,50]替换Ego-GCN实验结果见表4。我们的Ego-GCN可以在添加到意图或摘要模块时提高模型性能4.4.2本地GCN途径Pre.Rec.F-1上采样38.0437.4835.88转置转换47.5347.4145.18本地GCN53.5853.2750.90表5.局部GCN的消融研究。我们采用本地GCN从片段级特征中恢复镜头级如图5所示,Local GCN4.4.4什么时候融合通道?阶段Pre.Rec.F-1早期53.5853.2750.90中间49.5348.6646.66晚47.6947.9845.47表7.特征融合阶段的实验结果。不同途径的特征可以在不同阶段融合。为了找到模型的最优值,我们比较了不同融合策略的变体,即早期,中期,晚期融合。早期融合策略在图2所示的点积之前融合特征。中期融合发生在MLP之前,晚期融合发生在MLP之后.如表7所示,早期融合是最佳选择。4.4.5我们需要视频作为Intent模块的输入吗意图模块Pre.Rec.F-1视频不可知论者 50.0648.7847.15查询注意事项49.2647.8546.27完整模型53.5853.2750.90表8.在Intent模块中对视频输入进行实验。我们的意图模块使用查询和视频作为输入来预测用户意图。然而,用户意图也可以仅依赖于用户查询,因为一些用户可能没有时间浏览原始视频。因此,有必要了解我们是否可以从意图模块中删除视频输入,并让它仅基于用户查询进行推断。为此,我们将完整模型与两个变体进行比较,4.4.3 GS途径为了验证我们的GS途径的效果,我们将我们的模型与只有一个固定途径的三种变体进行实验结果见表6。实验结果表明,该模型优于三种模型,验证了多粒度关注段特征的必要性。更简单的意图模块和视频不可知的意图模块。实验结果见表8。虽然有一个边际性能下降,与视频无关的意图模块的模型仍然优于大多数以前的最先进的方法。实验结果表明,去除意图模块的视频输入,提高模型的泛化能力是合理的105114.4.6我们可以在不同的数据集之间转移汇总模块吗?培训Pre.Rec.F-1Canonical46.8249.6945.69转移47.1551.0846.40表9.迁移学习在视觉查询任务中的实验研究。为了验证摘要模块的通用性,我们在迁移集上对可视化查询任务进行了实验。我们首先在文本查询数据集上训练摘要模块。然后,我们重用这个预训练的摘要模块,只训练用于视觉查询任务的意图模块。结果见表9。实验结果表明,转换后的模型优于规范环境下训练的模型,说明摘要模块对于多模态查询具有可互换性4.5. 原型和定性分析我们展示了我们的框架与原型的交互性,如图所示4.第一章原型也可以作为定性分析,证明我们的方法可以生成查询相关的摘要具有更好的解释性。在图中,我们展示了一个示例案例。当用户查询视频的“食物”和“房间”时拍摄快照-3请注意,在我们的原型设计中,我们将用户输入始终设置为两个查询,尽管所提出的框架可以处理其他数量的查询。用户首先在结果视图上刷动,并聚焦在摘要中捕获更多镜头的剪辑上。基于意图视图(B),我们可以按降序识别意图#18、#8、从每个意图的样本中,我们发现#intent #18和#8与食物烹饪场景密切相关,而#11包含一些食物存储场景。#12和#2更有可能专注于房间场景。我们还观察到在#12和#2中存在一些计算机帧预览相关镜头,我们注意到计算机是房间的前景物体,如图4所示。C显示。因此,快照显示我们的模型成功地捕获了食物和房间场景。我们可以发现,有两种类型的食物情景确定,即,食物烹饪和食物储存。这一发现也表明,我们的方法可以提供更细粒度的用户意图表示。5. 讨论5.1. 限制自适应粒度:虽然我们的消融研究证明了视频摘要中粒度可伸缩方法的必要性,但我们提出的方法在两个固定粒度的路径我们将设计一种自适应的方法来控制时间粒度的视频段具有较低的空间复杂度。更多模态:我们的IntentVizor框架可以支持不同模态的查询。然而,我们只评估我们的方法对文本和视觉查询。我们未来的工作将扩展我们的框架,以支持其他查询,例如,音频、草图等。评价的接口:尽管我们提出的接口可以帮助用户在视频摘要的案例研究,该接口的有效性也应该在未来的野外用户研究验证。5.2. 应用由于我们提出的IntentVizor提高了视频摘要的可解释性和交互性,因此它也具有潜在的实用价值。由于用户可以基于他们的详细需求自适应地控制摘要的输出,因此这样的摘要可以广泛地用于客户痴迷的视频浏览、数据传输/记录、监控分析和体育比赛集锦等。5.3. 结论在这项工作中,我们提出了IntentVizor,一个交互式的视频摘要框架指导下的通用查询。首先,我们的框架引入了一个新的概念其次,我们开发了一个原型,使建议的框架与用户交互。用户可以控制意图以生成满足其需求的摘要。第三,对于模型部分,设计了两个新颖的意图/摘要模块,以更好地理解通用查询并相应地/自适应地生成摘要。定量和定性的实验结果验证了我们提出的方法的优越性。四个烧蚀研究也验证了所提出的框架更潜在的可扩展性。在未来的工作中,我们将解决上述问题,并引入更多的查询方式,以更好地满足用户6. 确认Guande Wu部分得到了纽约大学工程学院奖学金的支持。本研究也部分由C2 SMART资助,C2 SMART是美国交通部根据合同69 A3351747124授予的一级大学中心,NSF授予CNS-1229185、CCF-1533564、CNS-1544753、CNS-1730396和CNS-1533564。1828576. Lin,Silva和Wu部分由DARPA感知任务指导(PTG)资助。本材料中表达的任何观点、发现、结论或建议均为作者的观点,不一定反映NSF、USDOT或DARPA的观点。10512引用[1] 阿比恩·弗雷德·阿加拉普。使用校正线性单元(relu)的深度学习CoRR,abs/1803.08375,2018。3[2] 埃夫兰皮奥斯·阿波斯托尔,埃莱尼·阿达曼蒂杜,亚历山德罗斯·梅采,瓦西莱奥斯·梅扎里斯和扬尼斯·帕特雷。Ac-sum-gan:连接演员-评论家和生成对抗网络进行无监督视频摘要。IEEE Transactions on Circuits andSystems for Video Technology,2020。1[3] 安德烈·布罗德Web搜索的分类。ACM SIGIR Forum,第36卷,第3-10页,2002年。2[4] AndreiZBroder , MarcusFontoura , EvgeniyGabrilovich,Amruta Joshi,Vanja Josifovski,and TongZhang. 利用网络知识对稀有查询进行robust分类。在Proceedings of the 30 th International ACM SIGIRConference on Research and Development in InformationRetrieval,第231-238页,2007年。2[5] 朱文生,宋耶鲁,亚历杭德罗·海姆斯。视频共摘要:通过视觉共现进行视频摘要。在Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,第3584-3592页1[6] Ana Garcia del Molino、Xavier Boix、Joo-Hwee Lim和Ah-Hwee Tan。主动视频摘要:通过与用户的在线交互定制摘要。在AAAI人工智能会议上,第31卷,2017年。2[7] Jiri Fajtl , Hajar Sadeghi Sokeh , Vasileios Argyriou ,Dorothy Monekosso,and Paolo Remagnino.关注视频。在亚洲计算机视觉会议论文集,第39-54页,2018年。1[8] Fan Lifeng , Wenguan Wang , Siyuan Huang , XinyuTang,and Song-Chun Zhu.通过时空图推理理解人类注视通信在IEEE/CVF计算机视觉国际会议论文集,第5724-5733页3[9] Christoph Feichtenhofer , Haoqi Fan , Jitendra Malik ,and Kaiming He. 用 于 视 频 识 别 的 慢 速 网 络 。 在IEEE/CVF计算机视觉国际会议论文集,第6202-6211页,2019年。4[10] Pallabi Ghosh,Yi Yao,Larry Davis和Ajay Divakaran。用于动作分割的堆叠时空图卷积网络。在IEEE/CVFWinter计算机视觉应用会议论文集,第576-585页,2020年。3[11] PriyaGo yal , PiotrDolla´r , RossGirshick , PieterNoord-huis , Lukasz Wesolowski , Aapo Kyrola , AndrewTulloch,Yangqing Jia,and Kaiming He.准确的,大的minibatch sgd : 1 小 时 内 训 练 imagenet 。 CoRR ,abs/1706.02677,2017。5[12] 郭佳峰,范义兴,艾庆耀,W Bruce Croft。一种用于ad-hoc检索的深度相关匹配模型。在ACM信息和知识管理集,第55-64页,2016年。2[13] 江品和韩亚红面向用户多样化查询的分层变分在2019年多媒体检索国际会议论文集,第202-206页二、六[14] 金浩建,宋耶鲁,谷谷浩二。Elasticplay:具有动态时间预算的交互式视频摘要。第25届ACM国际多媒体会议论文集,第1164-1172页,2017年。2[15] Yunjae Jung,Donghyeon Cho,Dahun Kim,SanghyunWoo和In So Kweon。用于无监督视频摘要的鉴别特征学习。在AAAI人工智能会议集,第33卷,第8537-8544页1[16] Hussain Kanafani , Junaid Ahmed Ghauri , SherzodHakimov,and Ralph Ewerth.通过多源特征的无监督视频摘要。2021年国际多媒体检索会议论文集,第466-470页,2021年。1[17] 克里斯托弗·科夫勒,玛莎·拉森,艾伦·汉贾利克。多媒体搜索中的用户意图:技术现状和未来挑战的调查。ACM Computing Surveys(CSUR),49(2):1-37,2016. 2[18] Yong Jae Lee,Joydeep Ghosh,and Kristen Grauman.覆盖重要的人和物体,用于以自我为中心的视频摘要。In Proceedings of the IEEE Conference计算机视觉和模式识别,第1346- 1353页,2012年。5[19] Jiawei Liu,Zheng-Jun Zha,Wei Wu,Kecheng Zheng,and Qibin Sun.视频中人物再识别的时空相关和拓扑学习。在IEEE/CVF计算机视觉和模式识别会议论文集,第4370-4379页,2021年。3[20] Behrooz Mahasseni、Michael Lam和Sinisa Todorovic。对抗性lstm网络的无监督视频摘要。在IEEE计算机视觉和模式识别集,第2021[21] 我是一个叫M a vroudi的人,我是Benja m'ınB e' jarHaro,还有Ren e'Vidal。视频理解中的视觉符号图表示学习在欧洲计算机视觉会议论文集,第71-90页,2020年。3[22] Safa Messaoud,Ismini Lourentzou,Assma Boughoula,Mona Zehni , Zhizhen Zhao , Chengxiang Zhai , andAlexan- der G.施温DeepQAMVS:用于多视频摘要的查询感知分层指针网络。在第44届国际ACM SIGIR信息检索研究与开发上,第1389-1399页2[23] Saiteja Nalla,Mohit Agrawal,Vishal Kaushal,GaneshRa- makrishnan,and Rishabh Iyer.以分钟计观看小时数:根据用户意图总结视频。在欧洲计算机视觉会议论文集,第714-730页,2020年。6[24] Boxiao Pan , Haoye Cai , De-An Huang , Kuan-HuiLee , Adrien Gaidon , Ehsan Adeli , and Juan CarlosNiebles.时空图与知识提炼之视讯字幕。在IEEE/CVF计算机视觉和模式识别会议论文集,第108703[25] Rameswar Panda , Niluthpol Chowdhury Mithun , andAmit K Roy-Chowdhury.多样性感知多视频10513总 结 IEEE Transactions on Image Processing , 26(10):4712-4724,2017。1[26] Pinelopi Papalampidi,Frank Keller,and Mirella Lapata.通过稀疏图构造的电影摘要在AAAI人工智能会议上,第13631-13639页1[27] Jungin Park,Jiyoung Lee,Ig-Jae Kim,and KwanghoonSohn. Sumgraph:通过递归图建模的视频摘要。在欧洲计算机视觉会议论文集,第647-663页,2020年。1[28] Adam Paszke , Sam Gross , Francisco Massa , AdamLerer , James Bradbury , Gregory Chanan , TrevorKi
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功