没有合适的资源?快使用搜索试试~ 我知道了~
Jing Shi†Jia Xu‡Boqing Gong‡Chenliang Xu†V1V2V3V44321104440并非所有帧都相等:具有上下文相似性和视觉聚类损失的弱监督视频关联0† 罗切斯特大学 ‡ 腾讯AI实验室 † { j.shi,chenliang.xu } @rochester.edu ‡ xujianjucs@gmail.com ‡boqinggo@outlook.com0摘要0我们研究了弱监督视频关联的问题,只提供视频级句子。这是一个具有挑战性的任务,先前基于多实例学习(MIL)的图像关联方法在视频领域中失败。最近的工作尝试将视频级MIL分解为帧级MIL,通过在帧上应用加权的句子-帧排序损失,但它不稳健且未利用视频中丰富的时间信息。在这项工作中,我们通过引入假阳性帧包约束和建模视频中的视觉特征一致性来解决这些问题。具体而言,我们设计了语义和视觉特征之间的上下文相似性,以处理跨帧的稀疏对象关联。此外,我们通过增强视觉空间中相似特征的聚类效应来利用时间一致性。我们在YouCookII和RoboWatch数据集上进行了广泛评估,并证明我们的方法明显优于先前的最先进方法。01. 引言0将文本信号与视觉空间区域进行关联具有各种应用,例如机器人技术[3,2],人机交互[27]和图像检索[11]。虽然静态图像中的视觉关联取得了很大的进展[11, 24, 4, 34,35],但是在视频中进行视觉关联仍然具有挑战性 -首先,视频包含许多帧,这引发了视频关联中独特的时间视觉-语言对齐问题;其次,尽管在线视频资源丰富,但构建一个带有关联注释的大规模视频数据集是昂贵且耗时的。因此,在本文中,我们的目标是进行弱监督视频关联:在没有对象位置注释的情况下,定位视频帧中的语言查询。Kapathy和Fei-Fei[11]介绍了一种基于多实例学习(MIL)的关联方法,该方法只需要0描述:将土豆加入锅中。查询:土豆0(a) 视频级MIL0土豆土豆0土豆土豆0土豆0(b) 帧级MIL0包0标签0视频段0图1. (a) 视频级MIL和(b)帧级MIL的示意图。V1到V4是从视频段中均匀采样的。不同帧中的区域提议通过颜色进行区分。视频级MIL将所有帧的区域提议放入一个包中,而帧级MIL为每个帧构建一个包。黑色阴影表示正例。这里存在一个困境:视频级MIL的包大小随着帧数的增加而单调增加,而帧级MIL可能包含误报的包,例如V3和V4的包。0图像和句子的对齐。它合理地假设每个图像至少包含一个与句子查询对应的区域。如果我们将图像定义为“包”,将区域定义为包中的实例,将语言查询定义为包的标签,则图像满足MIL中正例包的定义:如果其实例中至少有一个是正例,则包是正例。然而,直接将基于MIL的关联方法从图像扩展到视频很容易陷入困境,如图1所示。第一种方式是将每个视频视为一个包,其中包含跨帧的所有区域提议作为实例。然而,随着视频变得更长,包的大小将急剧增加。我们称之为“蛮力视频级MIL”。另一种选择是为每个帧构建一个包,并将相同的视频标签分配给所有帧包,但很容易触发误报包。这个选项被称为“帧级MIL”。Zhou等人[40]104450尝试通过选择基于帧级别的MIL来摆脱困境,但通过测量每个帧的“正”程度来加权每个帧的损失函数。换句话说,每个帧的损失与帧与查询之间的相似度定义的正指数相乘。然而,这种方法存在一个问题,会不可区分地放大对齐和未对齐对的相似度分数,并且对超参数非常敏感。为了克服上述限制,我们首先比较了原始的暴力视频级别MIL和帧级别MIL的性能,并决定遵循后者的选择。然后,为了更好地克服Zhou等人[40]的缺点,我们提出了一种上下文相似性,用于基于两个直觉的帧和语言查询之间的相似度得分:01.如果一个句子包含多个查询,则每个查询应该关注与其最相关的帧。02.如果一个对象在帧中出现得很稀疏,那么没有对象的帧应该与对象出现的帧相比较不重要。0在MIL的情况下,上下文相似性可以被视为通过考虑一帧成为查询的真正正样本的可能性而增强的相似性。而且,一个帧的这种可能性是通过查看同一视频中的其他帧来计算的,这使得它更可靠。通过用我们的上下文相似性替换普通的帧-句子相似性,可以缓解帧级别MIL中的误报包的困难。此外,上述方法未考虑视频中的视觉一致性,这是视频定位的一种独特属性;因此,我们提出了视觉聚类来更好地利用时间信息。视觉聚类受到以下思想的启发:03.如果两个区域与一个共同的查询具有高相似性,则它们也应该相互相似。0在这种情况下,视觉相似性不仅限于相邻帧,还可以与视频段中稀疏采样的帧一起工作。我们在YouCookII数据集[41]上进行了大量实验,该数据集是目前可用于视觉定位的最大的无约束指导性视频数据集。实验结果表明,与其他最先进的方法相比,我们提出的技术的有效性。此外,我们还展示了我们的技术可以提高RoboWatch数据集[26]的性能。本文的其余部分组织如下。我们在第2节中回顾了视觉定位、弱监督目标定位和特征嵌入的相关工作。我们在第3节中提出了0在第3节中,对上下文相似性和视觉聚类进行了正式描述。在第4节中,介绍了实验设置和评估结果。最后,在第5节中对本文进行了总结。02. 相关工作0视觉定位。监督式图像定位已经在[21, 20,37]中取得了成功;然而,该任务需要昂贵的边界框标签。最近,弱监督图像定位引起了社区的广泛关注。大多数弱监督定位方法可以分为基于提议的方法[11, 24,4]和无提议的方法[34,35]。在给定区域提议的情况下,Karpathy和Fei-Fei[11]将其制定为一个排名问题,根据视觉-语义相似度分数以MIL的方式对提议进行排名。Rohrbach等人[24]将短语编码为其最相似的区域,以将区域重构为短语。Chen等人[4]将知识从现成的物体检测器转移到短语定位中。对于无提议的方法,区域位置通常通过子窗口搜索从短语显著图中获得。Xiao等人[34]通过将语言结构视为位置关系的附加监督来生成显著图。Raymond等人[35]从统计角度对给定单词中图像概念的存在进行假设检验。弱监督定位也在视频中尝试过[36, 10, 40]。Yu和Siskind[36]在约束的录制视频中将句子定位到对象。Huang等人[10]结合了语言参考和定位,借鉴了图形结构建模[12, 38,30]。Zhou等人[40]通过帧加权将[11]扩展到视频领域,并取得了迄今为止在视频视觉定位上的最佳性能。在这项工作中,我们遵循基于提议的MIL方法[11,40],因为MIL学习框架的简单性和有效性。弱监督目标定位。方法,例如[8, 6, 7, 18,29],与视觉定位相关,但它们通常定位预定义的对象类别或视频标签,而在视觉定位中,目标可以是任何松散定义的单词或短语。大多数弱监督目标定位问题也可以形式化为MIL问题。包含标签的图像被视为正实例,否则不是。在这些方法中,[15,22]已经研究了弱监督视频定位。Kwak等人[15]将对象发现和对象跟踪结合在一起,而Prest等人[22]提取了候选时空管以获得更好的定位。与这些方法相比,我们提出了一种更简单的方法,在特征级别上利用时间信息,而不需要跟踪或形成管道,这通常是计算昂贵的。S(V, Q) = 1K k=1maxt,n at,nk,(2)Lrank = max(0, S(V, Q′) − S(V, Q) + ∆)+max(0, S(V′, Q) − S(V, Q) + ∆) .(3)S(Vt, Q) = 1KK�k=1maxnat,nk ,(4)Ltrank = max(0, S(Vt, Q′) − S(Vt, Q) + ∆)+max(0, S(V ′t , Q) − S(Vt, Q) + ∆) .(5)Lrank = 1TT�t=1Ltrank .(6)104460特征嵌入。在度量学习中,对比损失[9,31]和三元组损失[25]被广泛用于增强具有聚类特性的特征空间。当涉及到跨模态嵌入时,它们仍然适用于来自不同模态(例如语言和图像[11])的成对和三元组元素。然而,Collell和Moens[5]表明,源模态的投影与目标模态不相似,从邻域拓扑的角度来看,这促使研究人员开发更具有辨别性的映射。一种方法是使用中心损失[33]来减少类内特征变化,该损失已经在人脸验证[17]和物体检索[39]等任务中使用。然而,中心损失通常需要监督,不能适用于我们的任务。其他方法,如结构保持损失[32],由于边界和邻域的存在,会引入额外的超参数。与上述工作不同,我们使用时间上的视觉一致性作为附加线索来减少类内特征变化。03. 方法论03.1. 问题建模0给定一个视频片段及其句子描述,我们希望将每个查询定位到视频的每一帧中,其中查询可以是单词或短语。形式上,我们将视频片段表示为一组T帧V ={Vt}Tt=1,每个帧Vt包含一组N个区域提案{vtn}Nn=1,其中上标t索引帧,下标n索引当前帧上的提案。我们将句子表示为一组K个查询Q ={qk}Kk=1,每个qk对应于句子中的一个或多个单词。在这里,视觉特征和查询特征都被编码为一个共同的d维空间,使得vtn,qk∈Rd。根据[11]和[40],我们将查询qk与区域vtn之间的相似度定义为:0at,nk = qTkvtn , (1)0其中T表示转置。我们将未配对的查询和区域提案定义为负样本Q'和V'。接下来,我们介绍两种视觉定位方法:暴力视频级MIL和帧级MIL。我们的最终模型基于后者。暴力视频级MIL。暴力视频级MIL将视频视为一个包,将视频中的所有帧中的区域视为包中的实例,然后在包级上使用排序损失进行训练。因此,视频片段V和描述Q之间的相似度得分可以写成:0K0并且带有边界∆的排序损失定义为:0直观地,式(2)将区域查询相似性转化为视频-句子相似性,其中max是MIL中选择正样本实例的关键操作,可以解释为选择与查询最相似的区域。然后,构建成对排序损失以嵌入具有比未对齐的成对更高相似性的视频-句子对。然而,这种方法有一个致命的缺点——随着视频中帧数的增加,包的大小会单调增加。尽管如此,我们仍然在第4.2节中将其与我们的模型进行比较。帧级MIL。帧级MIL是一种替代的方法,用于解决暴力视频级MIL的问题。帧级MIL将帧视为一个包,将帧中的所有区域视为包中的实例,然后在帧级上使用排序损失进行训练。在这里,我们将句子和帧之间的相似度定义为:0以及每个帧上的排名损失与边界 ∆ 的关系是:0因此,最终的排名损失对所有帧进行平均:0直观上,帧级MIL允许查询在每个帧中找到最相似的区域以表示相似度得分。虽然这种方法有固定的包大小,但它假设视频片段中的所有帧都是正样本包。当查询的对象在帧之间稀疏出现时,这个假设会被打破,并触发错误的正样本包,如图1所示。我们遵循这个框架,因为它利用了视频片段中更多的正实例;这可能会增加训练样本并且更加灵活。接下来,我们将展示如何减轻纯粹的帧级MIL的这些缺点。03.2. 上下文相似度0我们通过创建帧和查询之间的上下文相似度来减轻错误的正样本帧包问题;其高级示意图如图2所示。从MIL的角度来看,上下文相似度可以被视为通过考虑帧成为查询的真正正样本包的可能性而增强的更好的相似度。此外,对于一个帧来说,这种可能性是通过观察同一视频中的其他帧来计算的,使其更加可靠。具体而言,我们首先定义帧 V t 与查询 qk 之间的原始相似度为:010.3!"̅S(Vt, qk) = maxnat,nk,(7)then the contextual similarity between frame and query isdefined as:¯S(Vt, qk) = S(Vt, qk) ˜S(Vt, qk) ,(8)where ˜S(Vt, qk) is expanded as:˜S(Vt, qk) =S(Vt, qk) − mintS(Vt, qk)maxtS(Vt, qk) − mintS(Vt, qk) .(9)S(Vt, Q) = 1KK�k=1¯S(Vt, qk) .(10)Next, we put Eq. (10) into Eq. (5) to get Ltrank, and thevideo-level ranking loss is the same as Eq. (6).The reason to design Eq. (9) is that the ˜S(Vt, qk) guar-antees the validity of the key frame with the highest frame-query score in the video segment, because it correspondsto ˜S(Vt, qk) = 1. And, it can directly abandon the triv-ial frame which has the lowest frame-query score since its˜S(Vt, qk) = 0. Hence, we decay the importance of eachframes by their relative importance to the key frame and thetrivial frame. Furthermore, our formulation will not intro-duce additional hyper-parameters and is robust in training.Also, we find that letting gradient propagate to Eq. (9) leadsto better performance.ˆvt,k =arg maxvnt ∈{v1t ,...,vNt }qTk vnt .(11)Lvis = −�k�t
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功