没有合适的资源?快使用搜索试试~ 我知道了~
6243基于弱监督能量学习的动作分割君李俄勒冈州立大学liju2@oregonstate.edu彭磊Amazon.com Services,Inc.leipeng@amazon.com俄勒冈州立大学sinisa@oregonstate.edu摘要本文是关于在训练中弱监督下用动作类标记视频帧的,我们可以访问动作的时间顺序,但它们在训练视频中的开始和结束帧是未知的。在先前的工作之后,我们使用基于门控递归单元(GRU)的HMM来进行帧标记。我们的主要贡献是一个新的约束判别前向损失(CDFL),我们用于训练弱监督下的HMM和GRU虽然以前的工作通常估计一个单一的,推断的视频分割的损失,我们的CDFL区分之间的能量的所有有效和无效的帧标记的训练视频。一个有效的帧标记满足地面实况的时间顺序的行动,而一个无效的违反地面实况。我们指定一个高效的递归算法计算的CDFL的logadd函数的分割能量。我们对动作分割和对齐的评估 在 基 准 Breakfast Action , Hollywood Extended 和50Salads数据集上提供了优于最先进技术的†1. 介绍本文提出了一种弱监督的动作分割方法,通过标记视频帧的动作类。弱监督意味着在训练中,我们的方法只能访问动作的时间顺序,但不提供它们的地面实况开始和结束帧这对于广泛的应用来说是一个重要的问题,因为更常见的完全监督动作分段通常需要对每个视频帧中的动作发生进行昂贵的手动注释。我们的基本挑战是训练视频的所有可能分割的集合可以包括满足所提供的动作的地面实况排序的多个不同的有效分割,以及违反地面实况的无效分割。目前尚不清楚如何这项工作是在彭之前在俄勒冈州立大学完成的Lei加入了亚马逊。†代码可在https://github.com/JunLi- Galios/CDFL获得。以估计多个有效分割上的损失(并随后训练分割器)动机:先前的工作[8,12,20,7,22]通常使用时间模型(例如,深度神经网络或HMM)来推断单个、有效、最优的视频分段,并且将该推断结果作为用于估计所招致的损失的伪基础事实。然而,特定的训练视频可能表现出显著的变化(沿着训练过程尚未被模型捕获),这可能负面地影响伪地面实况的估计,使得推断的动作分割与真实的动作分割显著不同。进而,在不正确的伪基础事实上估计的损失可能通过减少而不是最大化基础事实与其他有效分割之间的区别性裕度来在本文中,我们试图缓解这些问题。贡献:先前的工作表明,统计语言模型对于视频序列的弱监督学习和建模是有用的[17,9,19,22,3] 。 在 [22] 之 后 , 我 们 还 采 用 基 于 门 控 递 归 单 元(GRU)[4]的隐马尔可夫模型(HMM)来标记视频帧。主要的区别是,我们不生成一个唯一的伪地面真相的训练。相反,当估计损失时,我们有效地考虑训练视频的所有候选分割。为此,我们制定了一个新的约束判别前向损失(CDFL)的有效和无效的候选视频分割的能量之间的差异。与先前的工作相比,CDFL提高了我们的训练的鲁棒性,因为最小化CDFL相当于最大化满足和违反地面实况的候选分割之间的区分裕度,而先前的工作仅优化了推断的单个有效分割的得分当CDFL只考虑边缘能量低于有效分割的硬无效分割时,训练的鲁棒性进一步提高。随着新的CDFL制定,我们的主要贡献是一个新的递归算法,有效地估计CDFL的分割能量的logadd函数我们的方法:图1示出了我们对具有GRU的HMM的弱监督训练的概述,其包括6244图1. 我们的弱监督训练:对于训练视频,我们首先使用基于门控递归单元(GRU)的隐马尔可夫模型(HMM)估计候选分割切割,然后构建一个完全连接的分割图,其路径表示候选动作分割(颜色标记沿着路径的不同动作类然后,我们根据图中所有有效和无效路径的累积能量有效地计算约束判别前向损失(CDFL),(best(见颜色)两步在第一步中,我们在给定的训练视频上运行用于HMM推理的约束Viterbi算法,因此所得分割是有效的。该初始视频分段用于有效地构建全连接分段图,该全连接分段图旨在表示备选的可分割分段。在该图中,节点表示初始推断的分割的分割切割,即,其中一个动作结束而随后的动作开始的视频帧,并且边缘表示每两个按时间排序的剪辑之间的视频段。为了改进动作边界检测,我们进一步用每个剪切附近的视频帧来增强初始节点集,以及用所添加的节点之间的对应时间链接来增强初始边缘集这样的完全连接图的有向路径明确地表示许多候选动作分割,超出了初始HMM我们训练的第二步有效地计算了分割图中所有路径上帧标记的总能量分数。效率来自于我们的新的递归估计的分割能量,其中我们利用累积属性的logadd函数。沿着有效路径和无效路径的动作标记的累积能量的差用于计算CDFL。在本文中,我们还考虑了其他几种损失用有效路径和无效路径的能量表示的公式。然后,损失被用于训练HMM参数,并被反向传播到GRU以进行端到端训练。对于测试视频的推理,如在我们训练的第一步中,我们使用约束Viterbi算法来执行HMM推理,这将满足训练中看到的至少一个动作然后,我们使用该初始视频分段作为锚点,用于构建包括具有更精细动作边界的路径的分段我们的输出是图中的MAP路径.为了进行评估,我们考虑了动作分割和动作对齐的任务,后者提供了关于动作时间顺序的广告信息在测试视频中。 对于早餐的两个任务- [10],好莱坞扩展数据集[1]和50-沙拉数据集[24],我们超越了最先进的技术水平。接 下 来 , SEC 。 2 、 相 关 工 作 , 二 。 3 formates-mulates我们的HMM和约束维特比的动作分割,秒。4描述了我们如何构建分割图,Sec。5规定了我们的CDFL和相关损失函数,六是我们的评价。2. 相关工作本节回顾了弱监督动作分割和图Transformer网络的密切相关的工作。虽然对完全监督的动作分割[25,14,18,16]的回顾超出了我们的范围,但值得注意的是,我们的方法使用与[23,25,6]中相同的循环深度模型进行帧标记此外,我们的方法的动机是[11,19],它将HMM和动作长度先验建模集成在深度学习架构中。弱监督动作分割最近取得了很大进展[24,10,20,7,22]。例如,扩展联结时间分类(ECTC)解决了在被约束条件下的动作对齐问题。与帧到帧视觉相似性一致[8]。此外,动作分割已经用判别聚类的凸关系解决,并且用条件梯度(Frank-Wolfe)算法有效地解决[1]。其他方法使用交替训练的局部动作模型和全局时间对齐模型[12,20]。一些方法最初使用时间卷积网络预测视频分割,然后迭代地细化动作边界[7]。其他方法首先为所有视频帧生成伪地面实况标签,例如,使用Viterbi算法[22],然后通过最小化标准交叉熵损失来训练这些帧标签上的分类器最后,[21]解决了与我们不同的弱监督设置,当地面真值仅提供一组存在的动作而没有它们的时间顺序时。所有这些方法都将它们的学习和预测建立在估计标记个体的惩罚或概率的基础上6245λ1:N1:N双帧相比之下,我们使用基于能量的框架,具有以下差异。首先,在训练中,我们最小化分割图中有效路径的总能量,而不是优化每帧的标记概率。其次,而不是考虑一个单一的最佳有效路径的分割图,我们指定的损失函数的所有有效路径。因此,在帧的伪标签上进行Viterbi初始化训练[22]代表了我们仅针对一个有效路径进行训练的特殊情况此外,我们的损失通过考虑分割图中的无效路径来执行区分训练与[3]随机选择无效路径不同,我们在训练中有效地考虑了所有硬无效路径。最后,我们的训练不像[12,20]中那样是迭代的,并且不需要像[7]中那样迭代细化动作边界。我们的CDFL扩展了用于训练图Transformer网络(GTN)的损失据我们所知,GTN仅用于文本分析,而从未用于动作分割。与GTN训练相比此外,虽然用于训练GTN的损失考虑了有效和无效的文本解析,但它不能处理有效解析的分数低于无效解析的特殊情况。相反,我们的CDFL有效地占有效和无效路径的能量,即使有效路径具有显着低于无效路径的分段图中的能量3. 我们的动作分割模型问题设置:对于长度为T的每个训练视频,在(1)中,似然性p(xt|a)估计为p(x|a)∝p(a|xt),(2)tp(a)其中p(a)|xt)是GRU对动作a ∈ A的softmax得分在帧t处,并且动作类p(a)的先验分布为训练数据集中动作发生的归一化帧频率动作长度的似然被建模为类相关的泊松分布Lp(l|a)=ae−λa,(3)l!其中λa是类a∈ A的平均长度。最后,如果训练集中存在转录本a1:N,则联合先验p(a1:N)是常数;否则,p(a1:N)= 0。相同的建模公式是有充分动机的,并用于现有技术[22]。约束维特比算法:给定一个训练视频,我们首先通过使用约束V iterbi算法最大化(1)来找到最佳有效动作分割(a1:N,l),这确保a1:N等于注释的转录,a1:N=a1:N。 类似地,为了对测试视频进行推断,我们首先对训练中看到的所有转录本{ai:N}执行约束维特比算法,即, 确保在训练中至少看到一次预测的a/n =1:N。因此,我们对训练或测试视频与[22]中的相同。我们与[22]的主要区别在于,我们使用初始(a_i:N_i,l_i)有效地构造一个全连通段,我们得到无监督的帧级特征,x1:T=图的视频,如第二节中所解释的。4.第一章重要的是,在训练中,分割图不是为了找到[x1,x2,… xT],以及行 动 的地面实况排序类a1:N=[a1,a2,..., aN],也称为转录本。 N是注释序列的长度,并且ann是属于K个动作类的集合的1:N中的第n个动作类,ann∈ A={1,2,.,K}。注意,T和N可以在训练集上变化,并且可以存在多于一个T和N。改进初始预测的更优化的视频分段。相反,该图用于有效地解释所有有效和无效分割。给定视频x1:T和转录a1:N,维特比算法递归地最大化(1)中的后验,使得转录本的前n个动作标签a1:n=同一动作类的一次出现以1:N的比例展开,[a1,.,an[英拉1:N在时间t被尊重:(butnn+1)。.在推断中,给定视频的帧特征X1:Tˆp(a1:n,ln1:n|x1:t)=maxp(a1:n−1,l1:n−1|x1:t′)目标是找到最优分割(a=1:N= 1,l= 1:N= 1),其中.t′,t′< tΣ ΣN是动作序列的预测长度,Y是l=[l1,l2,···,l]包括·p(xs|an(s))·p(ln|an)·p(al:n),1:N Nˆs=t′由预测动作a_n占据的视频帧l_n。模型:我们使用HMM对给定x1:T的视频分割(a1:N,l1:N)(四)其中ln=t-t′。 W e set p(·|x1:0)=1,并且p(al:n)=κ,其中κ >0是常数。p(al:N,ll:N |x 1:T)∝。p(x1:T|a1:N,11:N=0)p.(11:N)|a1:N)p(a1:N),4. 构建分割图给定 视频X, 我们 第一 运行 受约束YT=p(xt|an(t))t=16246ΣYNp(ln|an)n=1p(al:N)。1:TViterbi算法获得初始视频分割(a101:N,l). 简单地说,在以下方面,我们认识到,1:N(1)符号。 该初始分割的特征在于6247II图2. 构建分割图G(最佳颜色)。G的初始节点表示在约束维特比中获得的分割切割b n(预测的动作类是用不同的颜色标记)。 每个bn生成额外的ver-表示在以bn为中心的窗口内的相邻视频帧的块bn={vns}(黑色矩形),以及对应的G中所有时间有序顶点对之间的新边( vns, vn′s′)(虚线)。为了清楚起见,我们仅示出几个边缘。G具有指数级的多条路径,每条路径表示一个候选动作分段。N+ 1次切割,b1:N+1= [b1,. . .,bN+1],即,前一个动作结束而下一个动作开始的视频帧,包括在时间T的第一帧b1和最后一帧bN+1。我们使用这些切割来锚定我们的全连接分割图G=(V,E,W)的构造,其中V={b1:N+1}是节点的集合,E是链接每两个时间排序的节点的有向边的集合,W是一个有效路径的子集PVP满足给定的脚本。其他路径无效,PI=P \ PV。在下一节中,我们将解释如何有效地...将指数级多条路径的总能量得分P估计我们在训练中的损失。5. 约束判别前向损失在本文中,我们研究了三个不同的损失函数,定义在一个总的能量得分的道路在G。由于G中有指数级多条路径,我们的主要贡献是有效地估计它们的总能量的算法。下面,我们指定三个损失函数,按其复杂性排序。正如我们将在Sec中展示的那样。6、在训练中使用CDFL时,我们获得了最好的成绩。5.1. 正向损耗我们使用标准logadd函数根据所有有效路径的总能量来定义前向损耗L_F为:ΣLF=−log(exp(−Eπ)),(7)π∈PV对应的边权重。b中的一些估计削减可能是假的,其中,路径Eπ的能量由(6)给出。因为有前-PV中的ponentially许多路径,我们不能直接计算1:N+1或者可能不完全与真实切割一致。为了提高动作边界检测,我们用代表相邻视频帧的节点来增强初始V在长度为1的时间窗口内的每个切割bn,如图所示,在b n处。2.对于第一帧和最后一帧,我们设置= 1。因此,每个bn可以被看作是包括G中的附加顶点的h型r-节点,V={bn={vn1,···,vni,···,vn∆}:n = 1,. . . ,N +1},并且一致-E={(vni,vn′i′):n≤n′,i i′}. 下面我们简化顶点vni→vi∈ V和边(vni,vn′i′)→eii′=(vi,vi′)的符号。每个边eii’被分配权重向量wii’= [wii’(a)],其中wii’(a)被定义为用动作类a∈A标记视频片段(vi,vi’)的能量:LF如(7)中所述。因此,我们推导出一种新颖的递归算法,用于沿着多个路径累积边缘的能量分数,如下所述。我们首先将logadd函数定义为logadd(a,b)= − log(exp(−a)+exp(−b))。(八)注意,logadd函数是可交换的和结合的,所以它可以以递归的方式在集合S上定义logadd(S)= logadd(S\{x},x),(9)其中x是S中的元素。因此,由(7)给出的正向损耗可以表示为LF= logadd({Eπ:π∈ PV})。(十)Σwii′(a)=−log p(a|xt),(5)下面,我们将符号简化为LF=logadd(PV)。t∈(vi,vi′)其中p(a)|Xt)是在帧t处的动作a的GRU的softmax分数。G包括指数地多个有向路径P={π},其中每个π表示特定的视频分段。在每个π中,每个边eii′只被分配一个动作类aπ′∈ A。因此,具有K个不同类别指派的非常相同的边属于图1中的K个不同路径。6248π我们递归地计算a的能量得分i′(a1:n)结束于节点i′并覆盖地面真值a1 的 前 n 个 标 签 的 路 径 : n=[a1,...,an]a1:N,根据在节点i,i i ′处结束并覆盖前n − 1个标签的所有有效路径的l o gadd得分i(a1:n−1)<为i′(a1:n)=log g add({<(十一)为了证明(11),假设P.我们计算路径的能量为ΣEπ=wii′(aii ′)。(六)eii′∈πi(a1:n−1)=logadd({EπiΣ= −log(πi∈PV:πi∈ PV})exp(−Eπi)),(12)6249π我′5.2. 判别性前向损失我们还考虑了判别性前向损失LDF,它通过额外考虑G中的无效路径来扩展LF:算法1:计算前向损失LF。LDF=logadd(PV)-α logadd(P),(15)其中logadd(P)聚合了G,α>0是控制LDF的有效路径和无效路径的相对重要性。Alg. 2总结了我们在(15)中计算logadd(P)的递归算法,而Alg.1显示如何计算(15)中的logadd(PV)LDF优于LF的一个优点是最小化LDF相当于最大化有效路径和无效路径之间的判决裕度。然而,LDF的潜在缺点是有效路径在(15)中可能几乎没有影响。在这种情况下,当有效路径的能量主导所有路径的总能量时,前者在(15)中被有效地减去,因此对学习的影响很小。此外,我们注意到,在某些情况下,背面-LDF的传播由无效路径支配。这从下面的推导中可以清楚地看出我们将梯度ΔLDF计算为LDF=l算法2:计算所有路径的logadd得分哪里=c1−c2ΣΣπ∈PVexp(−Eπ)Eππ∈PIexp(−Eπ)<$Eπ,Σ(十六)在P中,对于判别性前向损失LDF。(1−α)π∈PVexp(−Eπ)+π∈PIexp(−Eπ)c1=Σ(π∈PΣVexp(−Eπ))(π∈P exp(−Eπ)) ,其中πi是一条以i为终点的路径,其转录本为a1:n−1。C2 =Σαπ∈Pexp(−Eπ)(十七)然后,我们有i′(a1:n) 为log g add({i(a1:n−1)+wii′(an):i
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功