基于弱监督能量学习的动作分割方法

21 浏览量更新于2023-10-13 收藏 936KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

6243基于弱监督能量学习的动作分割君李俄勒冈州立大学liju2@oregonstate.edu彭磊Amazon.com Services，Inc.leipeng@amazon.com俄勒冈州立大学sinisa@oregonstate.edu摘要本文是关于在训练中弱监督下用动作类标记视频帧的，我们可以访问动作的时间顺序，但它们在训练视频中的开始和结束帧是未知的。在先前的工作之后，我们使用基于门控递归单元（GRU）的HMM来进行帧标记。我们的主要贡献是一个新的约束判别前向损失（CDFL），我们用于训练弱监督下的HMM和GRU虽然以前的工作通常估计一个单一的，推断的视频分割的损失，我们的CDFL区分之间的能量的所有有效和无效的帧标记的训练视频。一个有效的帧标记满足地面实况的时间顺序的行动，而一个无效的违反地面实况。我们指定一个高效的递归算法计算的CDFL的logadd函数的分割能量。我们对动作分割和对齐的评估在基准 Breakfast Action ， Hollywood Extended 和50Salads数据集上提供了优于最先进技术的†1. 介绍本文提出了一种弱监督的动作分割方法，通过标记视频帧的动作类。弱监督意味着在训练中，我们的方法只能访问动作的时间顺序，但不提供它们的地面实况开始和结束帧这对于广泛的应用来说是一个重要的问题，因为更常见的完全监督动作分段通常需要对每个视频帧中的动作发生进行昂贵的手动注释。我们的基本挑战是训练视频的所有可能分割的集合可以包括满足所提供的动作的地面实况排序的多个不同的有效分割，以及违反地面实况的无效分割。目前尚不清楚如何这项工作是在彭之前在俄勒冈州立大学完成的Lei加入了亚马逊。†代码可在https://github.com/JunLi- Galios/CDFL获得。以估计多个有效分割上的损失（并随后训练分割器）动机：先前的工作[8，12，20，7，22]通常使用时间模型（例如，深度神经网络或HMM）来推断单个、有效、最优的视频分段，并且将该推断结果作为用于估计所招致的损失的伪基础事实。然而，特定的训练视频可能表现出显著的变化（沿着训练过程尚未被模型捕获），这可能负面地影响伪地面实况的估计，使得推断的动作分割与真实的动作分割显著不同。进而，在不正确的伪基础事实上估计的损失可能通过减少而不是最大化基础事实与其他有效分割之间的区别性裕度来在本文中，我们试图缓解这些问题。贡献：先前的工作表明，统计语言模型对于视频序列的弱监督学习和建模是有用的[17，9，19，22，3] 。在 [22] 之后，我们还采用基于门控递归单元（GRU）[4]的隐马尔可夫模型（HMM）来标记视频帧。主要的区别是，我们不生成一个唯一的伪地面真相的训练。相反，当估计损失时，我们有效地考虑训练视频的所有候选分割。为此，我们制定了一个新的约束判别前向损失（CDFL）的有效和无效的候选视频分割的能量之间的差异。与先前的工作相比，CDFL提高了我们的训练的鲁棒性，因为最小化CDFL相当于最大化满足和违反地面实况的候选分割之间的区分裕度，而先前的工作仅优化了推断的单个有效分割的得分当CDFL只考虑边缘能量低于有效分割的硬无效分割时，训练的鲁棒性进一步提高。随着新的CDFL制定，我们的主要贡献是一个新的递归算法，有效地估计CDFL的分割能量的logadd函数我们的方法：图1示出了我们对具有GRU的HMM的弱监督训练的概述，其包括6244图1. 我们的弱监督训练：对于训练视频，我们首先使用基于门控递归单元（GRU）的隐马尔可夫模型（HMM）估计候选分割切割，然后构建一个完全连接的分割图，其路径表示候选动作分割（颜色标记沿着路径的不同动作类然后，我们根据图中所有有效和无效路径的累积能量有效地计算约束判别前向损失（CDFL），(best（见颜色）两步在第一步中，我们在给定的训练视频上运行用于HMM推理的约束Viterbi算法，因此所得分割是有效的。该初始视频分段用于有效地构建全连接分段图，该全连接分段图旨在表示备选的可分割分段。在该图中，节点表示初始推断的分割的分割切割，即，其中一个动作结束而随后的动作开始的视频帧，并且边缘表示每两个按时间排序的剪辑之间的视频段。为了改进动作边界检测，我们进一步用每个剪切附近的视频帧来增强初始节点集，以及用所添加的节点之间的对应时间链接来增强初始边缘集这样的完全连接图的有向路径明确地表示许多候选动作分割，超出了初始HMM我们训练的第二步有效地计算了分割图中所有路径上帧标记的总能量分数。效率来自于我们的新的递归估计的分割能量，其中我们利用累积属性的logadd函数。沿着有效路径和无效路径的动作标记的累积能量的差用于计算CDFL。在本文中，我们还考虑了其他几种损失用有效路径和无效路径的能量表示的公式。然后，损失被用于训练HMM参数，并被反向传播到GRU以进行端到端训练。对于测试视频的推理，如在我们训练的第一步中，我们使用约束Viterbi算法来执行HMM推理，这将满足训练中看到的至少一个动作然后，我们使用该初始视频分段作为锚点，用于构建包括具有更精细动作边界的路径的分段我们的输出是图中的MAP路径.为了进行评估，我们考虑了动作分割和动作对齐的任务，后者提供了关于动作时间顺序的广告信息在测试视频中。对于早餐的两个任务- [10]，好莱坞扩展数据集[1]和50-沙拉数据集[24]，我们超越了最先进的技术水平。接下来， SEC 。 2 、相关工作，二。 3 formates-mulates我们的HMM和约束维特比的动作分割，秒。4描述了我们如何构建分割图，Sec。5规定了我们的CDFL和相关损失函数，六是我们的评价。2. 相关工作本节回顾了弱监督动作分割和图Transformer网络的密切相关的工作。虽然对完全监督的动作分割[25，14，18，16]的回顾超出了我们的范围，但值得注意的是，我们的方法使用与[23，25，6]中相同的循环深度模型进行帧标记此外，我们的方法的动机是[11，19]，它将HMM和动作长度先验建模集成在深度学习架构中。弱监督动作分割最近取得了很大进展[24，10，20，7，22]。例如，扩展联结时间分类（ECTC）解决了在被约束条件下的动作对齐问题。与帧到帧视觉相似性一致[8]。此外，动作分割已经用判别聚类的凸关系解决，并且用条件梯度（Frank-Wolfe）算法有效地解决[1]。其他方法使用交替训练的局部动作模型和全局时间对齐模型[12，20]。一些方法最初使用时间卷积网络预测视频分割，然后迭代地细化动作边界[7]。其他方法首先为所有视频帧生成伪地面实况标签，例如，使用Viterbi算法[22]，然后通过最小化标准交叉熵损失来训练这些帧标签上的分类器最后，[21]解决了与我们不同的弱监督设置，当地面真值仅提供一组存在的动作而没有它们的时间顺序时。所有这些方法都将它们的学习和预测建立在估计标记个体的惩罚或概率的基础上6245λ1：N1：N双帧相比之下，我们使用基于能量的框架，具有以下差异。首先，在训练中，我们最小化分割图中有效路径的总能量，而不是优化每帧的标记概率。其次，而不是考虑一个单一的最佳有效路径的分割图，我们指定的损失函数的所有有效路径。因此，在帧的伪标签上进行Viterbi初始化训练[22]代表了我们仅针对一个有效路径进行训练的特殊情况此外，我们的损失通过考虑分割图中的无效路径来执行区分训练与[3]随机选择无效路径不同，我们在训练中有效地考虑了所有硬无效路径。最后，我们的训练不像[12，20]中那样是迭代的，并且不需要像[7]中那样迭代细化动作边界。我们的CDFL扩展了用于训练图Transformer网络（GTN）的损失据我们所知，GTN仅用于文本分析，而从未用于动作分割。与GTN训练相比此外，虽然用于训练GTN的损失考虑了有效和无效的文本解析，但它不能处理有效解析的分数低于无效解析的特殊情况。相反，我们的CDFL有效地占有效和无效路径的能量，即使有效路径具有显着低于无效路径的分段图中的能量3. 我们的动作分割模型问题设置：对于长度为T的每个训练视频，在（1）中，似然性p（xt|a）估计为p（x|a）∝p（a|xt），（2）tp（a）其中p（a）|xt）是GRU对动作a ∈ A的softmax得分在帧t处，并且动作类p（a）的先验分布为训练数据集中动作发生的归一化帧频率动作长度的似然被建模为类相关的泊松分布Lp（l|a）=ae−λa，（3）l！其中λa是类a∈ A的平均长度。最后，如果训练集中存在转录本a1：N，则联合先验p（a1：N）是常数;否则，p（a1：N）= 0。相同的建模公式是有充分动机的，并用于现有技术[22]。约束维特比算法：给定一个训练视频，我们首先通过使用约束V iterbi算法最大化（1）来找到最佳有效动作分割（a1：N，l），这确保a1：N等于注释的转录，a1：N=a1：N。类似地，为了对测试视频进行推断，我们首先对训练中看到的所有转录本{ai：N}执行约束维特比算法，即，确保在训练中至少看到一次预测的a/n =1：N。因此，我们对训练或测试视频与[22]中的相同。我们与[22]的主要区别在于，我们使用初始（a_i：N_i，l_i）有效地构造一个全连通段，我们得到无监督的帧级特征，x1：T=图的视频，如第二节中所解释的。4.第一章重要的是，在训练中，分割图不是为了找到[x1，x2，… xT]，以及行动的地面实况排序类a1：N=[a1，a2，...， aN]，也称为转录本。 N是注释序列的长度，并且ann是属于K个动作类的集合的1：N中的第n个动作类，ann∈ A={1，2，.，K}。注意，T和N可以在训练集上变化，并且可以存在多于一个T和N。改进初始预测的更优化的视频分段。相反，该图用于有效地解释所有有效和无效分割。给定视频x1：T和转录a1：N，维特比算法递归地最大化（1）中的后验，使得转录本的前n个动作标签a1：n=同一动作类的一次出现以1：N的比例展开，[a1，.，an[英拉1：N在时间t被尊重：(butnn+1）。.在推断中，给定视频的帧特征X1：Tˆp（a1：n，ln1：n|x1：t）=maxp（a1：n−1，l1：n−1|x1：t′）目标是找到最优分割（a=1：N= 1，l= 1：N= 1），其中.t′，t′< tΣ ΣN是动作序列的预测长度，Y是l=[l1，l2，···，l]包括·p（xs|an（s））·p（ln|an）·p（al：n），1：N Nˆs=t′由预测动作a_n占据的视频帧l_n。模型：我们使用HMM对给定x1：T的视频分割（a1：N，l1：N）（四）其中ln=t-t′。 W e set p（·|x1：0）=1，并且p（al：n）=κ，其中κ >0是常数。p（al：N，ll：N |x 1：T）∝。p（x1：T|a1：N，11：N=0）p.（11：N）|a1：N）p（a1：N），4. 构建分割图给定视频X，我们第一运行受约束YT=p（xt|an（t））t=16246ΣYNp（ln|an）n=1p（al：N）。1：TViterbi算法获得初始视频分割（a101：N，l）. 简单地说，在以下方面，我们认识到，1：N(1)符号。该初始分割的特征在于6247II图2. 构建分割图G（最佳颜色）。G的初始节点表示在约束维特比中获得的分割切割b n（预测的动作类是用不同的颜色标记）。每个bn生成额外的ver-表示在以bn为中心的窗口内的相邻视频帧的块bn={vns}（黑色矩形），以及对应的G中所有时间有序顶点对之间的新边（ vns， vn′s′）（虚线）。为了清楚起见，我们仅示出几个边缘。G具有指数级的多条路径，每条路径表示一个候选动作分段。N+ 1次切割，b1：N+1= [b1，. . .，bN+1]，即，前一个动作结束而下一个动作开始的视频帧，包括在时间T的第一帧b1和最后一帧bN+1。我们使用这些切割来锚定我们的全连接分割图G=（V，E，W）的构造，其中V={b1：N+1}是节点的集合，E是链接每两个时间排序的节点的有向边的集合，W是一个有效路径的子集PVP满足给定的脚本。其他路径无效，PI=P \ PV。在下一节中，我们将解释如何有效地...将指数级多条路径的总能量得分P估计我们在训练中的损失。5. 约束判别前向损失在本文中，我们研究了三个不同的损失函数，定义在一个总的能量得分的道路在G。由于G中有指数级多条路径，我们的主要贡献是有效地估计它们的总能量的算法。下面，我们指定三个损失函数，按其复杂性排序。正如我们将在Sec中展示的那样。6、在训练中使用CDFL时，我们获得了最好的成绩。5.1. 正向损耗我们使用标准logadd函数根据所有有效路径的总能量来定义前向损耗L_F为：ΣLF=−log（exp（−Eπ）），（7）π∈PV对应的边权重。b中的一些估计削减可能是假的，其中，路径Eπ的能量由（6）给出。因为有前-PV中的ponentially许多路径，我们不能直接计算1：N+1或者可能不完全与真实切割一致。为了提高动作边界检测，我们用代表相邻视频帧的节点来增强初始V在长度为1的时间窗口内的每个切割bn，如图所示，在b n处。2.对于第一帧和最后一帧，我们设置= 1。因此，每个bn可以被看作是包括G中的附加顶点的h型r-节点，V={bn={vn1，···，vni，···，vn∆}：n = 1，. . . ，N +1}，并且一致-E={（vni，vn′i′）：n≤n′，i i′}. 下面我们简化顶点vni→vi∈ V和边（vni，vn′i′）→eii′=（vi，vi′）的符号。每个边eii’被分配权重向量wii’= [wii’（a）]，其中wii’（a）被定义为用动作类a∈A标记视频片段（vi，vi’）的能量：LF如（7）中所述。因此，我们推导出一种新颖的递归算法，用于沿着多个路径累积边缘的能量分数，如下所述。我们首先将logadd函数定义为logadd（a，b）= − log（exp（−a）+exp（−b））。（八）注意，logadd函数是可交换的和结合的，所以它可以以递归的方式在集合S上定义logadd（S）= logadd（S\{x}，x），（9）其中x是S中的元素。因此，由（7）给出的正向损耗可以表示为LF= logadd（{Eπ：π∈ PV}）。（十）Σwii′（a）=−log p（a|xt），（5）下面，我们将符号简化为LF=logadd（PV）。t∈（vi，vi′）其中p（a）|Xt）是在帧t处的动作a的GRU的softmax分数。G包括指数地多个有向路径P={π}，其中每个π表示特定的视频分段。在每个π中，每个边eii′只被分配一个动作类aπ′∈ A。因此，具有K个不同类别指派的非常相同的边属于图1中的K个不同路径。6248π我们递归地计算a的能量得分i′（a1：n）结束于节点i′并覆盖地面真值a1 的前 n 个标签的路径： n=[a1，...，an]a1：N，根据在节点i，i i ′处结束并覆盖前n − 1个标签的所有有效路径的l o gadd得分i（a1：n−1）<为i′（a1：n）=log g add（{<（十一）为了证明（11），假设P.我们计算路径的能量为ΣEπ=wii′（aii ′）。（六）eii′∈πi（a1：n−1）=logadd（{EπiΣ= −log（πi∈PV：πi∈ PV}）exp（−Eπi）），（12）6249π我′5.2. 判别性前向损失我们还考虑了判别性前向损失LDF，它通过额外考虑G中的无效路径来扩展LF：算法1：计算前向损失LF。LDF=logadd（PV）-α logadd（P），（15）其中logadd（P）聚合了G，α>0是控制LDF的有效路径和无效路径的相对重要性。Alg. 2总结了我们在（15）中计算logadd（P）的递归算法，而Alg.1显示如何计算（15）中的logadd（PV）LDF优于LF的一个优点是最小化LDF相当于最大化有效路径和无效路径之间的判决裕度。然而，LDF的潜在缺点是有效路径在（15）中可能几乎没有影响。在这种情况下，当有效路径的能量主导所有路径的总能量时，前者在（15）中被有效地减去，因此对学习的影响很小。此外，我们注意到，在某些情况下，背面-LDF的传播由无效路径支配。这从下面的推导中可以清楚地看出我们将梯度ΔLDF计算为LDF=l算法2：计算所有路径的logadd得分哪里=c1−c2ΣΣπ∈PVexp（−Eπ）Eππ∈PIexp（−Eπ）<$Eπ，Σ（十六）在P中，对于判别性前向损失LDF。（1−α）π∈PVexp（−Eπ）+π∈PIexp（−Eπ）c1=Σ（π∈PΣVexp（−Eπ））（π∈P exp（−Eπ）），其中πi是一条以i为终点的路径，其转录本为a1：n−1。C2 =Σαπ∈Pexp（−Eπ）（十七）然后，我们有i′（a1：n）为log g add（{i（a1：n−1）+wii′（an）：i

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于弱监督能量学习的动作分割方法

弱监督集合约束Viterbi动作分割方法及其性能分析

鲁棒多任务排序的弱监督演员动作分割

多视角教学视频的弱监督在线动作分割的新方法

集合监督动作分割的时间Transformer

什么是基于监督学习的脑肿瘤分割方法

基于监督学习的脑肿瘤分割方法

用pytorch写一个基于半监督学习的语义分割模型

基于机器学习的脑肿瘤分割方法有哪些

弱监督语义分割可行性分析

弱监督语义分割、无监督语义分割和全监督语义分割的关系和区别

基于深度学习的图像实例分割方法

多阶段弱监督语义分割和端到端语义分割区别

基于传统图像处理技术的分割方法是人工分割吗

基于机器学习的图像分割

编写一个基于半监督学习的语义分割模型

基于机器学习的脑肿瘤分割方法

基于自适应增强的红外图像分割方法研究

无监督学习 图像分割

国内外有关基于深度学习的医学图像分割的算法的研究动态

最新资源

无监督学习图像分割