基于转录子空间联合学习的视频动作分割与对齐方法

100 浏览量更新于2023-10-13 收藏 1018KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8085基于转录子空间联合学习紫嘉路东北大学lu. northeastern.eduEhsan Elhamifar东北大学e. northeastern.edu摘要我们解决了学习从弱注释视频中分割动作的问题，即，视频伴随着成绩单（有序的行动列表）。我们提出了一个框架，在其中，我们模型的行动与工会的低维子空间，学习的子空间使用tran-scripts和完善的视频功能，借给自己的行动，行动子空间。为此，我们设计了一个由 Union-of-Subspaces Network 组成的架构，该网络是一个自动编码器的集合，每个编码器都对低维动作子空间进行建模，并且可以捕获视频内和跨视频的动作变化。对于学习，在每次迭代中，我们使用来自前一次迭代的分割来生成正和负软比对矩阵，我们将其为了使学习正规化，我们引入了约束损失，其防止不平衡的分割，并在视频中强制执行每个动作的相对相似的持续时间为了进行实时推理，我们开发了一个分层分割框架，该框架使用子集选择来找到代表性成绩单，并将测试视频与日益细化的代表性成绩单分层对齐。我们在三个数据集上的实验表明，我们的方法提高了最先进的动作分割和对齐，同时将推理时间加快了4到13倍。11. 介绍在长的未经策划的视频中的人类动作的定位和分类一直是视频理解中的主要挑战[54，10，11，27，65，69，66，59，19]。虽然许多方法已经在使用密集监督的完全监督设置中研究了该问题[50，57，29，33，55，67]，但是收集逐帧注释是昂贵的，并且不能扩展到今天可用的大量视频数据。因此，人们对可以从弱注释视频中学习的方法越来越感兴趣。按面值-1 代码可在 https://github.com/ZijiaLewisLu/ICCV21-TASL上获得。典型的动作记录是指出现在视频中的动作序列，而不指定它们的开始和结束时间，收集起来成本较低，并且也可以从视频叙述或其他Meta数据中获得[32，1，42]。这激发了各种有趣的方法，学习使用转录本对动作进行定位和分类[21，2，48，49，9，73，36，4，37]。挑战尽管取得了巨大的进步，但现有的弱监督行动学习工作仍然面临着重大挑战。事实上，最近成功的一类方法集中在使用转录本的训练视频的分割和使用所获得的分割的再训练模型之间的交替[49，36]。然而，用一个估计的分割来训练模型可能会忽略和阻碍其他可能的分割，并传播初始分割错误。此外，现有的方法往往忽略了视频的底层低维结构。事实上，众所周知，高维视觉数据，例如，刚性和非刚性运动或人类行为，位于低维子空间[63，12，41，3，40，38，6]。然而，利用弱监督集合中的这种低维子空间主要被忽略，因为现有的工作在完全监督或完全无监督的机制中工作，并且不能利用弱监督，例如，成绩单另一方面，对没有成绩单的测试视频进行推断通常成本极高。这是因为现有方法需要将测试视频与训练集中的每个转录本对齐这阻止了方法实时应用。纸质捐款。在本文中，我们解决了弱监督的动作分割的问题，通过开发一个转录感知的动作子空间学习（TASL）框架，模型的行动与工会的低维子空间，学习的子空间使用弱监督（成绩单）和细化视频功能，借给自己的动作子空间。为此，我们设计了一个由特征学习模块和新的8086子空间并网络+判别距离评分约束对准...子空间分配分数图1：我们提出了一个框架，称为转录感知动作子空间学习（TASL），用于弱监督视频分割。该框架包括一个联盟的子空间网络（USN），它学习嵌入到歧视性的低维子空间的行动，和一个有效的约束视频对齐算法，产生积极和消极的软对齐，这将用于参数学习。子空间联合网络（USN）。USN是自动编码器的集合，每个自动编码器对低维动作子空间进行建模，以捕获每个动作的变化。如我们在实验中所示，取决于动作的语义相似性（例如，共享动词或名词），学习的子空间将在一些方向上彼此几乎正交（允许区分），而在一些其他方向上相交（捕获共享信息）。对于学习，我们交替使用成绩单分割训练视频和学习模型和分割的特征。然而，我们不是学习模型来再现所获得的分割，而是使用最优分割生成正和负软对齐矩阵，我们将使用该最优分割来进行子空间的判别学习。我们引入了一个约束损失，以防止不平衡的分割，并强制执行相对相似的持续时间的每个动作跨视频。为了进行实时推理，我们开发了一个分层分割框架，该框架使用子集选择来找到训练视频的代表性成绩单。我们将分层调整测试视频与日益完善的代表性成绩单。我们在三个数据集上的实验表明，我们的方法提高了最先进的水平，同时将推理速度提高了4到13倍。2. 相关作品最小监督的动作分割。大量长的未修剪的视频[56，15，73，44，53，7]以及逐帧视频注释的高成本已经促使计算机视觉中的大量工作以最小的监督来定位和分类动作。弱监督方法从视频中的有序或无序的动作列表中学习[21，2，48，49，9，73，36，48，49]。4，37]或视频摘要[64]。特别地，[30]将该问题解释为语音识别问题，其中视频对应于音频信号并且动作类对应于单词，因此使用语音识别工具包学习标准基于这个想法，[47]用递归神经网络代替GMM，同时仍然依赖HMM进行粗略的时间建模。此外，[24，25，47，30]使用两步优化-这是一种不允许直接的序列式训练的训练方案。[39]结合统计语言模型使用连接主义时间分类（CTC）方法。作为CTC方法的扩展，[21]提出了ECTC，其考虑了帧之间的视觉相似性以避免退化分割。 [9]火车在均匀生成的分段上生成网络，并基于学习的网络将新动作迭代地插入分段中最后，[49]使用维特比解码生成最佳分割，将用于训练分类器。[4]最大化所有转录一致的片段的可能性，并最小化转录不一致的片段的可能性。[36]已经通过优化有效分割实现了现有技术的性能，所述有效分割是通过稍微移动最佳分割的动作边界而生成的。一些工作也研究了弱监督从视频中出现的无序动作列表中学习特别是，[48，37]将维特比解码扩展到集监督动作分割问题，该问题在估计动作顺序和学习分割模型之间交替。相比之下，[14]提出通过神经网络直接预测动作及其长度。最后，为了完全消除对视频注释的需要，最近的几项工作通过利用来自类似任务的视频的共享结构来研究无监督动作分割[54，10，11，31，52，1，51，17]。子空间学习子空间聚类的目标是将数据聚类到底层的低维子空间中，并学习子空间的参数。这已经使用迭代方法[61，20，71，60，18，16]解决，该方法在估计子空间和聚类数据之间改变，或者基于谱聚类的方法，该方法通常使用稀疏或低秩表示[13，40，45，35，68，70，43，5，8]来建立数据点之间的亲和力。动机随着深度学习的发展，最近的方法已经研究了用于子空间聚类的无监督特征学习[22，72，46]。鉴于子空间聚类是一个未监督的问题，现有的方法不能利用弱监督，当可用的。我们提出了一种方法，学习使用成绩单的子空间的工会。..................GRU......8087......通过移动动作边界实现积极的软对齐负软对准Action9使用无效ranscriptAction10转录本不行动11无效操作12v=1我--.Σ一一------ǁǁ1ǁ −ǁnv一一一一3. 转录感知的多子空间学习问题陈述。假设我们有V视频和他们的动作转录本{（Xv，Tv）}V，其中X v=（xv，. . . ，Xv）表示逐帧不连续的集合。1Nv视频v的检查特征，其具有Nv个帧。Tv=（a v，. . .，a v）表示其转录本，其是视频中的n个动作的有序列表我们有一个v∈1、2、. . . ，A，其中A表示跨视频的动作的总数。弱监督动作学习的目标是仅使用训练视频的成绩单来学习动作分割模型，并预测测试视频的动作。取决于为测试视频提供的信息，推断可以被划分为动作对准（其中视频事实上，动作分割可以通过将测试视频与训练视频的转录本对齐并选择具有最小对齐成本的一个来转换为动作对齐。为了简单起见，我们去掉符号中的上标和下标v（指视频v），因为从上下文可以清楚地看出提出的框架。为了解决弱监督动作分割的问题，我们开发了转录感知的动作子空间学习（TASL）框架.如图1所示，TASL在对准列车-图2：所提出的比对算法：1）执行约束维特比解码以获得最佳比对，2）基于最佳比对生成正和负软比对。设计子空间联合网络（USN），其由用于A个动作的A个自动编码器的集合组成。自动编码器a将输入特征向量ht∈Rp编码为低维嵌入向量zt，a∈Rd（dp），其将被解码为ht ，a∈Rp。更具体地说，使用模型预测和z=Weh +be∈Rd，h=Wdz+bd∈Rp，使用当前比对来学习所述模型。亲-t，aatat，aat，aa（一）构成模型由作为特征学习模型的GRU组成。规则和子空间联合网络（USN）来学习低其中{We，Wd，be，bd}是可学习的权重。通过自动编码器的集合来生成动作的维度子空间。USN的输出是捕获每个帧特征和每个动作子空间之间的相似性的两个分数。使用分数，我们通过将帧分配到它们最接近的子空间来找到视频的最佳对齐，同时尊重转录。然后，我们使用对齐来生成候选有效和无效帧标签，经由两个软对齐矩阵Yp、Yn编码。然后，这两个矩阵被用于区分性网络损失中，以强制帧特征在可能/不可能的子空间上具有大/小嵌入，同时增加学习的子空间之间的距离。3.1. 区分性USN训练在本节中，我们将介绍所设计的网络架构以及用于学习特征和与动作相对应的低维子空间的有效判别损失建议的架构。首先，我们使用递归网络（这里是GRUs）作为特征学习模块（h1，…. .，hN）= GRU（x1，. . .，xN），其捕获逐帧无监督特征之间的时间依赖性，并将它们变换成位于与动作相对应的低维子空间中的更具鉴别力的特征。为了实现这种低维嵌入，我们分别是动作A 在这里，{zt，a}表示{ht}在动作a的子空间上的d维嵌入。对于线性译码r，ht ，a是zt的仿射变换，a使用相同的组合权重Wd，因此，位于d维子空间上。因此，子空间由Wd. 特征ht接近h t，则a意味着帧T接近子空间A。给定来自路线的逐帧标签，可以通过最小化距离来 h t，a然而，这具有若干缺点。第一，最小化到一个子空间的距离将不一定增加到其它子空间的距离，这导致差的动作分段性能。此外，当我们学习特征和子空间参数时，单独最小化距离会导致权重和特征向零收缩，因此，失去了动作之间的区别。最后，成本不使用嵌入zt，a中的信息。建议进行区别性训练。为了解决上述挑战，我们开发了一种使用两个互补分数进行区分训练的方法。由于zt，a2对应于ht到子空间a上的嵌入范数，我们计算ht到子空间a的子空间分配得分8088σ=2∈≤ǁ −ǁ不Σ∈i=1ΣnΣΣL，−y视频Σj=1.ΣΣ+ylo g(σ)+ρlo g(ψ)，t，a t，a``一个一t，a22ΣΣX- -用空格隔开t，a Σ eQazt，a2eQ'z'2∈ [0，1].（二）单个自动编码器用于所有数据的特征学习，然后应用自表达层[22]和对从自动编码器的嵌入构建的相似性的光谱聚类。自我表达层学习子空间而在每次训练迭代中需要整个数据集由于并非子空间中的每个方向都必须用于识别潜在动作，例如，对应于与其他子空间相交的方向，我们使用QaRd′×d（d′d）允许学习判别式fea-每个子空间内的纹理a.Giv enht ，aht2作为ht和子空间a之间的距离e−h t，a−ht2相比之下，我们使用GRU进行特征学习，并使用多个自动编码器（每个动作类一个）来学习子空间。此外，我们的方法可以使用视频批次进行训练，并直接预测动作。3.2. 建议的对齐算法在本节中，我们将讨论我们的算法，以找到转录本与视频的最佳对齐，然后形成ψt，a=e−h2'−ht2 ∈[0，1]，（3）用于网络训练的正和负软对准寻找最佳转录本比对。由于转-其对于子空间a的最大化强制ht必须靠近它，远离其他子空间。基于网络输出，我们的比对算法将产生两个软标签矩阵（详见下一小节）：1）正软比对Yp∈[0，1]N×A，script =（a1，. . .，a n）的视频，我们的目标是找到最佳对齐，将每帧分配给按顺序记录。请注意，对齐可以通过查找脚本中的动作长度来完全确定。设li表示动作ai的长度，其中我们必须属于每个动作，并根据最佳得到（2）中的子空间分配得分σt，a，并搜索将视频与其文字记录对齐; 2）负软排列Yn[0，1]N×A，每行是帧t到不期望动作的概率分布。从而对于lin，给出最好的总作业分数通过优化算法，即，我们解决学习GRU和USN的参数，对于每个视频，我们定义损失min{l}ΣΣγLreg（l1，…，I n）+Li+Li−log（σ t，ai）。i，iii=Ni=1N At=Li+1（五）pt，at=1a =1. log（σ t，a）+ ρ log（ψ t，a）Σ（四）这里，Li，i-1lj是在ai（我们设置L1=0），Lreg是正则化项prevent。nt，a并且相对于网络参数最小化在所有训练视频上的该损失的平均值。这里，ρ控制子空间分配分数σ和判别距离分数ψ（这里，yp和yn）简并比对和超参数γ设置负似然和正则化之间的折衷。2考虑到我们的方法在学习子空间和特征以及寻找对齐之间交替，对齐可能将大部分帧分配给转录本中的一个动作，而将很少的帧分配给其他动作，或者是t，ap nt，a一个动作在视频之间具有显著不同的持续时间。Y的第（t，a）个元素和Y）。的因此，我们设计L以防止这种不期望的解决方案。损失函数旨在基于正对齐Yp最大化嵌入范数和ht与相关子空间之间的接近度，同时基于Yn最小化不正确子空间的嵌入范数和接近度。注意到这些reg选项。令p（a）表示动作a发生的估计频率，并且pa（l）表示动作a具有长度l的概率。我们定义两个分数具有互补效应，其中ψ强制n n学习的子空间更加不同，而σ防止Lreg=Σlilog g。p（ai）+−lo g.pai（li）Σ，（6）将参数和特征缩小到零。人能也为不同的ac选择不同的子空间维度。i=1 ，L1regi=1一个t，a其每行是帧t的概率分布有iii=N。为了找到最佳的对齐方式，我们-8089regregLL，L2xreg选项，具体取决于外观和运动复杂性的行动。在实验中，我们探讨了子空间维度对我们的方法的性能的影响。备注1虽然自动编码器已用于无监督子空间聚类方法[22，72，46]，但它们的作用与我们的USN根本不同。在这样的作品中其中1通过在大多数帧被指定为频繁动作时招致大成本来惩罚视频内的不平衡分段。另一方面，2确保每个动作在视频中具有相似的长度，因为它是2也可以在（5）中包含log（ψt，ai），但我们发现排除它会产生更好的性能。8090K--i=1---- -- -K- -∈∈KKKK−regregαkRk，αk，ΣKP.（九）exp（s（R））KK- -不p通常情况下，同一动作的长度大致是在与主题相关的视频中保持一致。我们对pa（l）=s（Rp），∠Rp，∆∠，∆，Σlog（σt，a）Σ∈RN×A，（8）λ lexp（−λ a）/l！ [49]《易经·系辞下》：“以物配物，以物配物。其测量第k个对准路径的可能性一λa表示平均作用长度。我们将-根据学习到的子空间分配得分σt，a.当我们学习USN参数时，在同一步骤匹配p（a）然后，通过计算加权平均值来注2注意L1和L2具有互补性Σpexp（s（Rp））方面的影响.虽然对准在视频内是平衡的，但是一个动作的持续时间可以在视频之间不同。另一方面，虽然同一动作在视频中大致相似，可以获得不平衡的kj j类似地，我们计算第k个负对齐s（Rn），∠Rn，∆∠和负软对齐视频中的对齐。因此，这两个项确保视频内的平衡性和跨视频的持续时间一致性。单纯地搜索最佳比对（5）是指数复杂的，这是由于对于1/n的可能性的组合数量。因此，我们采用约束维特比解码算法[49，37]来有效地解决该问题。具体来说，目标函数（5）可以使用递归函数求值来计算不矩阵Yn作为加权平均值， Rn. 我们将使用这两个矩阵通过（4）来训练我们的网络。3.3. 学习与推理我们的学习方法在使用正/负软对齐训练网络和使用训练后的网络计算视频对齐这两个步骤之间交替。我们初始化p（a）=1/A和λa=1。在每次迭代中，我们随机采样一个视频，并计算其与其转录本{li*}的最佳对齐，以及U（ai，t）=maxU（ai，t，i）li>0Σlog（σt'，ai）软对准矩阵Yp和Yn。这些矩阵将t'=t−li+lilog（p（ai））−log（pai（li）），（7）其中U（an，n，N）对应于最小目标值。通过递归回溯，我们可以找到最佳对齐{li*}。构造正和负软对齐。可以直接使用最优对齐li*来训练网络。然而，这具有以下缺点：具有足够容量的网络可能过拟合到在10000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000用于训练网络。我们使用最佳对齐Ii*，以更新p（a）的估计，p（a）作为分配给a的跨视频的帧的平均数量，λa作为跨视频的动作a的平均长度，这将影响下一次迭代中的受约束维特比解码。通过代表性成绩单推断。在推断过程中，对于动作对齐，我们有测试视频的转录本，我们运行对齐算法并选择具有最大值的转录本给出的最佳Rp*早期训练阶段。另一方面，我们观察到K似然率得分s（Rp*）作为视频对齐。对于ac-在给定最佳对准的情况下，动作边界具有小偏移的对准也可能是有效的候选（甚至人类也难以辨别行动之间的界限）。此外，那些可能对于大多数数据集，我们遵循[49，36]并与训练视频的每个转录本进行对齐，每个转录本都是未知的。给我们一个Rp*及其可能性s（Rp*）。Rp*与k k k有效路线必须优先于无效路线使用与地面实况不同的转录本，例如，us- ing′=（a′1，. . . ，a′n），其中a′ia i对所有i.为了让我们的模型探索多个候选对齐-为了更好地区分有效/无效转录物的比对，我们生成了正和负软比对矩阵Yp[0，1]N×A和Yn[0，1]N×A。更具体地说，从最优比对{li*}开始，我们生成候选有效比对{R}和无效比对{Rn}使用[36]，如所示选择最高似然分数作为视频对准。然而，如果数据集包含数千个独特的训练转录本（例如，CrossTask [73]有2，026个转录本）。为了处理大量的成绩单，我们提出了一种分层分割方法：1）我们使用设施位置子集选择算法[26]（更多细节参见补充材料）基于归一化编辑距离将所有训练转录本分组为C组。在每对转录本之间，其计算为K K在图2中 Rk∈ {0，1}是一个离散标号矩阵en-2×edit（T1，T2）/（|T1|+的|T2|）的情况。这里，edit（·，·）表示编码第k个比对，并且对于Rn类似。如果帧t被分配动作a（每行只有一个1），则其（t，a）项等于1为了进一Yp、8091步结合候选比对似然，我们建议通过计算内积来衡量似然得分Levenshtein距离[34]。因此，每个组也将具有代表性的成绩单。2)我们在测试视频和每个C代表性转录本之间运行比对算法，并找到产生具有最大似然得分的新Rp*第三章8092K一Σ|GT ∩D|/|D|和5）IoD-bg，它是相同的∈一Σ|∩||∪|将视频与匹配的代表性转录本的组中的转录本中的每个转录本对齐，并且选择具有最大似然性得分的Rp*作为最终视频对齐。注3我们的方法可以看作是最小化统一目标函数对于早餐，我们使用数据集的四个已发布的训练/测试分割。对于好莱坞，我们同样将视频分成四个部分，每个部分有10%的视频用于测试，90%用于训练。在这两个数据集上，我们报告了分裂的平均结果，与以前的工作类似，使用64维改进的密集轨迹γL+1ΣΣ（−yp+yn）×。log（σ）+ρlo g（ψ）regNt，at，at，at，at，a（十）[ 62 ][63][64][65][66]对于CrossTask，我们使用已发布的训练/测试划分，其中90%的训练和10%的测试-关于模型参数和对准的所有视频。在训练网络时，我们使用给定的对齐来固定标签矩阵Yp和Yn对于一个学习模型，因此，与固定的网络输出，我们找到对齐，使用所提出的算法。4. 实验我们评估了我们提出的TASL方法的性能，针对最先进的弱监督动作分割算法NNV [49]和CDFL [36]，早餐[28]，好莱坞扩展[2]和CrossTask[73]数据集。我们考虑动作分割，其中测试视频的成绩单是未知的，和动作对齐，其中每个测试视频的成绩单是已知的。由于从弱监督学习的交替性质，现有方法的性能，包括NNV和CDFL，针对不同的初始化而改变。因此，目前的研究报告了其最佳运行的结果[58]。为了公平比较，我们运行所有方法，使用它们的代码进行3种不同的初始化，并在表中将最佳运行结果报告为然而，考虑到在弱监督设置中，实际上无法区分好的和坏的初始化，此外，我们将运行的平均结果报告为表中的由于篇幅所限，本文在补充资料中提供了复杂性分析、度量讨论、与子空间聚类基线的比较以及更多的结果。4.1. 实验装置数据集。我们在三个大型数据集上进行实验。早餐[28]数据集由1，712个视频组成，其中包括人们进行10种不同的烹饪活动。它有48个不同的动作，包括一个“背景”类来表示非动作帧。平均而言，一个视频有6.9个动作和7.3%的背景帧。Hollywood Extended[2]数据集包含937个视频，这些视频记录了人们的行走、坐下和接听电话等动作。总的来说，有16个动作，平均每个视频2.5个动作，而60.9%的帧是背景。CrossTask[73]数据集包含来自18个主要任务的视频我们使用了14个与烹饪相关的任务，其中包括2,552个视频和80个不同的动作。每个视频平均有14.4个动作，而74.8%的帧对应于背景。通过PCA将发布的特征进行下采样到64个维度，以与其他数据集保持一致。评估指标。对于评估，我们使用1）帧上平均值（Mof），这是预测动作标签正确的帧的百分比。2）并集上的交集（IoU），定义为1GT aDa/ GTa其中GT a是属于动作a的帧的集合，并且D a是被分类为动作a的帧的集合。3）IoU-bg，与IoU相同，但不包括背景类。4）检测交叉（IoD），定义为1Aa作为IoD，但不包括后台类。请注意，IoU和IoD解释了阶级不平衡。这些度量与先前的工作一致，但与[9]不同，[9]认为具有一些重叠作为真实检测（参见[9]的度量下的评估补充材料实施详情。我们认为：i）TASL（3），其中我们将（2）中的Qa设置为恒等式，并且d a= 3，即，我们直接使用每个子空间上的投影幅度来计算分配得分;ii）TASL（10，3），其中我们在⑵中学习QaR3×10，即，学习每个子空间上的投影的线性组合以计算分配得分。我们设置ρ = 0。35对于TASL（3），ρ = 0. 对于TASL（10，3）为2，并且对于两个模型设置γ =1。对于推理，我们在CrossTask上执行C=20的分层分割，因为它包含2，026个训练成绩单。平均每个组有100个转录本。我们不使用它的主要结果早餐和好莱坞的公平比较与以前的作品。4.2. 实验结果TASL与以前的作品比较。表1和2分别示出了用于动作分割和对齐的不同方法的性能。对于TASL，我们报告了每个数据集上的最佳子空间设置的结果，其为Breakfast 和 CrossTask 的 TASL （ 3 ）和 Hollywood 的TASL（10，3）（参见所有数据集的两种设置的结果的补充材料）。更大的子空间维度更适合好莱坞，因为它的动作有更多的变化，例如打架和开车，而早餐和CrossTask中的动作有更一致的模式，例如搅拌混合物。请注意，TASL在所有数据集上实现了动作分割和对齐任务的最新性能，证明了USN有效地学习了区分8093联系我们早餐MOFIOUIoU-bgIOD碘化硼最好[49]第四十九话CDFL [36]42.950.832.235.729.133.632.146.831.845.7TASL（我们的）49.936.634.347.746.4平均[49]第四十九话CDFL [36]40.247.231.234.127.731.341.444.938.943.7TASL（我们的）47.835.232.646.144.5好莱坞MOFIOUIoU-bgIOD碘化硼最好[49]第四十九话CDFL [36]44.440.723.222.213.115.134.536.117.819.0TASL（我们的）46.625.215.337.721.3平均[49]第四十九话CDFL [36]43.139.922.221.611.814.133.735.316.218.0TASL（我们的）43.723.413.635.718.3CrossTaskMOFIOUIoU-bgIOD碘化硼最好早餐MOFIOUIoU-bgIOD碘化硼最好[49]第四十九话CDFL [36]59.567.647.050.547.751.361.765.165.069.5TASL（我们的）65.851.051.965.569.1平均[49]第四十九话CDFL [36]55.962.145.247.845.648.460.163.163.467.1TASL（我们的）64.149.950.764.768.2好莱坞MOFIOUIoU-bgIOD碘化硼最好[49]第四十九话CDFL [36]61.560.235.936.926.431.551.351.141.540.9TASL（我们的）63.738.330.753.243.0平均[49]第四十九话CDFL [36]59.859.535.036.525.430.749.951.739.640.2TASL（我们的）62.237.730.052.441.7CrossTaskMOFIOUIoU-bgIOD碘化硼最好[49]第四十九话34.646.715.317.211.411.527.528.014.014.5表1：三个数据集上的动作分割性能。0.200.150.100.050点图3：早餐动作上的IoU的标准偏差。本机动作子空间，并且可以根据数据集的复杂度调整子空间对于动作分割的更困难任务，TASL在IoU和IoD分别超过CDFL 1.1%和1.2%在更具挑战性的CrossTask数据集上，我们的方法在MoF和IoU上的表现优于CDFL 8.8%和3%。在Hollywood，TASL显著改善了MoF和IoU的CDFL 3.8%和1.8%。然而，仍然可以在我们的方法中调整每个动作子空间的维度以进一步改进，如下所示。请注意，在早餐方面，TASL在“平均”方面比“最佳”方面获得了更大的改进。这是由于动作的低维子空间假设正则化了训练，使我们的模型对随机初始化更具鲁棒性。图3示出了针对对齐任务在早餐上的多个初始化上的IoU的标准偏差，表明TASL在大多数动作上获得最低方差。子空间维度效果。表3（左）示出了TASL的性能可以通过降低背景的子空间维度来进一步改善。第一行显示表2：三个数据集上的动作对齐性能。TASL（10，3）对好莱坞的先前结果。我们通过允许背景子空间维度为dbg1，3，10和Qbg是同一性来改变TASL（10，3），同时保持其他动作子空间的维度不变。由于背景在好莱坞中占据60.9%的帧并且包含大的视觉外观变化，因此较大的dbg允许我们捕获其复杂的变化，同时防止过拟合（参见关于早餐的类似结果的补充材料）。事实上，在dbg=10的情况下，我们进一步改进了TASL的IoD/IoD-bg，而不是我们在表1和表2中报告的IoD/IoD-bg。二、表3（中间）示出了针对早餐上的动作分割的所有动作的改变子空间维度虽然TASL（3）具有最好的性能，但其他维度以小于0.5%的差异实现竞争性能。用有代表性的成绩单进行推理。表4比较了测试视频的平均推理时间和使用我们的分层分割的早餐的平均准确性我们设定组的数目C=20，并且平均而言，每组包含约10个转录本。我们比较了分层分割的结果请注意，使用此外，消融研究。表3（右）示出了每一个NNVCDFLTASL（3）IOU标准差把黄油放在一起SIL取杯器水果碗搅拌_取茶_取碗_玻璃搅拌_切麦片_橙子搅拌_咖啡倒_取糖_盘子搅拌_取水果_倒浇头_取果汁_加鸡蛋_倒茶袋_倒牛奶_调油_牛奶put_pancake2platepour_waterput_egg2 platepour_coffeeadd_saltnpepperspoon_sugarpour_cerealscut_bunspoon_powderpour_flourpour_egg2 pancrack_eggstir_eggspoon_flourput_toppingOnToppour_dough2 pan黄油_平底锅切_水果涂抹_黄油搅拌_面团挤压_橙子去皮_水果炒_鸡蛋炒_鸡蛋炒_煎饼80942−ǁ −ǁ◦ǁ−ǁL好莱坞分机IOD碘化硼TASL（10，3）35.718.3dbg= 135.117.4dbg= 335.518.0dbg= 1036.019.2早餐IOUIoU-bgIOD碘化硼TASL（3）35.232.646.144.5TASL（5）35.132.946.144.0TASL（10，3）35.132.746.044.1σψYLregIOUIoU-bgIOD碘化硼C×CC◦CC◦CCC×CCC×11.03.122.07.815.511.024.823.027.123.837.536.13.50.57.15.8CCCC35.232.646.144.5表3：左：TASL（10，3）的“背景”子空间维度对好莱坞的影响。中间：TASL（3）的分层分割对早餐的影响。右：我们的方法TAS（3）的不同组分对早餐的影响。所有表格中的结果均针对分割任务。倒牛奶倒咖啡倒水倒糖倒面团倒油倒鸡蛋2锅切橙子挤橙子放水果2碗切水果最大主角度最小主角度8070605040302010806040200煎鸡蛋煎饼倒水倒咖啡倒水倒糖倒水煎饼图4：左：TASL（3）针对早餐动作的子集学习的子空间之间的最大和最小主角度。右：TASL（3）学习的四对动作子空间之间的主角。早餐感染时间IOUIoU-bgIOD碘化硼TASL（3）-代表0.1s35.032.045.943.1TASL（3）-Hier0.3s35.132.146.143.7TASL（3）1.3s35.232.646.144.5表4：TASL（3）的分层分割过程对动作分割的早餐的影响。TASL组件。对于（4）中的网络损失，我们将排除分数并仅使用最佳对齐{l ii}而不是软对齐进行训练。对于（5）中的Viterbi成本，我们研究排除Lreg.1 、A =0，A=0（ht，aht2），表示为符号，以更好地显示我们在（3）中的区分距离得分的效果。第一行和第二行表明优化σt，a补充材料，以获得更全面的结果）。定量结果。图5显示了由NNV，CDFL和TASL（3）生成的动作分割（顶部）和对齐（底部），以及来自Breakfast的两个视频的地面实况（GT）在这两个视频中，TASL在检测动作及其边界方面更准确。具体而言，TASL准确地分类短（快速）动作，例如视频1中的倒牛奶和视频2中的加盐、胡椒或倒油GTNNVCDFLTASL对于学习判别子空间是重要的。而且，简单地将距离最小化 h t，at，而不是（3）中的判别距离分数，将特征收缩到-因此，向零方向丢失了独特的表示。另一方面，培养TASL无正负背景搅拌面团GTNNVCDFLTASL背景拍摄板取平勺面粉放蛋2盘炒蛋pour_milkpour_dough2 pan淋油加盐胡椒黄油锅放煎饼2盘倒蛋2锅搅蛋油饼裂纹蛋裂蛋软比对（第三行）导致对较差初始分割的过拟合最后，排除reg导致不平衡的分割和具有不一致长度的动作，显著降低了准确性。已学习子空间角度。图4（左）显示了早餐动作子集的学习子空间之间的最大和最小角度[23]。请注意，最大的角度都接近90◦，这意味着子空间至少在一维上相互正交，这保证了动作的特征是有区别的。此外，最小角度表明我们的方法捕获动作之间的语义相似性（例如，左上块上的一组类似动作是关于图4（右）示出了四个动作对之间的子空间角度。请注意，（煎鸡蛋，煎煎饼）或（倒水，倒咖啡）中的动作相似，因此两个角度都很小。此外，（ pour water ， poursugar）只有动词相似，有一个小角度。另一方面，（倒水，煎煎饼）是不同的动作，因此三个角度都很大（见上图）图5：NNV，CDFL，TASL（3）与地面实况的结果，在两个早餐视频上进行动作分割（顶部）和对齐（底部）。5. 结论我们解决了使用弱注释数据在视频中分割动作的学习。我们通过使用自动编码器的集合通过低维子空间对动作进行建模，并且通过生成软正和负对齐并引入正则化来防止视频内和跨视频的不平衡分割，提出了一种有效的对齐算法。我们提出了一种有效的方法，显着减少推理时间。通过在 Breakfast 、 HollywoodExtended和CrossTask数据集上的实验，我们证明了我们的方法改进了现有技术。确认这项工作得到了 NSF （ IIS-2115110 ， IIS-1657197），DARPA青年教师奖（D18 AP 00050），ONR （ N 000141812132 ）和 ARO （ W 911 NF1810300，W 911 NF 2110276）的支持。最大中间最小主角8095引用[1] J. B. Alayrac，P.Bojanowski，N.Agrawal，J.西维克岛Laptev和S.拉科斯特-朱利安从叙述式教学视频中进行无监督学习。IEEE计算机视觉与模式识别会议，2016年。一、二[2] 博亚诺夫斯基河Lajugie，F.巴赫岛Laptev，J. Ponce，C.Schmid和J.西维克排序约束下视频中的弱监督动作标注。2014年欧洲计算机视觉会议。一、二、六[3] E. J. Cand e`s，X. Li，Y. Ma和J. 赖特稳健的主成分分析。Journal of the ACM，58（1）：11[4] Chien-Yi Chang ， De-An Huang ， Yanan Sui ， Li Fei-Fei，and Juan Carlos Niebles.D3tw：用于弱监督动作对齐和分割的判别可微动态IEEE计算机视觉和模式识别会议，2019年。一、二[5] Ying Chen，Chun-Guang Li，and Chong You.随机稀疏子空间聚类。IEEE计算机视觉和模式识别会议，2020年。2[6] Anoop Cherian、Basura Fernando、Mehrtash Harandi和Stephen Gould。用于活动识别的广义秩池。IEEE计算机视觉与模式识别会议，2017年。1[7] DimaDamen 、 HazelDoughty 、 GiovanniMariaFarinella 、 Sanja Fidler 、 Antonino Furnari 、 EvangelosKazakos 、 Davide Moltisanti 、 Jonathan Munro 、 TobyPerrett、Will Price和Michael Wray。epic-kitchens数据集：收集、挑战和基线。IEEE Transactions on PatternAnalysis and Machine Intelligence，2020。2[8] 党志远，

下载后可阅读完整内容，剩余1页未读，立即下载