视频分解：构建可控的注意力机制以分离视频的不同层

23 浏览量更新于2023-10-13 收藏 1.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1结构化分层视频分解Jean-BaptisteAlayrac1Joa oCarreira1ReljaArandjelo vic′1Andre wZisserman1，2{jalayrac，joaoluis}@ google.com1DeepMind2 VGG，部门牛津大学工程科学系摘要本文的目的是能够分离到其自然层的视频，并控制哪一个分离的层参加。例如，能够分离反射、透明度或对象运动。我们做出以下三项贡献：（i）我们引入了一种新的结构化神经网络体系结构，该体系结构将层（作为空间掩模）显式地并入其设计中。这改进了用于此任务的先前通用网络的分离性能;（ii）我们证明了我们可以增强体系结构以利用外部线索（诸如音频）来实现可控性并帮助消除歧义;以及（iii）我们通过控制实验证明了我们的方法和训练过程的有效性，同时也表明所提出的模型可以成功地应用于实际应用，例如在杂乱场景中的反射去除和动作识别。1. 介绍“The more you look the more you see”, is generally想想每天在镜子前清洁牙齿的任务。执行该任务的人可以首先注意镜子表面以识别任何脏点，将它们清理干净，然后将注意力转移到镜子中反射的他们的嘴或者他们可能听到身后的脚步声，并将注意力转移到镜子中反射的新面孔上。在给定固定的计算预算的情况下，并非所有的视觉可能性都可以立即被研究，这就需要这种可控的注意力机制。层提供了一个简单但有用的模型来处理视觉世界的复杂性[51]。它们提供图像或视频序列的组成模型，并且覆盖多种场景（反射、阴影、遮挡、雾度、模糊……）根据合成规则，对所述合成数据进行合成。例如，添加剂合成对反射和遮挡进行建模。*同等缴款。图1：我们提出了一个模型，C3，能够将视频分解成有意义的层. 此分解过程可通过可选择要输出的层的外部线索（例如音频）来通过以深度排序叠加不透明层来模拟SiON给定一个分层分解，注意力可以根据手头任务的需要在各个层之间切换。我们在本文中的目标是将视频分离到其组成层，并选择要处理的层，如图1所示。最近的一些工作已经使用深度学习来分离图像和视频中的层[4，13，17，19，27，58]，取得了不同的成功，但是层的选择要么必须硬编码到架构中，要么层被任意映射到输出。例如，[4]考虑了将混合视频分离成分量视频的问题，但由于输入视频和输出之间的映射是任意的，因此训练被迫使用置换不变损失，并且在推理时对映射没有控制如何打破合成的输入层和输出层之间的这种对称性？这里探讨的解决方案是基于一个简单的事实，即视频不只是由视觉流组成，它们还有音频流;而且，重要的是，视觉和57345735DIO流通常是相关的。相关性可能很强（例如，同步的声音和击鼓的运动），或者非常弱（例如，将室外场景与室内场景分开的街道噪声这种对称性破缺与鸡尾酒会音频分离问题[2，16]的最新方法有关，其中使用视觉提示来选择扬声器并提高分离的质量。在这里，我们使用音频提示来选择视觉层。贡献：本文的贡献有三个方面：（i）我们提出了一种新的结构化神经网络架构，该架构将层（作为空间掩模）显式地并入其设计中;（ii）我们证明了我们可以增强体系结构以利用外部线索（例如音频）来实现可控性并帮助消除歧义;和（iii）我们experimentally证明了我们的方法和训练过程的有效性与控制实验，同时也表明，所提出的模型可以成功地应用到现实世界的应用，如反射消除和行动识别在混乱的场景。我们表明，新的架构导致改进的层分离。通过与最近的通用模型（如可视化离心机）进行比较，定性和定量地证明了这一点[4]。对于定量评估，我们评估人类动作识别的下游任务如何受到反射去除的影响。对于这一点，我们比较了一个标准的动作分类网络的性能与反射序列，并与反射使用层架构删除，并证明了在后一种情况下的显着改善。2. 相关工作注意力控制。神经网络建模中的注意力对自然语言处理产生了重大影响，例如机器翻译[6，49]和视觉[54]，其中它被实现为特征的软掩蔽在这些情况下，注意力往往不被直接评估，而只是用来帮助提高最终表现。在本文中，我们调查模型的注意力隔离，旨在高一致性和可控性。所谓一致性，我们指的是将注意力集中在特定目标上的能力。可控性是指根据命令切换到不同目标的能力。视觉注意力控制在心理学和神经科学中得到了积极的研究[15，21，29，36，48，57]，并且当发生故障时，是ADHD、自闭症或精神分裂症等病症的潜在重要原因[33]。在这些领域中研究的问题之一是基于自上而下的过程的注意控制与基于自下而上的过程的注意控制之间的关系，自上而下的过程是自愿的和目标导向的，而自下而上的过程是刺激驱动的（例如，自上而下的过程）。显着性）[28，48]。另一个在-有趣的方面是引起注意的表示类型，通常分为基于位置的[42]、基于对象的或基于特征的[7]：后者的例子包括注意任何红色的东西或任何移动的东西。另一个相关的研究流涉及注意力在多感觉整合中的作用[45，47]。注意注意力并不总是需要眼球运动在本文中，我们考虑内隐注意，因为我们不会考虑主动视觉方法，并专注于基于特征的视觉注意控制。跨模态注意力控制。使用一种模态来控制另一种模态中的注意力的想法具有悠久的历史，一个值得注意的应用是通知音频源分离和去噪[8，22，39，52]。视觉信息已被用于辅助音频去噪[22，39]，解决隔离来自不同扬声器[2，16，37，52]或乐器[8，20，59]的声音的鸡尾酒会问题。用于音频源分离的其他信息源包括用于分离语音的文本[32]和用于分离乐器的乐谱[26]。与本文更相关的是，音频用于控制，[5，37，40，59]学会关注发出声音的物体。然而，与这项工作不同的是，它们不直接输出解纠缠的视频，也不能用于消除反射，因为物体被假设为完全不透明的。跨模态控制的其他示例包括使用语言暂时定位视频中的时刻[25]，由标题[44]或查询对象标签[41]引导的视频摘要，来自口语的对象定位[24]，图像-文本对齐[30]以及通过用户点击的交互式对象分割[10]。分层视频表示。分层图像和视频表示在计算机视觉[50]中具有悠久的历史，并且是用于建模2.1D深度关系[43，56]，运动分割[50]，反射的有吸引力的框架。反式-1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1[19]还有证据表明，大脑使用多层视觉表示来建模透明度和遮挡[53]。3. 方法本节描述了这项工作的两个技术贡献。首先，在第3.1节中，一种用于将视频分解成层的新颖架构。该架构建立在视觉离心机[4]（一种通用的U-Net类编码器-解码器）上，但通过针对分层视频分解任务定制的两个结构变化对其进行了扩展。其次，在3.2节中，分解模型被赋予了可控性5736c=1LLLl lli3D层生成器掩码生成器编码器解码器谱写模块(a)组合离心机（C2）架构的概述（b）组合模块图2：层分解的网络架构（3.1）。来控制它应该专注于重建什么。在这里，我们建议使用一个自然的视频模态，即音频，选择层。鉴于这种外部线索，不同的机制，用于控制的输出进行了研究。最后，在Section- tion3.3中，我们描述了如何训练此模型以实现成功的可控视频分解。在下文中， V 代表输入视频。形式上，V∈RT×W×H×3，其中T是帧的数量，W和H是帧的宽度和高度，并且有3个标准RGB通道。该网络产生一个T×W×H×（n×3）张量，解释为n个输出视频由I3D产生的特征通过多个（m）掩模，也由编码器本身产生。因此，门控特征已经对关于底层的信息进行编码，并且这有助于解码器为了避免用所有m个掩码选通所有特征（这在计算和存储器使用方面将是极其昂贵的），特征通道被分成m个互斥的组，并且每个掩码仅应用于相应的组。更正式地说掩码生成器产生M∈[0，1]T×W×H×m，其被解释为m个空间的集合O，其中每个Oi的大小与V相同。时间掩模M=（Mc）m. M被限制为求和3.1. 用于层分解的体系结构我们从视觉离心机[4]开始，这是一种U-Net [38]编码器-解码器架构，它将输入通过使用softmax非线性将Fl 表示为在I3D中的层级l处取得的输出特征。设Fl∈RTl×Wl×Hl×（m×dl），即F1的输出声道的数量是m的倍数。给定视频转换成n个输出视频。编码器由一个因此，Fl可以被分组为m个特征（Fc）m哪里lc=1I3D网络[12]和解码器由堆叠3D上卷积组成。然而，那里使用的U-Net架构是通用的，并且不适合分层视频解码任务（这在第4.1节中通过实验验证）。因此，我们提出了两个结构修改，专门设计实现分层分解，形成一个新的网络架构，组合离心机（C2），如图2a所示。首先，在编码器中使用定制选通机制，其使得能够跨空间/时间选择场景片段，从而使解码器的任务更其次，通过约束如何生成输出视频来施加层组合性-层生成器输出多个下面详细描述这些修改编码器。我们的目标是在存在遮挡和透明表面的情况下恢复层。在这种情况下，当对象完全可见并且它们的外观可以被建模时，以及当对象暂时不可见或不可区分并且因此只能被跟踪时，存在机会的我们将这种直觉到一个新的时空编码器架构。其核心思想是Fc∈RTl×Wl×Hl×dl。将以下变换应用于每个F。：Fc=M c<$F c，（1）其中Mc是通过将Mc下采样到形状[T1×W1×H1]，⊙是指Hadamard矩阵乘积，符号略有滥用，因为信道尺寸为广播，即，跨信道使用相同的掩模。该过程在图2a中示出。本文[3]的扩展版本详细说明了在实践中使用的特征级别。强加组合性。为了使解码器偏向于构造分层分解，我们将其分成两个部分O.其动机是各个层应该理想地表示独立的场景单元，例如移动对象，反射或阴影，可以以不同的方式组成完整的场景视频。所提出的模型体系结构的目的是对这种类型的组合施加归纳偏见。5737j=1更正式地说，层生成器输出一组m层L=（Lj）m，其中Lj∈RT×H×W×3，以及一组n×m个组成系数β=（βij）（i，j）∈[1，n]×[1，m].然后将这些组合在合成模块中（图-步骤2b）以产生最终输出视频O：Σ对数谱图Oi=β ij⊙ L j.（二）J3.2. 可控对称破缺上一节中介绍的方法本质上是对称的-网络可以自由地以任何顺序将视频分配给输出插槽。在本节中，我们提出了一种可控注意力的策略，该策略能够通过利用作为网络的附加输入提供的边信息（控制信号）音频被用作自然控制信号，因为它与视频一起容易获得。在前面的镜子例子中，听到说话表明注意力应该集中在镜子里的人身上，而不是镜子表面本身。对于本节的其余部分，音频被用作控制信号，但是所提出的方法对控制信号性质保持不可知。接下来，我们解释了如何计算音频特征，将其与视觉特征融合，最后，如何获得与输入音频对应的输出视频。该体系结构名为可控组合存储器（C3），如图3所示.音频网络。音频首先需要在将其作为控制信号馈送到视频分解模型之前被处理。我们遵循[5]中采用的策略来处理音频。也就是说，原始音频信号的对数谱图被计算并被视为图像，并且VGG类网络被用于提取音频特征。网络与视频分解模型一起从头开始训练视听融合。为了将音频信号馈送到视频模型，我们将音频特征连接到编码器的输出，然后再将其传递到解码器。由于视觉和音频特征具有不同的形状-它们的采样率不同，并且它们分别是音频和视觉的3D和4D张量-它们不能简单地连接起来。我们使这两个功能兼容的（1）平均池的音频特征的频率维度，（2）采样音频特征的时间，以匹配的时间，poral视频特征样本的数量，和（3）广播的音频特征的空间维度。在这些操作之后，音频张量沿着通道维度与视觉张量级联该熔合过程在图3中示出。我们在本文[3]的扩展版本中提供了该架构的全部细节。音频网络图3：可控组合离心机（C3）.编码器-解码器组件与C2（图2a）中的相同。从音频控制信号中提取音频特征，并在进入解码器之前与视觉特征融合。注意力控制。我们提出了两种策略来获得对应于输入音频的输出视频一种是使用确定性控制，其中强制在特定的预定义输出时隙中输出期望的视频，而不失一般性。虽然简单，但这种策略可能过于严格，因为它对网络施加了太多约束。例如，网络可以自然地学习在槽1中输出吉他，在槽2中输出鼓等，而确定性控制迫使其随意改变该排序这种直觉激发了我们的第二个策略-内部预测与网络的其余部分联合训练，该架构的完整细节在本文的扩展版本中给出[3]。在下一节中描述两种控制策略的训练过程和损失3.3. 训练过程训练数据。由于很难获得视频分解问题的监督训练数据，我们采用并扩展了[4]的方法，并综合生成训练数据。这通过构造提供了对一个有意义的地面实况分解的直接访问。具体来说，我们从两个真实视频V1，V2∈ RT×W×H×3开始。这些编码器[T，W，H，C]平均F.池[T'，C']时间样品空间广播康卡特[T，C'][T，W，H，C']解码器[T'，F，C']57382i=1视频被混合在一起以生成训练视频V∈RT×W×H×3：V=α⊙V1+（1−α）⊙V2，（3）其中α∈[0，1]T×W×H是合成掩码。我们探索了两种方法来生成合成掩码α。第一种是透明混合，由[4]使用，其中α = 11。虽然由于其简单性而具有吸引力，但它没有捕获我们希望解决的真实世界组合（诸如遮挡）的全部复杂性出于这个原因，我们还探索了第二种策略，称为遮挡混合，其中允许α在空间中变化，取值为0或1。更详细地，我们遵循[14]的过程，其中从V1提取时空SLIC超像素[1]，并且随机选择一个。合成掩模α在超像素内设置为1，在其他地方设置为0;这产生完全透明或完全不透明的时空区域的混合。第4.1节探讨了α采样策略对最终性能的影响。训练损失：没有控制。通过构造，对于输入训练视频V，我们知道一个有效的分解是到V1和V2中。然而，当在没有控制的情况下进行训练时，没有简单的方法预先知道网络产生输出视频的顺序。因此，我们优化网络权重以最小化以下置换不变重建损失[4]：图4：视频分解的音频控制策略。在该示例中，输入是视频V、示出小提琴的V1和示出鼓的V2的合成、以及作为小提琴的声音的音频控制信号A1。使用确定性控制时，V1被强制放在输出插槽O1中（因此V2放在O2中）。通过内部预测控制，网络可以自由地对输出视频进行排序，因此使用置换不变损失进行训练，但它包含一个额外的控制回归器模块，该模块被训练为指向所需的输出。无控制情况（4）。此外，网络还指出L（ {V1，V2}，O）=min（i，j）|i=/（V1，Oi）+J指向对应于所需视频的输出，其中指向机制被实现为其中是视频重构损失，例如，像素误差输出n个实值s=（si）n，每个输出损失（参见第4节，了解我们的具体选择）。训练损失：有控制力。当以音频作为控制信号进行训练时，还提供一个视频的音频（不失一般性地为V1这潜在地消除了对在非线性变换中所需的置换不变损失视频. 这些代表了预测的期望的视频和输出视频，并且参与的输出被选择为argminisi。该模块使用以下回归损失进行训练：Σn控制的情况下，但损失取决于控制策略的选择。两种建议的策略如图所示-Lreg（V1，s）=i=1|、（6）|,(6)图4，下面描述。确定性控制损失。这里，网络被迫输出期望的视频V1作为O1，因此自然损失为：Ldet（{V1，V2}，O）=（V1，O1）+（V2，O2）.（五）注意，对于这种损失，输出视频的数量必须限制为n=2。这种限制是确定性控制的另一个缺点，因为它允许较少的自由来提出多个输出视频选项。内部预测损失。在该策略中，网络自由地将输入视频分解为输出，因此训练损失与针对输入视频的置换不变损失相同其中sg是停止梯度算子。停止梯度流很重要，因为它确保了训练模块的唯一效果是学习指向所需的视频。它的训练不允许影响输出视频本身，如果它这样做了，它可能会牺牲重建质量，以便为自己设置一个更容易的回归4. 实验本节评估了建议的组合离心机（C2）与以前的工作相比的优点，进行消融研究，通过策略1：确定性控制策略二：内部预测控制控制回归器5739模型损耗（传输）损失（发生）大小身份0.3640.362–离心机[4]0.1490.25322.6M离心机PC [4]0.1350.26445.4MC2无掩蔽0.1310.20023.4MC20.1200.19027.1M表1：平均验证方面的模型比较具有透明度和遮挡的合成生成的视频的损失，以及数百万参数的大小。所有结果都是使用具有n= 4个输出层的模型获得的。Cen-trifugePC是预测-校正离心机[4]。身份是基线，其中输出视频只是输入的副本。音频控制信号和可控合成器（C3）的两个建议的注意力控制策略的有效性，随后是自然视频上的定性分解示例，以及对动作识别的下游任务的评估。实作详细数据。在[4，34]之后，在所有实验中，我们使用以下视频重建损失，针对视频U和V定义为：图5：混合动力学验证剪辑上的C 2输出。（U，V）=1.Σ U− VΣ+（U）−（V），每一行示出了经由代表性帧的一个示例，其中列示出了输入混合剪辑V、两个输出视频O1O2。2Tt t1不tt1和O2，以及两个真实片段V1和V2。前三行其中·1是L1范数，（·）是空间梯度算子。所有模型均在Kinetics-600数据集[11]的训练和验证集的混合版本上进行训练和评估训练是使用随机梯度下降与动量为124k迭代，使用批量大小128.我们采用了一个学习率计划，在80k，100k和120k迭代后，将初始学习率0.5在所有的实验中，我们随机采样64帧剪辑在128x128的分辨率，从视频的较小尺寸被调整为148像素的随机作物。4.1. 定量分析在本节中，我们通过使用Kinetics-600视频的混合版本对合成生成的数据进行定量比较，视频分解的C2架构的有效性. 基线视觉离心机通过训练两倍长的剪辑（64 vs 32帧）实现了比最初报告[4]如表1所示，我们提出的架构优于离心机基线[4]以及[4]的两倍大的预测-校正模型此外，我们的架构改进显示网络能够成功分解视频透明胶片底部三行显示合成遮挡-这是一项更困难的任务，除了必须检测遮挡外，网络还必须对每个视频的遮挡部分进行修补。C2在这样一个具有挑战性的场合表现令人满意.模型损耗（传输）控制Acc.C20.120 50%（chance）表2：平均验证重建损失和控制准确度的模型比较。可控模型C3使用音频作为控制信号。组合模块这些改进对于遮挡混合尤其明显，因为我们的架构被明确设计为考虑比[4]中使用的简单透明度混合更复杂的真实世界注意力控制。接下来评估使用音频控制信号的两个所提出的注意力控制策略的有效性。除了比较反射质量外，还比较了两种方法的控制精度，即：他们输出所需透明闭塞C3/确定性控制0.19179.1%C3/内部预测0.119百分之七十七点七5740图6：组合模型内部的可视化。回想一下，C2模型经由合成模块（图2b）产生输出视频，该合成模块将层L与合成系数β相乘。在这里，我们将各个β⊙L项可视化，当它们加在一起时形成输出视频。可以观察到，层和组成系数确实将输入视频V分解成其组成部分，用于透明和遮挡混合。将视频插入正确的输出插槽。对于给定的视频V（由视频V1和V2组成）和音频控制信号A1，如果选择的输出时隙O c很好地重建了期望的视频V1，则认为输出被正确地控制。回想一下，“选择的输出时隙”对于确定性控制简单地是时隙O c = O 1，并且对于内部预测控制由控制回归器预测为O arg min i（si）。如果所选择的输出视频Oc的重构损失在所有输出中是最小的（达到阈值），则认为所选择的输出视频Oc很好地重构了期望的视频t=0。2*（maxi（V1，Oi）−mini（V1，Oi）），以说明当输出更多时可能几乎相同的输出（V1，Oc）

下载后可阅读完整内容，剩余1页未读，立即下载