基于时空生成ConvNet的模型适用于视频序列的动态模式建模和合成

147 浏览量更新于2023-10-16 收藏 2.18MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于时空生成ConvNetJianwen Xie，Song-Chun Zhu，and Ying Nian Wu美国网址：jianwen@ucla.edu，sczhu@stat.ucla.edu，网址：www.example.com，ywu@stat.ucla.edu摘要视频序列包含丰富的动态模式，例如在时域中表现出平稳性的动态纹理模式，以及在空域或时域中非平稳的动作模式我们证明了一个时空生成的ConvNet可以用来建模和合成动态模式。该模型定义了视频序列上的概率分布，并且对数概率由时空ConvNet定义，该时空ConvNet由多层时空滤波器组成，以捕获不同尺度的时空模式。该模型可以通过迭代以下两个步骤的“合成分析”学习算法从训练视频序列中学习。步骤1从当前学习的模型合成视频序列。步骤2然后基于合成的视频序列和观察到的训练序列之间的差异来更新模型参数。我们表明，学习算法可以合成现实的动态模式。1. 介绍视频序列中存在各种各样的动态模式，包括在时间维度上表现出统计平稳性或随机重复性的动态纹理[2]或纹理运动[24]，以及在空间或时间域中不稳定的动作综合和分析这种动态模式一直是一个有趣的问题。在本文中，我们专注于使用卷积神经网络（ConvNet或CNN）的生成版本合成动态模式ConvNet [14，12]已被证明是一个非常成功的判别学习机器。ConvNet中的卷积运算特别适合于在空间域或时间域或两者中表现出平移不变性的信号，例如图像，视频和声音最近，研究人员对ConvNet的生成方面越来越感兴趣，其目的是将ConvNet学习的知识可视化，或合成真实的信号，或开发生成可以用于无监督学习的模型。在合成方面，已经提出了各种基于ConvNet的方法来合成逼真的静态图像[3，7，1，13，16]。然而，目前还没有太多的工作在文献中合成动态模式的基础上的ConvNet，这是本论文的重点具体来说，我们建议通过推广最近由[29]提出的生成式ConvNet模型生成式ConvNet可以从判别式ConvNet中派生它是一种随机场模型或基于能量的模型[15，20]，其形式为参考分布（如高斯白噪声分布或均匀分布）的指数倾斜。指数倾斜由ConvNet参数化，该ConvNet 涉及多层线性过滤器和整流线性单元（ReLU）[12]，其试图捕获不同尺度的特征或生成的ConvNet可以通过Langevin动力学进行采样该模型可以通过随机梯度算法学习[31]。它是一种具体地，在初始化参数和合成信号之后，学习算法迭代以下两个步骤1通过从当前学习的模型采样的朗之万动力学来更新合成信号。然后，步骤2基于合成数据和观测数据之间的差异来更新参数，以便将模型的密度从合成数据向观测数据偏移。[29]表明，学习算法可以合成真实的空间图像模式，如纹理和对象。在这篇文章中，我们通过添加时间维度来推广空间生成ConvNet，因此生成的我们表明，用于训练时空生成ConvNet的学习算法可以合成逼真的动态模式。我们还表明，它是可能的，学习模型从不完整的视频序列，无论是occluded像素或丢失的帧，使模型学习和70937094K我Ki，y，sKKK我我K可以同时完成图案完成。2. 相关工作我们的工作是通过添加时间维度来推广[29]的生成ConvNet模型。[29]没有工作的动态模式，如那些在视频序列。[11]使用时空判别式ConvNet来分析视频数据。判别式ConvNet和生成式ConvNet之间的联系由[29]研究。[2，24，25，9]研究了动态纹理或纹理运动。例如，[2]提出了一种向量自回归模型，该模型通过单值分解与逐帧降维耦合。它是一个具有高斯新息的线性[24]提出了一种基于帧的稀疏线性表示的关于动态纹理的最新评论，请参见[30]时空生成ConvNet是一种非线性和非高斯模型，预计在使用多层非线性时空滤波器捕获动态纹理中的复杂时空模式时将更加灵活。最近[23]推广了生成对抗网络[6]来建模动态模式。我们的模型是一个基于能量的模型，它也有一个对抗性的解释。详见第3.4节。对于时态数据，一个流行的模型是递归神经网络[27，10]。这是一个因果模型，它需要一个起始框架。相比之下，我们的模型是非因果的，其中l∈ {1，2，.，L}对层进行索引。{F（1 ），k=1，.，N l}是层l处的滤波器，并且{F（l-1），i=1，.，N l−1}是在层l − 1的滤波器。 K和我分别用于索引第l层和第l − 1层的滤波器，N l和N l−1分别是第l层和第l − 1层的滤波器数量。滤波器是局部支持的，因此（y，s）的范围在局部支持Sl内（例如图像序列的7 × 7 × 3框）。权重参数（w（l，k），（y，s）∈Sl，i=1，.，Nl−1）定义线性滤波器其对（F（l-1））n I，i = 1，...， N l−1）。线性滤波操作之后是ReLU h（r）=max（0，r）。在底层，[F （ 0 ）<$I]（x，t）=Ik（x，t），其中k∈{R，G，B}索引三个颜色通道。可以实现子采样，使得在[F（l）<$I]（x，t）中，x∈Dl <$D，并且t∈Tl <$T。在多个层处的时空滤波器被期望在多个尺度上捕获时空模式。顶层滤波器可能在空间域以及时间域中完全连接（例如，特征图在空间域中是1×1）。3.2. 时空生成ConvNet时空生成ConvNet是在图像序列I=（I（x，t），x∈ D，t∈ T）上定义的基于能量的模型或随机场模型。它是参考分布q（I）的指数倾斜形式：不需要起始帧。与递归网络相比，我们的模型在多时间尺度上捕捉时间模式更加方便和直接。p（I;w）=1Z（w）exp [f（I;w）]q（I），（二）3. 时空生成ConvNet其中，评分函数f（I;w）为3.1. 时空滤波器ΣKf（I;w）= Σ Σ[F（L）I]（x，t），（3）为了固定符号，令I（x，t）是在正方形（或矩形）图像域D和时域T上定义的视频的图像序列，其中x=（x1，x2）∈ D索引像素的坐标，并且t∈ T索引视频序列中的帧我们可以把I（x，t）看作一个三维的k=1x∈DLt∈TL其中，w由定义以下项的所有权重和偏置项组成滤波器（F（L），k=1，...，K=N L），并且q是高斯白噪声模型，即，定义在D× T上的函数。对于空时滤波器F，我们让F<$I表示滤波后的图像序列或特征图，并且让[F<$I]（x，t）表示滤波器响应或特征q（I）=1（2πσ2）|D×T|/2expΣ1−2σ2Σ||我||2、（四）在像素x和时间t处。时空ConvNet是多层线性滤波和ReLU非线性的组合，如以下递归公式所示：哪里|D × T|计算域D × T中的像素数。不失一般性，我们假定σ2= 1。（3）中的评分函数f（I;w）将高斯参考分布倾斜为非高斯模型。事实上[F（l）<$I]（x，t）=h.Nl−1 Σ（l，k）i，y，sf（I; w）的目的是识别非高斯时空特征或模式。在（3）中的f（I; w）的定义中，我们对顶层L处的滤波器响应求和i=1（y，s）∈Sl Σ×[F（l−1）<$I]（x+y，t+s）+bl，k，（一）所有的过滤器位置和时间空间和时间池反映了我们假设模型在空间和时间域中是静止的这一事实如果动态W7095Kǫk，x，tK纹理在空间或时间域中是不稳定的，则顶层滤波器F（L）在空间或时间域中完全连接，例如， DL是1 × 1。一个简单但重要的性质，ReLU非-3.3. 采样学习算法可以通过朗之万动力学从模型（2）的p（I;w）线性是h（r）= max（0，r）= 1（r >0）r，其中1（）是指示器函数，因此1（r >0）=1，如果Iτ+1 =Iτ2Σ—Iτ2Σ— Bw，δ（Iτ;w）+Zτ，（7）r>0，否则为0因此，得分函数-f（I; w）是分段线性的[17]，每个线性段由多个定义。多层二值化变量δ （ l ）（I;w ）=1[F （ l ） <$I]（x，t）>0，告诉我们由所述局部时空模式表示的局部时空模式是否在位置x和时间检测层l处的第k个滤波器F（l）其中，τ表示时间步长，τ是步长，Z τ<$N（0，1）。动态由重构误差I-Bw，δ（I;w）驱动。步长的有限性可以通过Metropolis-Hastings 接受-拒绝步骤来校正。朗之万动力学可以扩展到哈密顿蒙特卡罗[18]或更复杂的版本[5]。.t.令δ（I;w）=K（l）k，x，tΣ（I;w），n，l，k，x，t成为激活从训练图像序列中学习w{Im，m = 1，...，M}可以通过最大值来实现I的模式然后δ（I;w）将图像空间划分为a可能性设L（w）= Mlogp（I;w）/M，其中p（I;w）根据δ（I;w）的值，可以得到大量的碎片。在具有固定δ（I;w）的每个图像空间上，评分函数f（I;w）是线性的，即，在（2）中定义，1000毫升（w）1毫升=m=1Σf（Im;w）−EwΣf（I;w）.（八）f（I;w）=aw，δ（I;w）+Δ I，Bw，δ（I;w）Δ，（5）其中a和B 都由δ （I;w ）和w 定义。事实上，B=f（I;w）/I，并且可以通过反向传播计算，其中h′（r）=1（r >0）。反向传播过程定义了一个自上而下的反卷积过程[32]，其中多层的滤波器成为这些层的基函数，δ（I; w）中不同层的激活变量成为自上而下反卷积中基函数的系数。（2）中的p（I; w）是基于能量的模型[15，20]，其能量函数是来自参考分布q（I）的2范数和分段线性评分函数f（I; w）的组合，即，E（I;w）=−f（I;w）+1<$I<$22吴敏惠m=1期望值可以通过朗之万动力学产生的蒙特卡罗样本[31]来近似。有关学习和采样算法的描述，请参见算法1。该算法不断地从当前模型合成图像学习算法不断将模型的概率密度或低能量区域从合成数据向观测数据移动。在学习算法中，Langevin采样步骤涉及到计算Δ f（I;w）/ΔI，并且参数更新步骤涉及到计算Δ f（I;w）/Δ w。由于f（I;w）的ConvNet结构，两个梯度都可以通过反向传播有效地计算，并且两个梯度共享大部分链式规则计算。=1美元2美元2美元.Σ-aw，δ（I;w）+I，Bw，δ（I;w）（六）反向传播中的问题在MCMC抽样方面，Langevin动力学样本来自一个不断发展的分布，1=I−B2w，δ（I;w）102+const，因为w（t）一直在变化。因此，学习和采样算法运行非平稳链。其中const=−aw，δ（I;w）−<$Bw，δ（I;w）<$2/2，它在δ（I; w）固定的像空间上是常数。由于E（I;w）是分段二次函数，p（I;w）3.4. 对抗性解释我们的模型是基于能量的模型是分段高斯分布在像空间{I：δ（I;w）=δ}上，其中δ是δ（I;w）的固定值，p（I;w）是N（Bw，δ，1）截断为{I：δ（I;w）=δ}，其中我们使用1p（I;w）=1Z（w）exp[−E（I;w）].（九）来表示单位矩阵。如果该高斯段的均值Bw，δ在{I：δ（I;w）=δ}内，则Bw，δ也是aδ∂∂7096w的更新基于L′（w），L′（w）可以近似为交配本地模式，并且该本地模式I满足分层自动-编码器，具有自下而上编码过程δ=δ（I;w）和自上而下解码过程I=Bw，δ。通常，对于图像序列I，Bw，δ（I;w）可以被认为是1美元Mm=1中文（简体）∂wm1;w）− MΣMm=1（一）∂wm;w），（10）I的重构，如果I是一个E（I;w）的局部模式。其中，{m，m=1，...，M{\displaystyleM}是合成图像，由朗之万动力学产生的序列在70972算法1学习和采样算法输入：(1) 训练图像序列{Im，m = 1，.，M}(2) 合成图像序列的数量M(3) Langevin步数l(4) 学习迭代次数T输出量：(1) 估计参数w(2) 合成图像序列{m，m=1，.，M}1：设t←0，初始化w（0）。2：初始化m，对于m=1，.， M~。3：重复4：对于每个m，运行朗之万动力学的l个步骤以更新m，即，从当前的开始，每个步骤遵循等式（7）。(a) 河5：计算Hobs=Mf（Im;w（t））/M，以及Hsyn= ΣM˜m=1μ wf（m=1μ w6：更新w（t+1）← w（t）+ η t（Hobs−Hsyn），步长为η t。7：设t←t+18：直到t=T零温度极限，朗之万动力学变成梯度下降：(b) 海洋图1. 合成具有空间和时间平稳性的动态纹理。对于每个类别，第一行显示观察序列的帧，第二行和第三行显示由学习算法生成的两个合成序列的相应帧。(a)河(b)海洋Iτ+1=--（w）.τ2∂˜Iτ（十一）自顶向下的ConvNet的参数。最近[8]开发了一种交替反向传播算法来训练生成器网络，而不涉及额外的网络。考虑值函数V（m，m=1，...，M（w）：最近，[28]开发了一种合作训练方法，1美元Mm=1E（m）1;w）− MΣMm=1E（Im;w）。（十二）该方法招募一个生成器网络工作g（X;w）来重建，r e生成合成图像序列{m，m}以加速MCMC采样。w的更新是通过将低能量区域从合成图像序列{Im}移位到观察图像序列{Im}来增加V，而{m，m=1，...，M是通过移动syn来降低V将图像序列向低能量区域调整。这是对学习和采样算法的敌对解释它也可以被认为是羊群方法[26]从指数族模型到一般基于能量的模型的推广。在我们的工作中，我们令 −E （ I;w ）=f （ I;w ）−<$I2/2σ2。我们也可以通过假设一个统一的参考分布q（I），令−E（I;w）=f（I;w）。实验结果表明，均匀q值的模型也能合成真实的动态模式生成对抗学习[6，23]有一个生成器网络。与我们基于自底向上ConvNetf（I;w）的模型不同，生成器网络通过自顶向上的ConvNetI=g（X;w）生成I，其中X是遵循已知先验分布的潜在向量，w是收集4. 实验我们从[4]的DynTex++数据集和互联网收集的视频剪辑中学习时空生成ConvNet。实验中的代码基于[22]的MatConvNet和[21]的MexConv3D。我们通过显示视频序列中的帧来显示合成结果。我们已经在项目页面http://www.stat.ucla.edu/上发布了合成下载jxie/STGConvNet/STGConvNet. html，以便读者可以观看视频。4.1. 实验1：同时具有空间和时间平稳性的动态纹理生成我们首先从在空间和时间域都是静止的动态纹理中学习模型。我们使用在空间和时间域都是卷积的时空滤波器第一层有120个15×15×15的滤波器，子采样大小为7个像素和帧。的7098(a) 闪灯(b) 喷泉图3.瀑布动态纹理合成方法的比较从上到下：观察序列的片段，用我们的方法合成的序列，和用[ 2 ]的方法合成的序列。类别从一个观察到的视频，准备尺寸为224× 224× 50或70。强度的范围是[0，255]。平均值减法被用作预处理。We us eM =3链，用于朗之万采样。数字-(c) 烧火烧锅(d) 泉水图2. 合成动态纹理只有时间stationarity。对于每个类别，第一行显示观察序列的帧，第二行显示由学习算法生成的合成序列的相应帧。(a)闪光灯(b)喷泉(c)燃烧的火加热一个锅。(d)泉水第二层有40个7×7×7滤波器，子采样大小为3. 第三层有 20 个 3×3×2 滤波器，子采样大小为2×2×1。图1显示了2个结果。对于每个类别，第一行显示7帧观察到的序列，而第二行和第三行示出了由学习算法生成的两个合成序列的对应帧我们使用逐层学习方案。从第一层开始每次我们学习模型并使用算法1生成合成图像序列。在学习新的滤波器层时，我们使用反向传播来改进滤波器的较低层。我们学习一个时空生成的ConvNet，每两个连续的Langevin迭代之间的参数更新，l=20。学习迭代次数T=1200，每400次迭代增加一层。我们使用特定于层的学习率，其中高层的学习率小于低层的学习率，以获得稳定的收敛。4.2. 实验二：仅具有时间平稳性的动态纹理生成许多动态纹理具有结构化的背景和在空间域中不静止的对象。在这种情况下，实验1中使用的网络可能会失败。然而，我们可以通过使用在第二层空间域中完全连接的滤波器来修改实验1中的网络具体来说，第一层有120个7×7×7滤波器，子采样大小为3个像素和帧。第二层是空间全连接层，包含30个在空间域中完全连接但在时间域中卷积的滤波器。滤波器的时间大小为4帧，其中在时间维度上子采样大小为2帧。由于第二层的空间全连通性，第三层的特征图的空间域被减少到1×1。第三层有5个1×1×2滤波器，时间维度上的子采样大小为1我们使用端到端的学习方案来学习上述3层时空生成ConvNet的动态纹理。在每次迭代中，3层过滤器使用3种不同的层特定学习率进行高层的学习速率远小于低层，以避免大梯度的问题。我们从一个训练视频中学习每个猫的时空生成ConvNet。我们合成了M=37099观测序列(a) 30个观察序列21帧合成序列(a) 奔跑的母牛(b) 30个合成序列的第21观测序列(c) 2合成序列图4. 从30个观察到的火灾视频中学习，并使用小批量实现。使用朗之万动力学的视频。图2显示了结果。对于每个类别，第一行显示了观察序列的 6 帧（ 224×224×70），第二行显示了由学习算法生成的合成序列的相应帧。我们对所有类别使用相同的参数集，而不进行调优。图3将我们的方法与[2]的方法进行了比较，[2]是线性动态系统模型。由该模型生成的图像序列我们模型的学习可以扩大。我们从30个训练视频中学习火灾模式，并采用小批量实现。每个小批量的大小是10个视频。每个视频包含30帧（100 × 100像素）。对于每个小批次，使用M=13个平行链进行Lang e vin采样。在这个实验中，我们稍微修改了网络在第一层使用120个11×11×9滤波器，子采样大小为5个像素和4帧，在第二层使用30个空间上完全连接的滤波器，时间大小为5帧，子采样大小为2，同时保持第三层的设置不变。学习迭代次数T=1300。图4示出了30个观察序列中的每一个的一个帧和合成序列的对应帧。还显示了合成序列的两个示例。4.3. 实验3：生成没有空间或时间平稳性的实验1和2表明，生成式时空ConvNet可以从没有对齐的序列中学习，合成序列(b)奔跑的老虎图5. 综合行动模式。对于每个动作视频序列，显示6个连续帧（a）奔跑的母牛。显示5个训练序列中的2个的帧。显示由学习算法生成的8个合成序列中的2个的对应帧。(b)奔跑的老虎显示2个观察到的训练序列的帧。显示4个合成序列中的2个的相应帧是的。我们还可以通过使用覆盖整个视频序列的单个顶层滤波器，将其专门用于学习动作模式的粗略对齐的视频序列，这些视频序列在空间域或时间域中是我们从对齐动作的视频序列中学习一个2层时空生成ConvNet。第一层有200个7×7×7滤波器，子采样大小为3个像素和帧。第二层是一个完全连接的层，具有覆盖整个序列的单个过滤器。观察到的序列大小为100×200×70。图5显示了从粗略对齐的视频序列中建模和合成动作我们为每个类别学习一个模型，其中训练序列的数量对于奔跑的奶牛示例是5，对于奔跑的老虎示例是2。这些视频是从互联网上收集的，每个视频有70帧。对于每个示例，图5显示了2个观察到的序列的片段，以及由学习算法生成的2个合成动作序列的片段gorithm. 我们运行了M=8条链进行实验运行的奶牛，和4个用于实验的链条奔跑的老虎实验结果表明，该模型可以捕捉非平稳的动作模式。我们的模型的一个限制是，它不涉及明确的跟踪对象及其部分。7100′M′′4.4. 实验4：从不完整数据中学习我们的模型可以从具有遮挡像素的视频序列中学习该任务的灵感来自于这样一个事实，即大多数视频包含被遮挡的对象。我们的学习方法可以适应这个任务，只需最小的修改。修改涉及，对于每次迭代，运行k个步骤的朗之万动力学恢复所观察到的序列的闭塞区域。在每次迭代中，我们使用完整的观测序列和合成序列来计算对数似然的梯度并更新模型参数。我们的方法同时完成了以下任务：（1）恢复训练视频序列的遮挡像素，（2）从学习的模型合成新的视频序列，（3）通过使用恢复的序列和模型更新模型参数来算法2学习、采样和恢复算法输入：(1) 具有遮挡像素的训练图像序列{Im，m = 1，...， M}(2) 二进制掩码{0 m，m=1，.，M}，指示训练图像序列中被遮挡像素的位置(3) 合成图像序列的数量M(4) 用于合成图像序列的朗之万步数l(5) 用于恢复所包括的像素的朗之万步数k(6) 学习迭代次数T输出量：(1) 估计参数w(2) 合成图像序列{m，m=1，.，M}合成序列。有关描述，请参见算法2学习、采样和恢复算法的一部分。表1.遮挡实验中的恢复误差(a) 盐和胡椒面具(3) 恢复的图像序列{Im1：设t←0，初始化w（0）。2：初始化m=1，...， M~。′3：初始化Im，对于m = 1，...，M.4：重复，m = l，… M}5：对于每个m，运行朗之万动力学的k个步骤，恢复Im的遮挡区域，即，日起目前，，每个步骤遵循等式（7），但是′(b) 单区域掩模在每个步骤中仅更新Im6：对于每个m，运行朗之万动力学的l个步骤以更新m，即，从当前的开始，每个步骤遵循等式（7）。′7：计算Hobs=Mf（I;w（t））/M，以及Σ˜m=1∂wmHsyn=Mf（m;w（t））/M。m=1μ w8：更新w（t+1）←w（t）+η（Hobs−Hsyn），步长为η。9：设t←t+110：直到t=T(c) 50%缺失帧我们MRF-2001MRF-2002标志5.599210.717112.6317喷泉8.053119.433113.2251海洋4.04289.08389.8913玩7.610322.282717.5692海洋世界5.434813.510112.9305交通8.824516.696517.1830风车7.534613.336412.9911Avg.6.728515.008513.7746我们设计了3种类型的闭塞：（1）第1类：盐和胡椒遮挡，其中我们在150 × 150图像域上随机放置7 × 7掩模，以覆盖视频的50%像素。（2）类型2：单区域掩模遮挡，我们在150×150图像上随机放置60×60掩模域(3)类型3：丢失帧，我们随机阻止每个视频中50%的图像帧。图6显示了每种遮挡类型的恢复结果的一个示例每个视频有70帧。为了定量评估恢复视频的质量，我们在7个视频序列上测试了我们的方法，这些视频序列是从 [4] 的DynTex++数据集收集的，有3种类型的遮挡。我们使用与实验3相同的模型结构。将用于回收的朗之万步骤的数目设定为等于用于合成的朗之万步骤的数目，其为20。对于每个实验，我们报告的恢复误差测量的原始图像序列和恢复的图像序列上的遮挡像素之间的平均每像素的差异。像素强度的范围是[0，255]。我们比较我们的结果我们MRF-2001MRF-2002标志3.79236.621110.9216喷泉5.54038.190411.3850海洋3.37397.29839.6020玩5.903514.366515.7735海洋世界5.372010.612711.7803交通7.202914.751217.6790风车5.94848.909512.6487Avg.5.304810.107112.8272我们MRF-2001MRF-2002标志8.163610.658612.5300喷泉6.032311.829912.1696海洋3.48428.74989.8078玩6.157515.629615.7085海洋世界5.885012.029712.2868交通6.830615.366016.5787风车7.885811.735513.2036Avg.6.348412.285613.18367101(a) 50%盐和胡椒面膜(a) 在湖中移动船只(b) 单区域掩模(c) 50%缺失帧图6.从被遮挡的视频序列中学习对于每个实验，第一行示出了具有黑色掩模的被遮挡序列的片段第二行示出了恢复序列的相应片段(a)第一种：椒盐面膜。(b)类型2：单区域掩模。(c)类型3：丢失帧。其结果由在视频序列上定义的通用马尔可夫随机场模型获得该模型是一个3D（时空）马尔可夫随机场，其潜力是最近的邻居像素之间的成对的0.1或0.2的差异，其中最近的邻居被定义在空间和时间域。图像序列的恢复是通过使用吉布斯采样器对被遮挡像素的强度进行采样来实现的。表1显示了3种类型闭塞的比较结果我们可以看到，我们的模型可以恢复不完整的数据，同时从他们学习。4.5. 实验5：背景修复如果视频中的运动对象在每帧中被遮挡，则恢复算法将变成用于视频的背景修复的算法，其中目标是从视频中移除不期望的运动对象。对于图2，我们使用与实验2中相同的模型。图7示出了分别移除（a）移动的船和（b）行走的人的两个示例。这些视频来自[19]。对于每个示例，第一列显示原始视频的2帧。第二列显示了掩模被遮挡的相应帧(b) 移走喷泉图7. 视频背景修复。对于每个实验，第一列显示原始视频的2帧第二列示出了具有遮挡待移除的目标的黑色掩模的对应帧第三列显示了我们算法的修复结果。(a)移动的船(b)行走的人目标被移除。第三列显示了我们算法的修复结果。视频大小在示例（a）中为130×174×150，在示例（b）中为130×230×104。该实验不同于插值法的视频修复。我们通过运行Langevin动力学来合成图像补丁对于实验4和5，我们运行单个朗之万链用于合成。5. 结论在本文中，我们提出了一个时空生成的ConvNet模型，用于合成动态模式，如动态纹理和动作模式。实验结果表明，该模型能够合成具有真实感的动态图像.此外，可以从具有遮挡像素或丢失帧的视频序列中学习模型本文未包括的其他实验表明，我们的方法也可以生成声音模式。模型的MCMC采样可以通过在多个尺度上学习和采样模型来加速，或者通过重新调整生成器网络来重建和重新生成合成的示例，如在合作训练中[28]。致谢这项工作得到了 NSF DMS 1310391 、 DARPASIMPLEX N66001-15-C-4035 、 ONR MURI N 00014 -16-1- 2007 和 DARPA ARO W 911 NF-16-1-0579 的支持。7102引用[1] E. L. Denton，S.钦塔拉河Fergus等人使用对抗网络的拉普拉斯金字塔的深度生成图像模型。在NIPS，第1486-1494页，2015年。1[2] G. Doretto，A. Chiuso，Y. N. Wu和S.索阿托动态纹理。International Journal of Computer Vision，51（2）：91一、二、五、六[3] A. 多索维茨基Tobias Springenberg和T.布洛克斯学习用卷积神经网络生成椅子。在CVPR，第1538-1546页，2015年。1[4] B. Ghanem和N.阿胡佳动态纹理识别的最大间隔距离见ECCV，第223施普林格，2010年。四、七[5] M. Girolami和B.考尔德黑德黎曼流形朗之万与哈密顿蒙特卡罗方法。Journal of the Royal Statistical Society：Series B （ Statistical Methodology ）， 73 （ 2 ）： 123-214，2011. 3[6] I. Goodfellow，J.普热-阿巴迪米尔扎湾，澳-地Xu，L.Warde-Farley，S.奥扎尔A. Courville和Y.本吉奥。生成性对抗网。在NIPS，第2672-2680页，2014中。二、四[7] K.格雷戈尔岛Danihelka ， A.格雷夫斯 D.J.Rezeland，以及D.维尔斯特拉DRAW：用于图像生成的递归神经网络。在ICML，第1462-1471页，2015中。1[8] T.汉，Y。吕，S.- C. Zhu和Y. N.吴发电机网络的交替反向传播算法。InAAAI，2017. 4[9] Z. 汉，Z.Xu和S.-C. 竹Video primal sketch：视频的统一中间层表示Journal of Mathematica Imaging and Vision，53（2）：151-170，2015。2[10] S. Hochreiter和J.施密特胡博长短期记忆。神经计算，9（8）：1735-1780，1997。2[11] S.吉，W. Xu，M. Yang和K. Yu.用于人类动作识别的3D卷积神经网络。IEEE Transactions on Pattern Analysisand Machine Intelligence，35（1）：2212[12] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在NIPS，第1097-1105页，2012中。1[13] T. D. Kulkarni、W. Whitney，P. Kohli，and J. B. 特南鲍姆深度卷积逆图形网络。ArXiv电子打印，2015年。1[14] Y.勒昆湖Bottou，Y. Bengio和P.哈夫纳基于梯度的学习应用于文档识别。Proceedings of the IEEE，86（11）：2278-2324，1998. 1[15] Y. LeCun，S.乔普拉河哈德塞尔M.Ranzato和F.煌关于能量学习的教程。预测结构化数据，1：0，2006。第1、3条[16] Y.吕，S.- C. Zhu和Y. N.吴使用cnn过滤器学习FRAME模型。在AAAI，2016。1[17] G. F.蒙图法尔河，西-地帕斯卡努角Cho和Y.本吉奥。关于深度神经网络线性区域的数量。在NIPS，第2924-2932页，2014中。3[18] R. M.尼尔使用哈密顿动力学的Mcmc。马尔可夫链蒙特卡罗手册，2011年2月。3[19] A. Newson，A. Almansa，M. Fradet，Y. Gousseau和P. Pérez. http://perso.telecom-paristech.fr/~gousseau/video_inpainting. 87103[20] J. Ngiam，Z. Chen，P. W. Koh和A. Y. Ng.学习深度能量模型。ICML，第1105-1112页，2011年。第1、3条[21] P.太阳https://github.com/pengsun/MexConv3D。4[22] A. Vedaldi和K.伦克MatconvnetCoRR，abs/1412.4564，2014年。4[23] C. Vondrick，H. Pirsiavash和A.托拉尔巴生成具有场景动态的视频。在NIPS，第613-621页，2016年。二、四[24] Y. Wang和S.- C.竹纹理运动的生成方法：分析和综合。见ECCV，第583Springer，2002年。一、二[25] Y. Wang和S.- C.竹纹理运动的分析和合成：粒子和波。IEEE Transactions on Pattern Analysis and MachineIntelligence，26（10）：13482[26] M.威林聚集动态权重来学习。ICML，第1121-1128页。ACM，2009年。4[27] R. J. Williams和D.Zipser 连续运行全递归神经网络的一种学习算法神经计算，1（2）：270-280，1989. 2[28] J. Xie，Y.卢河，巴西-地高氏C. Zhu和Y.N. 吴描述子网络和生成器网络的协同训练 arXiv 预印本 arXiv ：1609.09408，2016. 四、八[29] J. Xie ， Y. 吕， S.-C. Zhu 和 Y.N. 吴生成转换理论InICML，2016. 一、二[30] X. 你，W。Guo，S.Yu，K.Li，J.C. Príncipe和D.涛. 动态纹理合成的核学习 IEEE Transactions on ImageProcessing，25（10）：4782-4795，2016。2[31] L. 尤尼斯遍历率迅速下降的马尔可夫随机算法的收敛性随机数：An International Journal of Probability andStochastic Processes，65（3-4）：177-228，1999. 第1、3条[32] M. D. Zeiler、G.W. Taylor和R.费格斯。自适应反卷积网络用于中高层特征学习。在ICCV，第2018-2025页，2011年。3

下载后可阅读完整内容，剩余1页未读，立即下载