绘画时间流逝：合成绘画的延时视频

146 浏览量更新于2023-10-23 收藏 1.07MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1绘画许多过去：合成绘画的时间流逝视频赵美xamyzhao@mit.eduFre'doDurandMITfredo@mit.eduGuhaBalakrishnan MITbalakg@mit.edu约翰五世GuttagMITguttag@mit.edu凯瑟琳·M 刘易斯麻省理工学院kmlewis@mit.edu阿德里安五世Dalca MIT，MGHadalca@mit.edu摘要我们引入一个新的视频合成任务：合成延时视频，描述给定的绘画可能是如何创作的。艺术家使用独特的画笔、笔触和颜色组合进行绘画。通常有许多方法可以创建一个给定的绘画。我们的目标是学习如何捕捉这些丰富的可能性。创建长期视频的分发对于基于学习的视频合成方法来说是一个我们提出了一个概率模型，给定一个完整的绘画的单个图像，递归地合成绘画过程的步骤我们将此模型实现为卷积神经网络，并引入了一种新的训练方案，以便从有限的绘画时间间隔数据集中进行学习。我们证明，该模型可用于采样许多时间步长，使长期的随机视频合成。我们对从视频网站上收集的数字和水彩画进行了评估，并表明人类评分员发现我们的合成视频与真实艺术家制作的延时视频相似。我们的代码可在https://xamyzhao.github.io/timecraft上获得。1. 介绍熟练的艺术家经常可以看到一件艺术品，并决定如何重新创造它。在这项工作中，我们探索是否可以使用机器学习和计算机视觉来模仿这种能力。我们定义了一个新的视频合成问题：给定一幅画，我们能否合成一个描述艺术家如何画它的延时视频？艺术时间流逝对视频合成方法提出了许多挑战。人们如何创造艺术有很多不同之处。假设两个艺术家被要求画同一幅风景画。一个艺术家可能从天空开始，而另一个可能从远处的山脉开始一个人可能会在完成一个物体之前移动到下一个物体，输入合成图1：我们提出了一个概率模型，用于合成绘画的延时视频。我们在保罗·塞尚（Paul Cezanne）的《西瓜和苹果树的静物》（ Still Life with a Watermelon andPesticates ）（上图）和文森特 ·梵高（ Vincent vanGogh ）的《麦田与柏树》（ Wheat Field withCypresses）（下图）上展示了我们的模型。另一个可能在每个对象上一次工作一点在绘画过程中，通常很少有视觉线索表明艺术家将在哪里应用下一笔。绘画的过程也很长，通常要画几百笔，几十分钟。在这项工作中，我们提出了一个解决方案的绘画时间推移合成问题。我们首先定义问题并描述其独特的挑战。然后，我们推导出一个原则性的、基于学习的模型，以捕捉人类可能用于创建给定绘画的步骤分布我们引入了一个训练计划，鼓励该方法在许多时间步长上产生现实的变化我们证明，我们的模型可以学习解决这个任务，即使使用从网络上收集的绘画时间间隔的小而嘈杂的数据集进行训练。我们表明，人类评估者几乎总是喜欢我们的方法，现有的视频合成基线，并经常发现我们的结果与真正的艺术家产生的时间流逝没有区别。这项工作提出了几个技术贡献：1. 我们使用概率模型来捕捉艺术家做出的随机决定，从而捕捉到创作绘画的合理方法的分布。2. 与未来帧预测或帧插值的工作不同，我们合成了跨越数十个的长期视频84358436时间步长和许多实时分钟。3. 我们展示了一个模型，成功地学习绘画时间流逝“从野外”。该数据是小的且有噪声的，已经从具有可变照明、空间分辨率和视频捕获速率的不受控制的设备收集。2. 相关工作据我们所知，这是第一个对过去的视频分布进行建模和合成的工作，给定一个最终帧。与我们最相似的工作是最近的一种称为视觉解投影的方法[5]。给定单个输入图像描绘帧的时间聚合，他们的模型捕获可能产生该图像的视频的分布。我们在实验中把我们的方法和他们的方法作了比较。在这里，我们回顾了三个主要领域的其他相关研究：视频预测，视频插值和艺术合成。2.1. 视频预测视频预测或未来帧预测是在给定过去帧的序列的情况下预测视频的下一帧或几帧的问题。该领域的早期工作集中在预测运动轨迹[8，16，34，51，55]或在小帧中合成运动[40，41，50]。最近的方法在大型视频数据集上训练卷积神经网络，以合成自然场景和人类动作的视频[35，38，46，52，53]。最近的一项关于延时合成的工作集中在户外场景[43]，模拟照明随时间的变化，同时保持场景的内容不变。相比之下，创建绘画时间流逝需要在保持照明恒定的同时添加内容。另一种最近的时间推移方法仅输出描绘特定物理过程的几帧：花开花落，花开花落[70]我们的问题在几个关键方面与视频预测不同首先，大多数视频预测方法集中在短时间尺度上，以秒为单位合成未来的帧，并且包含相对较小的变化。相比之下，绘画时间流逝跨越几分钟甚至几小时，并描绘随着时间的推移戏剧性的内容变化。第二，大多数视频预测器输出单个最可能的序列，使得它们不适合于捕获各种不同的合理绘画轨迹。一项研究[63]使用条件变分自动编码器来模拟移动人类的合理未来帧的分布。We build upon these ideas to model painting changesacross mul- tiple time steps.最后，视频预测方法关注自然视频，描述人和物体的运动[52，53，63]或物理过程[70]。输入帧通常包含关于运动、动作或物理过程将如何进行的视觉提示，从而限制了必须抓住的可能性相比之下，绘画的快照提供的视觉线索很少，导致许多看似合理的未来轨迹。2.2. 视频帧内插我们的问题可以被认为是一个长期的框架内插任务之间的空白画布和一个完成的艺术作品，有许多可能的绘画轨迹之间的。在视频帧内插中，目标是在时间上在两个帧之间进行时间内插。经典方法专注于自然视频，并估计密集流场[4，58，65]或相位[39]以指导插值。最近的方法使用卷积神经网络直接合成插值帧[45]，或将流场与场景信息的估计相结合[28，44]。大多数帧内插方法预测单个或几个中间帧，并且不容易扩展到预测长序列或预测序列的分布2.3. 艺术综合图形社区长期以来一直对数字媒体中模拟物理逼真的绘画笔划感兴趣许多现有的方法集中在基于物理的流体或刷毛模型[6，7，9，12，57，62]。更多re-基于中心学习的方法利用真实绘画笔划的数据集[31，36，68]，通常将艺术笔划合成问题作为纹理转移或风格转移问题[3，37]。一些作品集中于模拟水彩画特有的效果，如边缘变暗[42，56].我们专注于捕捉大规模的，长期的绘画过程，而不是个别绘画笔触的精细细节。在风格转换中，图像被转换以模拟特定的风格，例如绘画风格[20，21]或卡通风格[67]。最近，神经网络已被用于广义艺术风格转移[18，71]。我们利用这些方法的见解来合成一个现实主义的绘画进展。最近的几篇论文将强化学习或类似技术应用于绘画过程。这些方法涉及设计参数化的画笔笔划，然后训练代理应用笔划来产生给定的绘画[17，22，26，27，59，60，69]。一些作品专注于特定的艺术任务，如孵化或其他重复的笔画[29，61]。这些方法需要仔细的手工设计，并且没有优化以产生各种或逼真的绘画进展。相比之下，我们从真实的绘画时间推移数据中学习了一系列广泛的效果。3. 问题概述给定一幅完成的画作，我们的目标是综合艺术家可能创造它的不同方式。我们使用从视频网站收集的数字和水彩画时间流逝的记录。相比84371T（i）时间图2：几个真实的绘画进展相似的场景. 每个艺术家以不同的顺序填充房子、天空和场景和人类动作的自然视频、绘画视频提出了独特的挑战。高变异性绘画轨迹：即使对于同一场景，不同的艺术家也可能以不同的时间顺序绘制对象（图2）。绘画速度：艺术家们以不同的速度工作，并以不同的数量涂抹颜料。比例和形状：在绘画过程中，艺术家使用不同大小和形状的笔画。艺术家通常在早期使用粗线条，然后添加精细的细节。数据可用性：由于野外可用视频的数量有限，因此收集捕获上述类型的可变性的数据集具有挑战性特定介质的挑战非绘画效果：在数字艺术应用中（例如，，[23]），有许多工具可以应用局部模糊、涂抹或专用画笔形状。艺术家还可以应用全局效果来模拟不同的灯光或色调。擦除效果：在数字艺术应用程序中，艺术家可以擦除或撤消过去的操作，如图3所示。水彩画中的物理效果：水彩画视频表现出由颜料，水和纸张的物理相互作用产生的独特效果。这些效果包括湿漆上的镜面照明，颜料干燥时褪色，以及水从与画笔接触的点扩散（图4）。在这项工作中，我们设计了一个基于学习的模型来处理高可变性和绘画介质特定效果的挑战。时间图3：示例数字绘画序列。These se- quences show avariety of ways to add paint, including fine strokes andfilling (row 1), and broad strokes (row 3).我们用红框来概述挑战，包括擦除（第2行）和颜色和构图的剧烈变化（第3行）。时间图4：示例水彩画序列。概述的区域突出显示了一些水彩特有的变化，包括照明的变化（第1行），油漆干燥时的漫射和褪色效果（第2行），以及湿油漆上的镜面反射效果（第3行）。4. 方法我们开始正式的时间推移视频合成问题。给定一幅画xT，我们的任务是合成过去的帧x1，···，xT−1。假设我们有一个训练集的实时延时视频{x（i）= x（i），···，x（i）}。我们首先定义一个原则性的概率模型，然后学习它的参数使用这些视频。在测试时，给定一幅完整的绘画，我们从模型中采样，以创建逼真的绘画过程的新视频。4.1. 模型我们提出了一个概率，时间上经常性的模型，在绘画过程中所作的改变在每个时刻t，模型预测逐像素强度变化δ t，其应被添加到先前帧以产生当前帧;即x t=xt−1+δ t。这种变化可以表示一个或多个物理或数字绘画笔划，或者诸如擦除或褪色的其它效果。我们将δt建模为由随机潜变量zt、已完成的片段xT和图像在前一个时间步xt-1的内容;可能性为8438t t t−1T（i）先前帧电流变化��−1最终帧图5：提出的概率模型。圆代表随机变量;阴影圆表示在推理时间观察到的变量。圆角矩形表示模型参数。p θ（δ t|z t，x t−1;x T）（图5）。使用随机变量zt有助于捕捉绘画的随机性。使用xT和xt−1使模型能够捕获随时间变化的效果，例如从粗到细的画笔大小的而马尔可夫假设便于从少量视频示例中学习。通常将这种图像似然定义为每像素正态分布，这导致最大似然公式中的L2图像相似性损失项[33]。在合成任务中，使用L2损失通常会产生模糊的结果[24]。相反，我们将图像相似性损失设计感知损失通常用于图像合成和风格转换任务，以产生更清晰和更视觉上令人愉悦的结果[14，24，30，45，66]。我们使用归一化VGG特征之间的L2距离[49]，如[66]中所述。我们让可能性采取以下形式：pθ（δt|zt，xt−1; xT）图6：神经网络架构。我们使用条件变分自动编码器框架实现我们的模型。在训练时，鼓励网络重建当前帧xt，同时从接近标准正态分布的分布中采样潜在zt在测试时，自动编码分支被移除，并且从标准法线采样zt我们用速记法δt=gθ（zt，xt−1，xT），xt=xt−1+δt。p（z t|δ t，x t−1;x T）<$q φ（z t|δ t，x t−1;x T）[32，63，64].我们让这个近似分布采用以下形式：多元正态分布：q φ（z t| δ t，x t−1，x T）.Σ=Nzt;μφ（δt，xt−1，xT），μφ（δt，xt−1，xT），（4）其中，μφ（·）、μφ（·）是由φ参数化的函数，并且φ（·）是对角的。-一个|δt−δt|-是的Σσ2不NV（x+δ）;V（x+δ0），σ2■，（1）4.1.1神经网络框架1t−1t t−1t2其中δt=gθ（zt，xt−1，xT），gθ（·）表示函数pa-我们将函数gθ，μφ和μφ实现为由θ和φ参数化的卷积编码器-解码器，我们V（·）是一个用θ表示的函数，VGG特征，并且σ1、σ2是固定噪声参数。我们假设潜在变量zt是从多元标准正态分布生成的：p（z t）= N（z t; 0，■）。（二）我们的目标是找到最能解释数据集中所有视频的模型参数θarg maxitpθ（δ（i），x（i），x（i））使用条件变分自动编码器（CVAE）框架[54，64]。我们使用类似于[64]的架构（如图6所示）。我们在附件中提供了全部细节。4.2. 学习我们使用来自训练视频数据集的短序列来学习模型参数，我们将在第5.1节中进一步详细讨论。我们使用两个阶段的优化，t t−1θ∫T（i）促进趋同：成对优化和序列= arg最大值θztpθ（δ（i））|z（i），x（i）;x（i））dz t.（三）优化.4.2.1成对优化这个积分是难对付，和的后p（z t|δ t，x t−1;xT）也是难以处理的，的使用EM算法。我们使用变分推断-并引入近似后验分布L1+ L2自动编码分支（仅用于训练公司简介��−1 ��መCC密集Σ3x3转置卷积TT��C+3x3转换，池采样��−1公司简介下采样Dconcatenateconcatenate添加绘画更改8439从等式（3）和（4），我们获得每对连续帧的表达式（推导在附录中提供84402图像相似性损失日本+1图像相似性损失联系我们��日本+1联系我们��−1��⋯图像相似性损失联系我们��+= 1临界损失�� = 2临界损失�� 12=临界损失�� ⋯��企业形象（（相似性损失图7：连续CVAE训练。我们的模型经过训练，可以重建一个真实的帧（绿色轮廓），同时建立在之前对S个时间步长的预测基础上。logpθ（δt，xt−1，xT）图8：序贯抽样训练。我们使用一个对比帧评论器来鼓励从我们的模型中采样的所有帧看起来都很逼真。最终帧上的图像相似性损失促使模型在τ时间步长内完成绘画。Σ≥Ezt <$qφ（zt|xt−1，δt;xT）Σlogp θ（δ t|z t，x t−1; x T）-KL[qφ（z t|δt，xt−1; x T）||p（z t）]，（5）我们依赖于在每个时间步长从先验p（zt）采样来合成新的视频变分函数的一个极限其中KL[·||·]表示Kullback-Liebler偏差。结合等式（1）、（2）、（4）和（5），我们最小化：策略是训练期间潜在空间zt的有限覆盖范围[15]，有时会导致不切实际的预测1<$x<$t=x<$t−1+gθ（zt，x<$t−1，xT）对于zt<$p（zt）。为了补偿-L KL+2LL1（δt，δt）1为此，我们引入了对此类样品的监督，amending the image similarity term in Equation (5) with a1+2σ2 LL2（VGG（x）t−1 +δt），VGG（xt−1 +δt）），（6）条件评论家损失项[19]：Σ。ΣΣ.其中LKL=1-logφ+φ+µ2Σ和图像Lcritic=Ezp（z）DtΣtxt，xt−1，xTΣ2φ−ExD（xt，xt−1，xT），（7）相似性项LL1、LL2表示L1和L2距离re。分别为。我们在单个时间步长上优化等式（6），该单个时间步长是通过对数据集中的所有连续帧对进行采样而我们还训练模型从以空白画布开始的视频中产生第一帧x1，给定白色输入帧x空白和xT。这些起始序列教模型如何在推理时开始绘制。4.2.2序列优化为了合成整个视频，我们在多个时间步长内循环运行我们的模型在进行连续预测时，随着时间的推移观察复合误差或伪影是很常见的[52]。我们使用一种新的顺序训练方案来鼓励模型的输出在多个时间步长上是准确和现实的。我们在两种训练模式之间交替。顺序CVAE训练通过减少错误的复合来鼓励帧序列被学习的分布很好地捕获。我们按顺序训练模型几个时间步长，使用模型的预测从前一个时间步长：xt=xt−1+gθ（zt，xt−1，xT），zt<$qφ（zt|xt−xt−1，xt−1，xT）。We compare eachpre- dicted frame to the corresponding real frame usingthe im-年龄相似性损失方程。（六）、我们在图7中对此进行了说明。序贯抽样训练鼓励从我们学习的分布中随机抽取样本，使其看起来像逼真的部分完成的画作。在推理期间（如下所述），σ8441不其中D（·）是具有参数的评论函数。评论家鼓励采样绘画变化的分布δt=gθ（zt，xt−1，xT），ztp（zt）来匹配训练绘画变化的分布δ t。我们用一个评论家架构的基础上 [10] ，并优化它使用 WGAN-GP[19]。除了批评家损失之外，我们在τ时间步长之后应用上面讨论的图像相似性损失，以鼓励模型最终产生完成的绘画。图8总结了该训练方案。4.3. 推理：视频合成给定完成的绘画xT和学习的模型参数θ，φ，我们通过在每个时间步从模型中采样来合成视频。具体来说，我们合成每一种使用合成的前一帧x t − 1和随机采样的z t p（z t）来生成帧xt=xt−1+gθ（zt，xt−1，xT）。我们开始每个视频使用x0=xblank，一个空白帧。4.4. 执行我们使用Keras [11]和Tensor-flow [1]实现我们的模型我们实验性地选择控制重建损失权重的超参数为σ1= σ2=0。1、使用验证集。5. 实验5.1. 数据集我们从YouTube和Vimeo上收集了绘画的延时录音。我们选择了数码和水彩8442图9：采样视频的多样性。我们显示的例子，我们的方法适用于数字（顶部3行）和水彩画（底部3行）从测试集。我们的方法捕捉不同的和似是而非的绘画轨迹。绘画（这是这些网站上常见的绘画方法），并专注于风景或静物（这是两种媒介的共同主题）。我们以360×640的分辨率下载每个视频，并在时间和空间上对其进行裁剪，以仅包括绘画过程（不包括其他内容，如介绍或草图）。我们以70：15：15的比例将每个数据集分为训练、验证和测试视频集。数字绘画：我们收集了117个数字绘画时间流逝。平均持续时间为 4 分钟，许多视频已经被艺术家使用Procreate应用程序加速[23]。我们选择了最小缩放和平移的视频。我们手动删除了包含平移、翻转和缩放等运动的片段图3示出了示例视频序列。水彩画：我们收集了116幅水彩画的时间流逝，平均持续时间为20分钟。我们只保留了包含纸张最小移动的视频我们在图4中展示了示例。实物绘画视频的一个挑战是在许多帧中存在手、画笔和阴影。我们训练了一个简单的卷积神经网络来识别和删除包含这些伪影的帧。5.1.1序列提取为了计算的可行性，我们以比实时更低的时间分辨率合成时间流逝我们在γ >0的周期从原始视频中提取训练序列帧（即，在每个合成的时间步中跳过γ帧），最大方差为γ帧。允许采样率中的一些变化对于（1）提高对变化的绘画速率的鲁棒性以及（2）从其中包含手或画笔的许多帧已经被移除的水彩画视频中提取序列是有用的。我们为每个数据集独立地选择γ和γ我们避免捕获每个视频的静态片段（例如，当艺术家讲话时），这是通过要求每个序列中的相邻帧具有至少1%的像素改变固定强度阈值来实现的。我们使用动态规划方法来找到满足这些标准的所有训练和验证序列。我们在长度为3或5的序列上进行序列CVAE训练，并且在长度为τ=40的序列上进行序列采样训练，我们使用验证集上的实验来确定。对于测试集上的评估，我们从每个测试视频中提取满足过滤标准的单个序列5.1.2作物提取为了便于从少量视频中学习，我们使用每个视频的多个裁剪。我们首先在空间上将每个视频下采样到126×168，以便大多数补丁包含视觉上有趣的内容和空间上下文，然后以最小的重叠提取50×50的5.2. 基线确定性视频合成（unet）：在图像合成任务中，通常使用具有跳过连接的编码器-解码器架构，类似于U-Net [24，47]。我们采用这种技术一次合成整个视频。随机视频合成（vdp）：视觉解投影从单个时间投影的输入图像合成视频的分布[5]。我们设计每个基线模型架构，使其具有与我们的模型可比较的参数数量。两个基线都输出固定长度的视频，我们选择40，以与我们在5.1节中选择的τ=405.3. 结果我们进行了定量和定性评估。我们首先提出了一个用户研究量化人类感知的现实主义，我们的合成视频。接下来，我们定性地检查我们的合成视频，并讨论有助于其真实性的特征。最后，我们讨论了定量指标比较集的采样视频真实的视频。我们https://xamyzhao.github.io/timecraft的项目页面上展示了其他结果，包括使用tipiX工具的视频和可视化效果[13]。8443输入(a) 与艺术家类似，我们的方法以粗到细的方式进行绘画。蓝色箭头显示了我们的方法首先应用平面颜色，然后添加精细细节的位置。红色箭头指示基线添加精细细节的位置，即使在第一个时间步中也是如此。输入(b) 我们的方法适用于与艺术家相似的区域，尽管它不使用相同的颜色层来完成绘画。蓝色箭头显示了我们的方法在哪里绘制了与艺术家相似的场景部分（首先填充背景，然后是房子，然后向背景添加细节红色箭头表示基线没有根据语义边界绘制的位置，在同一时间步长中逐渐在背景和房屋中消失图10：从数字（上）和水彩（下）测试集预测的视频。对于随机方法vdp和我们的，我们显示最接近的样本，以真正的视频出2000样本。我们在附录中显示了其他结果比较所有画水彩画数字画绘画数据集对于所有方法，我们发现训练在组合数据集上产生了最好的定性和real> vdp百分之九十百分之九十百分之九十定量结果（可能是由于我们有限的数据集大小），真正的>我们的百分之五十五百分之六十百分之五十一我们只展示这些模型的结果。我们的> vdp百分之九十一百分之九十百分之八十八表1：用户研究结果。用户比较了从我们的视频、vdp视频和真实视频中随机抽取的视频对的真实性。绝大多数参与者更喜欢我们的视频比vdp视频（p<0. 05）。0001）的情况下。同样，大多数参与者选择真实视频而不是vdp视频（p<0.05）。0001）的情况下。用户更喜欢真实的视频而不是我们的视频（p = 0）。0004），但许多参与者混淆了我们的视频与真实我们VDPunet房我们VDPunet房8444的视频，特别是数字绘画。我们试验了只在数字或水彩画上训练每种方法，以及组合的方法。5.3.1人的评价我们调查了158名使用Amazon Mechanical Turk的人[2]。参与者比较了从我们的视频、vdp视频或真实视频中随机抽取在这项研究中，我们忽略了较弱的基线unet，它在所有指标上的表现一直较差（下文讨论）。我们首先通过向参与者展示几个真实绘画时间流逝的例子来训练他们。然后，我们展示了一对由不同方法生成的同一幅画的中心裁剪的延时视频，并问8445每一组视频都展示了一个更真实的绘画过程？我们对14幅随机抽样的画作重复了这个过程方法interp数字L10的情况。49（0. 十三、画更改借据0的情况。17（0. 06）水彩L10的情况。38（0. 09）画更改借据0的情况。17（0. 09）从测试集。完整的研究详情见附录。unet0的情况。18（0.08）0的情况。24（0. 08）0的情况。15（0。06）0的情况。27（0.07）表1显示，几乎每个参与者都认为VDP0的情况。16（0.06）0的情况。31（0.10）、0的情况。14（0. 05）0的情况。32（0.08）我们的模型合成的视频看起来比我们0的情况。16（0.05）0的情况。36（0. 09）0的情况。14（0. 05）0的情况。36（0.07）vdp合成的p0<. 0001）的情况下。此外，近一半的时间里，参与者将我们的合成视频与真实视频混淆。在接下来的章节中，我们将展示前-大量的合成视频，并讨论了使我们的模型的结果看起来更真实的方面5.3.2定性结果图9显示了我们的模型为两幅输入绘画生成的样本序列。我们的模型在绘画过程中选择不同的语义区域顺序，导致不同的路径仍然收敛到同一幅完成的绘画。图10显示了通过每种方法合成的视频为了客观地比较随机方法vdp和我们的方法，我们通过L1距离显示与地面实况视频最相似的预测视频地面实况视频显示，艺术家倾向于以粗到细的方式绘画，在绘画开始时使用粗笔画，在接近结束时使用细笔画。艺术家也倾向于在每个时间步中关注一个或几个语义区域。正如我们用箭头突出显示的那样，我们的方法比基线更好地捕捉到了这些趋势，因为我们已经学会了在单独的语义区域（如山脉，小屋和树木）中进行更改。我们预测的轨迹与地面实况相似，表明我们的顺序建模方法在捕获真实的时间进展方面是有效相比之下，基线往往会在不将场景分离为组件的情况下进行模糊更改。5.3.3定量结果在随机任务中，将合成结果与“地面实况”进行比较是不明确的，并且很难制定现实主义的定量措施[25，48];这些挑战激发了我们上面的用户研究。在本节中，我们将探讨旨在衡量时间推移现实主义方面的定量指标。对于测试集中的每个视频，我们根据第5.1.1节中描述的标准提取40帧长的序列，并使用几个视频相似性度量在5个随机作物上评估每个方法：最佳（跨k个样本）整体视频距离（越小越好）：对于每个裁剪，我们从每个模型中绘制k个样本视频，并通过L1距离报告最接近真实视频的样本[5]。这捕获了模型是否产生了一些真实的样本，以及模型是否足够多样化以捕获每个艺术家表2：我们比较了从数字和水彩画测试集合成的视频与艺术家的视频。对于随机方法vdp和我们的方法，我们抽取2000个视频样本，并报告最接近地面实况的一个。最佳（k个样本）绘画改变形状相似性（越高越好）：我们量化了地面实况和每个预测视频之间的绘画变化形状集的相似程度，而不考虑它们执行的顺序。我们将绘画变化形状定义为每个时间步中所做变化的二进制映射。对于每个测试视频中的每个时间步，我们将艺术家的变化形状与通过每种方法合成的最相似形状的变化进行比较这捕获了一个方法是否在与艺术家相似的语义区域中绘制我们在表2中总结了这些结果。我们引入了interp基线，它在时间上线性插值，作为定量下限。确定性interp和unet方法对于这两个度量都表现不佳。对于k=2000，vdp和我们的方法产生的样本通过L1距离导致可比较的绘画变化IOU度量表明，我们的方法合成的变化是显着更现实主义比其他方法。6. 结论在这项工作中，我们介绍了一个新的视频合成问题：制作描绘绘画创作的延时视频。我们提出了一个经常性的概率模型，捕捉人类艺术家的随机决策我们引入了一个交替的顺序训练方案，鼓励模型在许多时间步长上做出现实的预测我们在数字和水彩画上展示了我们的模型，并用它来合成逼真的和多样化的绘画视频。我们的研究结果，包括人类的评价，表明该模型是一个强大的第一个工具，用于捕获随机变化的小视频数据集。7. 致谢我们感谢Adobe Inc.的Zoya Bylinskii。她在设计有效和准确的用户研究方面的见解。这项工作由WistronCorporation资助。8446引用[1] Mart´ın Abadi et al.Tensorflow：异构分布式系统上的大规模机器arXiv预印本arXiv：1603.04467，2016。[2] Inc.亚马逊机械土耳其。亚马逊机械土耳其人：概览，2005年。[3] 安藤良一和鹤野玲二。使用笔划图像进行分段画笔2010年。[4] Simon Baker 、 Daniel Scharstein 、 JP Lewis 、 StefanRoth、Michael J Black和Richard Szeliski。光流数据库和评价方法。International Journal of Computer Vision，92（1）：1[5] 作者：Guha Balakrishnan，Adrian V.放大图片作者：John V. Guttag，Fredo Durand，and William T Freeman.视觉反投影：塌陷尺寸的可能恢复。IEEEInternationalConference on Computer Vision（ICCV），2019年。[6] William Baxter，Yuanxin Liu，Ming C Lin.一种用于交互式应用的粘性涂料模型。Computer Animation andVirtual Worlds，15（3-4）：433[7] William V Baxter和Ming C Lin。一个多功能的交互式3d画笔模型。计算机图形学与应用，2004年。PG 2004。诉讼第12届太平洋会议，第319-328页。IEEE，2004年。[8] Maren Bennewitz ， Wolfram Burgard ， and SebastianThrun.移动服务机器人的人的运动模式学习。2002年IEEEInternationalConferenceonRoboticsandAutomation（IEEE机器人与自动化国际会议）No. 02CH 37292），第4卷，第3601-3606页。IEEE，2002年。[9] Zhili Chen，Byungmoon Kim，Daichi Ito，and HuaminWang.Wetbrush：基于gpu的刷毛级3d绘画模拟。ACMTransactions on Graphics（TOG），34（6）：200，2015.[10] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. Stargan：用于多域图像到图像翻译的统一生成对抗网络。在IEEE计算机视觉和模式识别会议论文集，第8789-8797页[11] FrancoisCholletetal.K时代https://github.com/fchollet/keras，2015.[12] Nelson S-H Chu和Chiew-Lan Tai。墨洗：实时油墨在吸水纸中的分散。在 ACM Transactions on Graphics（TOG），第24卷，第504-511页中。ACM，2005年。[13] Adrian V Dalca，Ramesh Sridharan，Natalia Rost，andPolina Golland.tipix ：快速可视化大型图像集合。MICCAI-IMIC交互式医学图像计算研讨会。[14] Alexey Dosovitskiy和Thomas Brox基于深度网络生成具有感知相似性度量的图像。神经信息处理系统的进展，第658-666页，2016年[15] 杰西·恩格尔马修·霍夫曼和亚当·罗伯茨潜在限制：学习有条件地从不一致中生成-可再生模型。在2018年国际学习代表会议上[16] 斯科特·加夫尼和帕德里克·史密斯混合回归模型的轨迹聚类。在KDD，第99卷，第63-72页[17] 雅罗斯拉夫·甘宁，特哈斯·库尔卡尼，伊戈尔·巴布施金，SM·埃斯拉米和奥里奥尔·维尼亚尔斯。使用强化对抗学习合成图像程序。 arXiv 预印本 arXiv ：1804.01118，2018。[18] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.艺术风格的神经算法。 arXiv 预印本 arXiv ：1508.06576，2015。[19] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。神经信息处理系统的进展，第5767-5777页，2017年[20] 亚伦·赫茨曼使用多种大小的弯曲画笔笔划进行绘画渲染。第25届计算机图形和交互技术年会集，第453-460页。ACM，1998年。[21] Fay Huang，Bo-Hui Wu，and Bo-Ru Huang.综合油画风格。在环太平洋图像和视频技术上，第15-26页。施普林格，2015年。[22] 黄哲伟，温珩，周书昌。使用基于模型的深度强化学习学习绘画。IEEEInternational Conference on ComputerVision（ICCV），2019年。[23] Savage Interactive. 《艺术家Savage，2016.[24] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。arXiv预印本arXiv：1611.07004，2016。[25] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议论文集，第1125-1134页，2017年。[26] Biao Jia ， Jonathan Brandt ， Radom 'ır Mech ，Byungmoon Kim，and Dinesh Manocha. Lpaintb：从自我监督中学习绘画。CoRR，abs/1906.06841，2019。[27] Biao Jia ， Chen Fang ， Jonathan Brandt ， ByungmoonKim，and Dinesh Manocha.Paintbot：一种用于自然媒体绘画的强化学习方法。CoRR，abs/1904.02201，2019。[28] Huaiizu Jiang ， Deqing Sun ， Varun Jampani ， Ming-Hsuan Yang，Erik Learned-Miller，and Jan Kautz.超级斯洛莫：用于视频内插的多个中间帧的高质量估计。在IEEE计算机视觉和模式识别会议论文集，第9000- 9008页[29] 马克·乔多因，埃姆里克·爱泼斯坦，马丁·格兰奇，维克多·奥斯特罗莫霍夫。通过示例进行孵化：统计方法。在 Proceedings of the 2nd International Symposium onNon-photorealistic Animation and Rendering，第29-36页ACM，2002年。8447[30] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议，第694-711页。施普林格，2016年。[31] 金美京和申贤俊一种基于实例的图形艺术笔划合成方法。计算机图形论坛，第29卷，第2145Wiley OnlineLibrary，2010。[32] Diederik P Kingma，Shakir Mohamed ，Danilo JimenezRezaviz，and Max Welling.使用深度生成模型的半监督学习。神经信息处理系统进展，第3581-3589页，2014年[33] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。[34] Ce Liu，Jenny Yuen，and Antonio Torralba.筛流：场景间的密集对应及其应用。IEEE Transactions on PatternAnalysis and Machine Intelligence，33（5）：978[35] Ziwei Liu ， Raymond A Yeh ， Xiaoou Tang ， YimingLiu，and Aseem Agarwala.使用深体素流的视频帧合成。在IEEE计算机视觉国际会议

下载后可阅读完整内容，剩余1页未读，立即下载