没有合适的资源?快使用搜索试试~ 我知道了~
1可视离心机:无模型分层视频表示Jean-Baptiste Alayrac1分jalayrac@google.comJoalovioCarreira1岁joaoluis@google.com安德鲁·齐瑟曼1,2zisserman@google.com1DeepMind2 VGG,部门牛津大学工程科学系摘要真正的视频理解需要理解非朗伯场景,在这些场景中,到达摄像头传感器的光的颜色不仅编码了与其碰撞的最后一个物体的信息,还编码了多种媒介的信息--分层视频表示具有精确建模真实场景的潜力,但迄今为止需要对运动、照明和形状进行严格的描述。在这里,我们提出了一种基于学习的多层视频表示方法:我们引入了新颖的不确定性捕获3D卷积架构,并训练它们来分离混合视频。 我们展示了这些模型然后推广到单个视频,在那里它们表现出有趣的能力:色彩稳定性,分解出阴影和分离反射。我们在现实世界的视频中呈现定量和定性的结果1. 介绍视觉可能很容易,只需要数学建模:用于光流的亮度恒定性约束、用于3D对象识别的Sobel滤波和透视方程、或用于阴影恢复形状的朗伯反射率。然而,现实世界的混乱早已证明了这些模型所做的假设是不够的:即使是简单的自然场景也充满了阴影、反射和彩色光线,这些光线从不同材料的表面反射回来,并以复杂的方式混合在一起强大的场景理解系统,可以安全地部署在野外(例如,机器人、自动驾驶汽车)可能不仅需要像目前基于深度学习的系统那样容忍这些因素;他们将需要在视觉表现中考虑这些变量,这样他们就不会被从路上的坑洞中长出来的巨大的(反射的)树木,甚至他们自己的影子或反射所困扰。处理这些因素的自然框架是图1:顶部,输入视频显示某人驾驶汽车穿过乡村,树木反射在挡风玻璃上。下图是我们的视觉离心机1输出的两个视频。在本文中,我们学习的模型,可以在离心机的精神,分离成多个层次的一个单一的视频,例如。考虑汽车内部或孤立地反映树木的形状我们使用很少的假设,通过简单地训练模型来分离多个混合视频-这是一项分层模型可以追溯到计算机视觉的基础[42],但假设特定的运动模型[26],场景形状或照明。 分层模型也经常针对特定目标进行定制-例如阴影或镜面反射去除,或反射分离[39],并且很少适应非刚性,除非是非常专业的领域(例如,面[31])。在本文中,我们的目标是学习一种视频表示,它以更通用的数据驱动方式将视频分成多个层,这种方式消除了对形状的明确假设,将它们建模为组成整体视频的层1请访问https://youtu.be/u8QwiSa6L0Q获取*同等缴款。在图24572458运动或照明。我们的方法是训练一个神经网络,该神经网络本着视觉离心机的精神,将我们首先使用均匀加权平均混合在一起的视频对分开。相关的想法已经在音频域中被追求[2,14,47],其中信号是通过叠加真正相加地组合的波。在视觉领域,这种近似在处理某些反射时是准确的,但在其他感兴趣的情况下不一定准确,例如阴影或非常镜面反射的表面,例如镜子。然而,我们希望通过混合足够大和多样化的视频集,这些案例也将被spo-根本地合成,并且模型可以学习将它们分开(例如,来自一个视频的阴影将使混合视频变暗,并且需要被分解以重构第二视频)。网络如何将混合视频分离成其组成视频?可以使用两个主要线索:两个视频的不同运动场和语义内容,例如,在一段视频中认出一辆车在另一段视频中认出一头牛也有更微妙的线索,如一个我们表明,我们的模型在来自Kinetics-600 [8,27]的混合视频对上进行训练后,一个大型视频数据集,其中包含大约400 k 10秒的人类动作片段,确实可以自发地分离自然反射和阴影,并从新的个人(非混合)视频中删除滤色器,如图所示。1.一、虽然我们的模型不一定比现有的模型更准确,但它具有相当的性能,但它也可以在完全不受约束的环境中成功完成各种层分离任务,而以前的模型失败了(例如,人们四处走动,摄像机摇晃)。捐款. 我们的贡献有三方面:(i)我们提出了用于多层视频建模的新颖体系结构,(ii)我们表明,这些模型可以在没有监督的情况下学习,只需分离合成混合的视频,(iii)我们观察到这些模型表现出颜色恒定能力,并且可以排除现实世界视频上的阴影和反射。2. 相关工作图像层合成。许多不同的层组成类型已开发的图像生成过程的模型。内在图像方法[3,17,19,38,40,44]旨在分解照明,表面反射率和形状。去卷积算法(如盲去模糊)将图像建模为原始(未模糊)图像的多个副本的叠加[11,18,25,37,45,48]。一个相关的问题是颜色恒定性[4,5],其中目标是推断照亮场景的光的颜色以便将其去除。反射消除。自然图像中的反射是层合成的特殊情况,其中两个或更多个层通过简单的相加混合在一起以形成最终图像。最成功的经典方法,消除反射假设访问的图像序列中的反射和背景层有不同的运动[6,22,29,33,39,46]。通过恢复两个主导运动,这些方法可以通过时间滤波恢复原始Xue et al.[46]值得注意的是,提出了一种优化过程,其在估计对反射和背景层的运动进行编码的密集光流场和重新覆盖层本身之间交替,这导致在包含自然反射的图像上的令人印象深刻的结果。然而,所有这些方法都依赖于两个层具有独特且几乎恒定的运动的假设[22,46],并且不能处理多个对象在层内以独立运动移动的情况最近,Fan et al.[16]提出了一种深度学习架构,仅在给定单个图像的情况下抑制反射。这种方法和相关方法[10,50,51]的优点是它们非常灵活--只要有适当的数据,它们原则上可以在不受约束的视频层分解。所有前面提到的方法都被设计为输出一个图像的结果。我们专注于恢复组成整个视频的层[26,28]。 正如在[33]中所观察到的,简单扩展 例如以逐帧的方式应用该方法,然后进行时间滤波,这是不令人满意的,因为它导致强烈的时间闪烁、层的不完全恢复,并且经常模糊视频中存在的对象。为了缓解这些问题,[33]提出了[46]工作的扩展,但他们调整了初始化策略和优化目标,以考虑时间维度。所提出的方法强烈地解释了时间闪烁问题。然而,该方法仍然依赖于关于两个层的相对运动的强假设,并且可能明显地受到对象在其中一个层内快速移动的影响。从[33]开始,我们希望在运动线索不足时依赖语义线索排列不变损失。我们希望以盲的方式恢复组成图像的层,即。而不对不同的层做出假设,也不给出可以指示我们想要重建哪个层的外部线索。这是具有挑战性的,因为它涉及到标签每突变问题[47]。在音频域中提出的这个问题的一个解决方案是利用置换不变损失[47]。在这里,我们采用了类似的策略,通过适应这一原则的视频重建。这也2459(a) 视频生成(3.1)(b)模型架构(3.2)(c)置换不变损失(3.3)图2:第3节中详细描述的总体思路的说明。两个视频混合在一起成为一个视频,这个视频通过一个神经网络,该网络经过训练将其分离回两个原始视频。希望底层的学习表示能够捕捉到自然视频层的概念,然后在处理标准视频时进行推广。显示了实际分离结果与层分解可能有多个解决方案这一事实所固有的不确定性问题有关,这种情况可以通过设计一个网络来生成多个假设来处理,每个训练样本只奖励一个适当的损失[20,30,36]。在这项工作中,我们建议使用置换不变损失的上下文中发射多个假设的层。音频分离。加法层合成特别适合于对不同音频源如何被组装以形成声音进行建模。这就是为什么我们的工作也涉及到音频分离领域然而,许多关于盲音频分离的文献,例如众所周知的“鸡尾酒会问题”,需要多个尽管深度学习在单声道情况下带来了新的兴趣,例如,[15、43]。最近的工作重新审视了鸡尾酒会的问题,同时也使用视觉线索[2,14,21]。超越图形的层次。其他人也研究了图像层合成用于其他目的,计算机图形应用程序。例如,最近的工作探索了添加层组合作为图像级分类的数据增强技术[23,41,49]。有趣的是,[49]表明,简单地以加法方式混合图像和标签可以提高对抗性示例的泛化性和鲁棒性,并稳定生成模型的训练。这样的技术还没有被扩展到视频域,因为我们在这项工作中。3. 综合训练深层分离在本节中,我们描述了我们的模型,该模型经过端到端训练,以重建构成输入视频的层。我们使用3.1节中解释的简单的加法层合成来合成生成训练数据。在3.2节中,我们描述了解决我们问题的模型架构。最后,我们激励我们的损失选择在秒-第3.3节。图2总结了我们的方法。3.1. 视频生成过程具有地面实况层分解的真实视频很难大规模获得。为了能够训练神经网络来完成这项任务,我们生成了人工视频,我们可以轻松地访问地面真相。在实践中,我们平均两个视频与各种系数,一个简单的策略,EGY已经在[39]中提出来评估图像分解模型。更正式地说,给定两个视频V1,V2∈RT×H ×W×3,其中T是帧的总数,H和W是帧标准RGB通道,我们生成训练视频V如下:V=(1−α)·V1+α·V2,(1)其中α∈[0,1]是可变混合参数。该过程如图所示。2a.尽管这个明显简单的数据生成方案,我们在第5节中表明,这足以训练一个模型,该模型可以推广到具有包括阴影和反射的层组成的真实视频3.2. 模型架构我们使用编码器-解码器类型的架构,给定输入混合视频,输出两个或更多个视频,旨在恢复组成输入的原始层(见图2)。第2b段)。我们用V表示输入视频,用O表示网络的n个输出,其中Oi对应于第i个输出视频。下面,我们将详细介绍我们的特定设计选择。3D ConvNet。如先前的工作[46]所示,运动是重建组成层的主要线索为因此,我们利用三维ConvNet架构,能够在多个时间尺度上捕获外观和运动模式,以成功完成任务。对于编码器,我们使用I3D架构[9],该架构已被证明对视频分类有效。对于解码器,我们建议2460一个简单的架构,由一系列3D训练损失组成,如下所示:转置卷积[13],我们在论文[1]的扩展版本中详细介绍.L {V1、VΣ2},O= min(i,j)|i=/(VJ1,Oi)+I(V2,Oj),(2)U-Net 为了提高重建质量,我们遵循U-Net架构[35],该架构已在许多密集重建任务中证明了其价值,例如:[24],并添加跳过其中,SNR是视频的重建损失根据以前的工作[32],我们为两个视频定义了U和V如下:编码器和解码器之间的连接(参见详细内容见本文[1]。(U,V)=1.Σ U−VΣ+ ǁ∇(U) − ∇(V)ǁ,输出层。虽然我们的合成视频是由两个视频混合组成的,但我们发现允许我们的2Tt t1不t t1(三)模型产生两个以上的输出。这是为了缓解我们任务中固有的不确定性问题[36]I.E.层的多个解决方案通常是可能的,并且对于重建输入是令人满意的。为了输出n个视频,我们只需增加输出端的通道数,给定视频V∈RT×H ×W×3,网络输出O∈RT×H ×W×3n.这意味着输出的分离只发生在网络,这使得它有可能执行沿途的质量验证(例如,检查输出是否正确地与输入相加)。虽然在某些情况下引入多个替代输出可能会降低适用性,但可以采用简单的策略在测试时自动从n个输出中选择两个输出,例如选择两个最不相似的视频层(我们通过选择像素空间中最远的输出来实现)。预测-校正我们还通过在第一个网络之后堆叠第二个编码器-解码器网络,使模型有可能进一步校正其初始预测。这是受到在人体姿态估计的背景下使用的迭代计算架构[7,34]的成功的启发给定初始输入混合视频V ∈ RT× H × W× 3和n个目标输出层,第一个网络(预测器)输出重建O∈RT×H×W×3n 的 初 始 猜 想。第二个网络,即校正器,以O_n为输入,输出为R_n ∈ R_T× H × W× 3n,使得最终输出为网络工作定义为O=O+O。因为它们的作用两个网络是不同的,它们不共享权重。我们从头开始端到端地训练这两个网络,而没有任何特定的两阶段训练过程。3.3. 排列不变损失我们的方法的一个挑战在于,我们没有任何先验信息的顺序输入视频层的事实。因此,很难强制网络在特定位置输出给定的层。这种挑战通常被称为置换标签问题[47]。为了克服这个问题,我们定义了一个训练损失,它是排列不变的(见图1)。第2c段)。更正式地,给定两个原始地面实况视频{V1,V2}和先前定义的我们的网络O的输出,我们建立其中,·1是L1范数,(·)是空间梯度。输入操作符。 我们注意到增加梯度损失这对于在边缘上设置更多的强调非常有用,与恒定区域相比,这些边缘通常更难捕获。4. 实验我们训练模型来完成分解平均视频对的任务,然后在来自网络和野外的单个视频上测试这些模型。这些模型是在Kinetics-600数据集[8]训练集的成对视频上训练的,该训练集大约有40万个10秒长的视频(250帧)。我们在Kinetics- 600验证集上评估了泛化,该验证集有30 k个视频。 我们使用标准的扩增程序:随机左右翻转和随机时空裁剪,其中视频的最短边首先被调整大小为期望裁剪大小的1.15倍。大多数实验使用具有112x112分辨率的32帧剪辑进行快速迭代。我们还在64帧224 x224分辨率的剪辑上训练了完整的提议架构我们尝试对方程的混合参数α进行采样。(1)在[0.25,0。75]与固定采样方案相比,未观察到对结果的强烈因此,我们简单地使用α= 0。五、4.1. 架构评估在这里,我们比较了多个架构变化的学习任务,分离平均视频的性能。我们首先使用重建损失进行评估,然后使用下游任务-所有架构共享相同的基本预测器模块。所有模型都使用带有动量的SGD进行训练,具有相同的超参数:学习率0.1,动量0.99,无权重衰减,批量大小为10个剪辑。学习率在100k次迭代时降低到0.05,在150k次时降低到0.025,在200k次时降低到0.01。这些模型总共训练了240k次迭代。在测试时,移动平均值用于批量归一化层。第一个观察是,即使是最简单的模型也有效:使用置换不变损失,混合视频分离成原始视频。具有两个输出视频层的基本预测器模型的损失在表1中提供,并且可以与两个基线进行对比24611)输出两次混合视频,2)输出两个不同的层,但是使用具有随机权重的预测器(没有训练)。经过训练的模型的损失显著降低,尽管层仍然有些嘈杂。我们更先进的模型更准确。模型验证损失身份0.361预测器(无训练)0.561预测器(已训练)0.187表1:由基本预测器获得的验证损失-产生两个输出层的编码器-解码器模型。身份是一个基线,其中两个输出视频层只是输入混合视频的副本。第二个基线是没有任何训练的预测器,使用初始随机权重。我们还发现,为每个视频预测2个以上的层会导致更好的解混效果-我们观察到,输出通常会形成两个清晰的视频层集群,并且预测集中的两个层比仅预测2个这些结果见表2第二栏。我们认为,产生额外的层主要是通过允许模型对冲亮度差异等因素来帮助训练过程,这些因素可能是不可能逆转的,并专注于分离内容(对象等)。表2还示出了使用单个校正模块的预测器-校正器架构的益处 它 也可能是额外的校正步骤将进一步提高性能本文其余部分的结果使用了具有4个输出视频层的预测-校正架构图3:混合动力学验证片段模型的输出示例。由于空间不足,我们显示一个单一的帧每个剪辑。原始未混合视频显示在最右侧的列中。总的来说,即使面对困难的例子,同一个班级的视频。前四行显示成功分离。最后三个显示了网络以连贯的方式在视频之间剪切和粘贴一些对象的罕见情况。#输出视频层Predictor Pr矫正医师额外的损失函数。 我们在这里提到两个损失函数-20.1870.172我们尝试过的,但最终40.1590.133没有好处,不使用。首先,可以预期,80.151-重要的是要强制执行输出层应建议-120.150-作为一致性检查的原始混合视频中的姿势这可以通过向对象添加损失函数来实现表2:对于简单预测器模型和预测器-校正器模型,当产生各种数量的输出视频层时的验证损失。较大的图层集往往包含目的:n(V,(1−α)·Oi+α·Oj),(4)原始视频的更高质量的重建,但是这在大约4处开始饱和-当最后,预测器-校正器模型的性能明显优于预测器,特别是在计算4个输出视频层时。其中i和j分别是层的索引根据等式(2)匹配到V1和V2然而,我们没有观察到一个彻底的改进-可能是因为对于真正的序列(见下文),严格的附加只是一个弱模型层的形成。我们还考虑通过一个显式损失项,−(Oi,Oj)。 这也没有带来2462立即改善(如果没有重建约束和适当的调整,就会产生荒谬的多样化输出)。还要注意的是,一般来说,当用简单的分集损失测量时,输出是多样的,尽管有一些小的串扰,因此可能需要更多的努力来设计更合适的分集损失。对下游任务进行评估。我们评估了人类动作识别任务的分离视频的质量。为此,我们测试了I3D(已经在标准Kinetics训练集上训练过):(a)直接在混合视频对上,(b)在离心分离的非混合视频对上,(c)在混合视频对上,(d)在混合视频对上,(e)在混合视频对上,(f)在混合视频对上。0.250.200.150.100.050.00图4:预测-校正模型得出的损失,视频,以及(c)在原始的干净的视频对上,Kinetics数据集的验证集(为简单起见,仅使用64帧剪辑,但在完整的250帧剪辑上可以获得更好的结果我们使用了修改后的准确度进行评估如果我们恢复两个地面真值标签,我们认为得分为1,得分为0。如果我们只恢复两个标签中的一个,则为5,否则为0。对于方法(a),我们只取其前两个预测。对于方法(b)和(c),我们取两个分支的top-1预测。在这种情况下,离心过程将准确度从(a)的22%提高到(b)的44%。然而,与原始设置(c)仍然存在差距,原始设置(c)实现了60%的精度。这种差距可能是由于未混合视频中的持续伪影造成的。4.2. 分层表征在确定了我们提出的体系结构的好处之后,探讨它并看看它我们试图通过一系列类似精神病的实验来了解它的优点和缺点。颜色. 在人类视觉中,物体的颜色在不同的照明条件下被感知为相同的-与太阳是否在中午或接近日落时明亮地照耀以及任何投射的阴影无关。我们用一种极端的色彩恒定性概念进行了实验,并将Kinetics视频转换为具有不同纯色滤镜的相机拍摄的视频:黑色,白色,绿色,红色,黄色,蓝色,青色和洋红色,通过将它们与仅具有这些颜色的空我们没有对这些数据进行训练,而是使用经过训练的最佳我们观察到,该模型对这些视频进行了很好的推广,并且在大多数情况下准确地重建了两个层-一个动力学视频和一个纯彩色视频-结果如图所示。4.第一章可以看出,该任务对于黑色和白色过滤器来说更容易,这是自然的,因为它大致对应于仅仅使视频变暗或变亮。最困难的情况是洋红色和绿色滤镜,可能是因为这些颜色在我们的训练数据中不太常见-将Kinetics视频与不同色调的纯彩色视频分开。分离Kinetics视频对时获得的损失显示为灰色条以供参考-请然而,有些颜色使任务变得相当困难图5:顶部:来自原始视频的帧。第2行:与不同颜色的视频混合后,来自同一视频的同一帧。第3和第4行:2视频层输出从我们的预测-校正。请注意,原始视频的重建非常相似,并且彩色层也得到了很好的重建,尽管场景非常丰富多彩(例如,小丑这使得模型很好地推广到非常不同的层组成。示例帧的结果如图所示。五、动态与静态提示。运动在工程解决方案(约束设置)中起着关键作用,例如反射消除(例如,[46])。为了理解运动在我们的模型中的重要性,与静态场景分析相比,我们训练了第二个具有4个输出层的预测-校正模型,使用与之前完全相同的实验我们通过从正常视频中采样一帧并重复32次以获得每个32帧剪辑来生成这些冻结视频然后,我们在正常和冻结的视频上评估了这两个模型,看看它们是如何推广的。我们还尝试混合由一个正常视频和一个冻结视频组成的对。6不同的价值观损失见表3。24630.2250.2280.2620.1580.178Train/Test2例冷冻2例正常1例冻结1例正常2例冷冻0.1650.2330.1982例正常0.2050.1330.127图6:示例视频,其中我们的模型产生高度多样化的层集。前3行:由在冻结视频上训练和测试的模型输出的层;底部2行:由在常规视频上训练和测试的模型输出的层。在这两种情况下,我们都按层多样性对视频进行排序(从顶部的最少多样性到底部的最多多样性)。我们观察到,对于冻结视频模型,输出视频层的多样性要高得多-运动是消除层之间歧义的有力线索。请注意,我们通过混合许多对并在此处选择在1K运行中最大化多样性度量minij(Oi,Oj)(如左侧所示)的那些来自动选择这些混合视频我们发现,运动是我们系统中的一个重要线索此外,在运动视频上训练的系统在混合冻结视频上比在冻结视频上训练的模型更差。然而,如果只有一个视频被冻结,那么经过运动训练的模型会表现出色,甚至比两个视频都有运动时表现得更好-也许在训练过程中,模型会接收到一些例子,最后,在冻结视频上训练的模型在处理包含运动的输入时表现不佳有趣的是,我们还注意到,对于冻结视频,采样层往往更加多样化,反映了它们更加模糊的事实为了进一步支持这一点,我们计算了一个平均多样性,表3:当对冻结/正常视频对进行训练/测试时,以及当对冻结/正常视频对进行测试时,或者当混合一个冻结和一个正常视频时,获得的冻结视频是通过仅重复来自正常视频的单个帧多次而获得的视频,使得其不具有运动。首先,我们重新审视了基本的预测器模型,并通过从I3D的三个不同层获取特征来改变编码器架构的深度:“Mixed3c”、“Mixed4f”和“Mixed5c”(本文其他地方的默认值)。这些分别对应于编码器与7,17和21卷积层。表4中的结果表明,两个较深的编码器比较浅的编码器表现得好得多,这表明更高级别的语义特征很重要,但这也可能是由于需要更大的拟合容量和/或更大的时空感受野。作为第二个实验,我们在由来自相同Kinetics人类动作类的成对视频组成的混合视频上运行预测-校正模型,发现平均损失为0.145,高于操作随机视频对时的0.133。然而,这也可以解释为同一类中的动作具有类似的低级统计数据。作为第三个实验,我们再次测量了解混损失,但这次我们还记录了混合在一起的一对视频中每个视频之间的两个距离一个距离是低级特征之间的距离(平均来自第二卷积层的特征),另一个距离是高级特征之间的距离(平均更深的“混合5c”特征)。然后,我们测量了损失与两个距离之间的皮尔逊相关性。我们发现高级别距离和损失之间的负相关性为-0.23,证实了显示类似(低距离)动作的视频往往很难分开,但损失和低级别距离之间的正相关性较弱,为0.14,表明低级别的相似性对于解混来说挑战较小。ric,mini/=j∈(Oi,Oj),超过1 K次运行。F或冻结的视频在冻结的视频模型上,我们获得了平均多样性得分为0。079对0。045为我们的标准模型的运动视频。图6显示了两个模型的最大多样性得分的输出。低水平与高级特征。另一个有趣的问题是,模型是否依赖于高级语义线索(例如,人纹理、边缘、流动)。我们做了几个实验来解释这一点。编码器端点深度确认丢失混合3c 7 0.214混合4 f 17 0.181混合5c 21 0.187表4:当使用I3D编码器的三个越来越深的子网络时获得的验证损失。这两个更深的模型实现了更低的损失,表明在这个任务上的空间和时间上的高容量和宽感受野的价值2464图7:我们的模型在包含透明度,反射,阴影甚至烟雾的真实世界视频上的结果。5. 应用在本节中,我们将讨论我们的方法对真实视频的适用性。对于这些实验,我们在64帧剪辑上训练了所提出的模型,分辨率为224x224。我们首先在第5.1节中讨论我们架构的计算效率,然后在第5.2节中展示由各种自然分层现象(如反射,阴影或遮挡)组成的视频结果。5.1. 效率我们的基础网络大约需要0.5秒来处理224×224分辨率的64帧剪辑,使用4个输出层。如果我们使用我们最大的模型,校正预测器,那么它大约需要两倍的时间。这些使用单个P4000 Nvidia GPU报告时间。请注意,这明显快于相关领域中的技术报告的时间,例如反射消除[46]这需要几分钟来处理类似的视频。此外,我们的网络可以无缝地应用于更长和更高清晰度的视频,因为它是完全卷积的。5.2. 真实世界层分解我们现在证明,即使使用合成视频进行训练,所提出的模型也能够推广到来自网络的标准视频。一个选择展示了各种类型的自然视频层,如反射,阴影和烟雾是在图。7.第一次会议。该模型往往在许多视频中表现得相当好,在视频的区域中,这种合成确实发生;在这些区域之外,它有时会扭曲视频(或者我们可能不确切地理解模型正在考虑的层)。我们还在视觉上与图8中专门设计用于反射去除的方法进行了比较[46]。即使我们的结果看起来不如[46]生动,离心机在这项任务中做了合理的工作,同时做出了更少的假设。图8:离心机与专门设计用于反射去除的方法的比较[46]( 遗 憾 的 是 , 我 们 没 有 第 一 帧 和 第 三 帧 的 结果)。6. 结论我们已经提出了一个模型,可以训练该模型来重建被合成混合在一起的单个视频,其精神在于现实生活中的离心机,该离心机将材料分离成其不同的组分。我们探讨了在训练任务中成功的重要因素,即置换不变损失、网络的深度、产生多个假设的能力以及预测-校正模型的递归方法。我们还研究了我们的模型使用的线索,并发现证据表明它依赖于语义和低级别的线索,特别是运动。然而,我们的主要科学目标是找出这样一个系统在呈现单个(而不是合成混合)视频时会做什么,我们验证了它学会了区分阴影,反射和照明。我们只能希望,当我们通过这种更先进的模型的镜头来看待世界时,我们可以发现新的现实层面,这些现实并不是立即显而易见的,类似于基于硬件的先进技术,如显微镜和望远镜在过去所做的还有很多工作要做,特别是关于如何控制层分配过程以使其对应用更有用,这可能包括用于在复杂视觉场景中操作的安全关键系统的鲁棒感知前向(例如,自动驾驶汽车)或视频编辑软件包中。未来的工作还应该考虑放松我们在这里使用的视频的均匀确认或确认。我们要感谢ReljaArandjelovic'、Carl Doersch、Viorica Patraucean和Jacob Walker进行了有价值的讨论,并感谢匿名评论者提供了非常有用的评论。2465引用[1] 论文的扩展版本,并附有补充材料。https://arxiv.org/abs/1812.01461网站。4[2] T. Afouras,J. S. Chung和A.齐瑟曼。 转换器-深度视听语音增强(Deep Audio-Visual SpeechEnhancement)InInter-speech,2018. 二、三[3] Barron和J.马利克形状、照明和反射率从Shading。PAMI,2015年。2[4] J. T. 巴伦卷积颜色恒定性。在ICCV,2015年。2[5] J. T. Barron和Y.T. 蔡快速傅立叶颜色恒定性。在CVPR,2017年。2[6] E. Be耶雷多基于参数化联合对角化的叠加移位图像盲分离Transactions on Image Processing,2008. 2[7] J. Carreira,P. Agrawal,K. Fragkiadaki和J.马利克基于迭代误差反馈的人体姿态估计在CVPR,2016年。4[8] J. Carreira,E. Noland,A.班基-霍瓦特角希利尔,还有A.齐瑟曼。关于动力学的简短说明-600。在arXiv预印本arXiv:1808.01340,2018。二、四[9] J. Carreira和A.齐瑟曼。你好,动作识别?新模型和动力学数据集。在CVPR,2017年。3[10] Z. Chi,X. Wu,X. Shu和J. Gu。使用深度编码器-解码器网络去除单个图像反射。在arXiv预印本arXiv:1802.00094,2018。2[11] S.周,Y。Matsushita和S.李你 消除不均匀图像的运动模糊。 载于ICCV,2007年。2[12] P. Comon和C. Jutten 盲源分离手册:独立分量分析及其应用Elsevier,2010. 3[13] 诉Dumoulin和F.视觉深度学习卷积算法指南在arXiv预印本arXiv:1603.07285,2016。4[14] A. 埃弗拉特岛莫塞里岛朗,T.Dekel,K.Wilson,A.有没有-sidim,W.T. Freeman和M.鲁宾斯坦在鸡尾酒会上聆听:一种用于语音分离的与说话人无关的视听模型在SIGGRAPH,2018年。二、三[15] H. Erdogan,J. R. Hershey,S. Watanabe和J. L. Roux使用深度递归神经网络的相位敏感和增强语音分离。ICASSP,2015年。3[16] Q. Fan,J. Yang,G.华湾,澳-地Chen和D. Wipf 通用单图像反射消除和图像平滑的深层架构InICCV,2017.2[17] Q. Fan,J. Yang,G.华湾,澳-地Chen和D. Wipf 重温深度内在图像分解。在CVPR,2018年。2[18] R. 费格斯湾辛格A.Hertzmann,S.T. Roweis和W.T.弗里曼。从单张照片中消除相机抖动Insiggraph,2006. 2[19] G. D. Finlayson,M.S. Drew和C.陆熵最小化的内在图像2014年,在ECCV。2[20] M. Firman,N.坎贝尔湖Agapito和G.J. 布罗斯托二Versenet:当一个正确的答案是不够的。在CVPR,2018年。3[21] R. 加奥河,巴西-地S. Feris和K.格劳曼学会分离对象的声音通过观看未标记的视频。在ECCV,2018。3[22] X. Guo,X.Cao和Y.MA. 反射的鲁棒分离从多个图像。 CVPR,2014。2[23] H.井上图像分类中样本配对的数据扩充。CoRR,abs/1801.02929,2018。3[24] P. Isola,J.Y. Zhu,T.Zhou和A.A. 埃夫罗斯Image-to-Image条件对抗网络的翻译。CVPR,2017年。4[25] M. Jin,G. Meishvili和P.法瓦罗 学习如何提取视频序列从一个单一的运动模糊的图像。在procCVPR,2018年。2[26] N. Jojic和B. J·弗雷学习视频层中灵活的精灵。载于CVPR,2001年。一、二[27] W. Kay,J.卡雷拉湾西蒙尼扬湾Zhang C.,中国古猿科希利尔S. Vijayanarasimhan,F.Viola,T.格林,T.后退,P。纳采夫,M. Suleyman和A.齐瑟曼。人体动作视频数据集。在arXiv预印本arXiv:1705.06950,2017。2[28] M. P. 库马尔山口H. Torr和A.齐瑟曼。学习分层视频的运动分割。 IJCV,2008年。2[29] 盖坤、石振伟、张长水。基于图像统计学的叠加运动图像盲分离。PAMI,2012年。2[30] Z.李角Chen和V.科尔顿。 交互式图像分割潜在的多样性。在CVPR,2018年。3[31] Q.柳荫河于湖,加-地Agapito,A. Fitzgienic和C.罗斯-塞尔。更好的在一起:具镜面反射与明暗处理之非刚性三维重建之联合推理。arXiv预印本arXiv:1708.01654,2017。1[32] M.马蒂厄角Couprie和Y.乐存。 深度多尺度视频预测超过均方误差。ICLR,2016年。4[33] A. Nandoriya,M.埃勒加里布角金,M。Hefeeda和W.妈-图西克。通过时空优化的视频反射去除。InICCV,2017.2[34] A. Newell,K.Yang和J.邓小平更堆叠沙漏网-为人体姿态估计工作。在ECCV,2016年。4[35] O.龙内贝格山口Fischer和T.布洛克斯U-Net:用于生物医学图像分割的卷积网络。在MICCAI,2015年。4[36] C. 鲁普雷希特岛莱纳河DiPietro,M.Baust,F.通巴里,N. Navab和G.D. 海格学习在一个不确定的世界:通过多重假设表示歧义。InICCV,2017. 三、四[37] Q. Shan,J.Jia和A.阿加瓦拉高品质的运动设计从一个单一的图像模糊。 2008. 2[38] P. Sinha和。E.阿德尔森在彩绘多面体的世界中恢复反射率和照明载于ICCV,1993年。2[39] R. Szeliski,S. Avidan和P.阿南丹层外从包含反射和透射的多个图像中提取。在CVPR,2000年。一、二、三[40] M. F. Tappen,W.T. Freeman和E.H. 阿德尔森回收从单个图像中提取内在图像。NIPS,2002年。2[41] Y. Tokozume,Y. Ushiku和T.原田。用于图像分类的类间学习。在CVPR,2018年。3[42] J. Y. A. Wang和E. H.阿德尔森代表移动IM-年龄与层次图像处理学报,1994年。1[43] Z. Wang,J.L. Roux,D.Wang和J.R. 好时End-to-end利用展开迭代相位相关进行语音分离。InInterspeech,2018. 3[44] Y.韦斯 从图像序列中导出本征图像。载于ICCV,2001年。22466[45] O. 怀特,J。Sivic,A.Zisserman和J.庞塞抖动图像的非均匀去模糊。IJCV,2012年。2[46] T.薛,M.鲁宾斯坦角Liu和W. T.弗里曼。A Com-无障碍摄影的推定方法。 在SIGGRAPH,2015. 二三六八[47] D. Yu,M.科尔拜克岛H.谭和J.詹森。用于说话人无关多说话人语音分离的深度模型的排列不变训练。在ICASSP,2017年。二、四[48] L. Yuan,J.孙湖,澳-地Quan和H.-Y. 沈图像去模糊具有模糊/噪声图像对。 SIGGRAPH,2007年。2[49] H. Zhang,M. Cisse,Y. N. Dauphin和D.洛佩兹-帕斯mixup:超越经验风险最小化。在ICLR,2017。3[50] R. Zhang,P.Isola和A.A. 埃夫罗斯彩色图像coloriza-第 在ECCV,2016年。2[51] X.张河,巴西-地Ng和Q.尘单一图像反射分离,感知损失。CVPR,2018年。2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功