没有合适的资源?快使用搜索试试~ 我知道了~
218基于隐式流编码的动态场景帧内插德克萨斯农工大学pedrofigueiredo@tamu.eduAvinash Paliwal德克萨斯农工大学avinashpaliwal@tamu.eduNima KhademiKalantari德克萨斯农工大学nimak@tamu.edu摘要本文提出了一种动态场景中两幅图像间的插值算法虽然在过去几我们建议解决这个问题,利用现有的光流方法,是非常强大的照明的变化。具体来说,使用使用现有的预训练流网络估计的双向流,我们预测从中间帧到两个输入图像的流为此,我们建议将双向流编码到基于坐标的网络中,由超网络提供动力,以获得跨时间的流的连续一旦我们获得了估计的流,我们就在现有的混合网络中使用它们来获得最终的中间帧。通过大量的实验,我们证明了我们的方法是能够产生显着优于国家的最先进的帧插值算法的结果。1. 介绍随着智能手机的普及,越来越强大的相机,拍摄专业的高分辨率照片已经成为一个简单的按下按钮。通常,人们拍摄许多照片是为了在表情、姿势、灯光和曝光方面寻找一个时刻的最佳表现。插入这些照片可以创建一个具有令人兴奋的效果的视频,为记住关键时刻提供了一种吸引人的现有的视频插值方法[20,42]通常难以处理这些情况,因为显著的摄像机和场景运动。最近,Redaet al.[47]提出通过利用多尺度特征提取和流估计策略来克服该挑战。具体来说,他们使用一系列卷积层来构建一个特征金字塔,并使用它来估计从中间帧到两个输入图像的一组两个流,我们的电影图1:我们提出了一种在动态场景的两个图像之间进行插值的方法。如上图所示,两幅图像通常会有明显不同的照明(即使相隔很短)。请注意两个输入图像中地 面 上 的 阴 影 。 现 有 的 方 法 , 如 Redaet al. [48](FILM),在没有光照变化的数据集上训练他们的系统。因此,它们不能有效地估计所需的流量,并因此生成具有显著伪影的最终中间图像。我们使用了对光照变化具有高度鲁棒性的预训练流网络如图所示,我们的方法能够生成高质量的中间流和结果。鳞片然后,这些流用于将两个图像连同它们在每个尺度下的特征一起扭曲到感兴趣的帧。然后将扭曲的特征和图像聚合并组合以产生最终帧。虽然这种方法产生高质量的插值结果,但它仅限于两个图像具有一致亮度和照明的情况。然而,在实践中,这两个图像可能有不同的亮度和照明,即使采取短期分开,如图所示。1.一、不幸的是,Redaet al.[47]无法处理这些情况,产生不自然的运动和严重的伪影。插值输入流动219我们的主要观察结果是,问题的根源在于,在存在照明变化的情况下,它们的估计流量会迅速下降(见图2)。①的人。这在很大程度上是因为他们的网络是在视频数据集上训练的[60,52],其中帧是连续捕获的,因此具有一致的亮度。因此,具有光照变化的图像落在其训练数据的分布之外。另一方面,它们的混合,即使在视频数据集上训练,通常也能够生成令人愉快的中间图像。因此,生成高质量图像的关键在于提高估计流量的质量。在本文中,我们建议解决这个问题,利用一个预先训练的光流网络。现有的光流方法[58,61]即使对显著的照明变化也具有高度鲁棒性,因此适合我们的应用。这里的主要挑战是,这些方法只估计两个图像之间的流量,但我们需要从中间帧到两个输入图像的流量。为了克服这一挑战,我们提出了一种通过利用隐式神经网络的逐场景优化方法(无需在大型数据集上进行训练我们的关键思想是,通过将两个输入图像之间的双向流编码到基于坐标的网络中,我们基本上获得了跨时间的流的连续表示。因此,我们可以使用这样的网络来估计在任何时间坐标之间的流量为了能够正确地估计中间流,我们使用一个超网络,该超网络获取时间坐标并估计基于坐标的神经网络的权重。然后,基于坐标的网络通过将像素坐标作为输入来估计每个像素处的流量。我们使用双向流优化超网络,然后通过将适当的时间坐标传递给这个优化的超网络来估计任何中间流然后,我们使用这些中间流与Reda等人。的混合网络来生成最终的中间图像。我们表明,我们的方法在具有大的照明变化和运动的各种各样的挑战性场景上优于现有的方法(参见图1和2)。1和4以及补充视频)。此外,我们证明我们的设计选择,通过广泛的实验。2. 相关工作在本节中,我们将回顾帧插值方法,以及图像变形的方法,这是一个相关但不同的问题。我们还简要地讨论了隐式神经表征,因为我们利用他们在我们的工作。2.1. 帧插值近年来,深度学习方法因其在处理具有挑战性的场景(如具有大型复杂运动的场景)方面的有效性而变得流行。尼克劳斯和Liu [37]使用预先训练的流网络来扭曲前插帧,然后使用上下文感知混合网络来合成内插帧。类似地,Jianget al. [25]通过估计到中间帧的流量来生成任意时间的内插帧。文博等[3]利用深度估计网络来处理遮挡。Niklaus和Liu [38]使用合成网络的前向扭曲来生成插值帧。此外,Park et al.[41]提出了一种基于双边运动估计的模型,以生成用于混合的高质量变形帧。他们通过计算不对称双边场来考虑场景中的非线性,进一步增强了这种方法[42]Huang等人[20]通过在训练期间使用特权蒸馏方案直接估计中间流。Reda等人[47]提出了一个统一的网络,包括特征金字塔和融合组件的流提取处理大运动场景。这种方法以及其他一些最近的方法[29,19]专注于提高高分辨率视频的质量。此外,一些方法[32,48]提出通过以无监督的方式进一步训练系统来提高监督方法的性能。与这些方法相反,几种方法提出直接估计最终图像,而不显式估计所需的流量。例如,Niklauset al.[39,40]使用自适应卷积核从相邻图像生成Choi等人[11]使用PixelShuffle [51]和通道注意力[59]直接合成中间帧。Gui等人[16]blend deep features and Kadhiet al.[26]利用3D空时卷积进行插值。不幸的是,所有这些技术以及基于流的方法都在具有一致照明的序列上训练它们的系统,因此不适合我们的应用。与我们的工作有关,Bemanaet al. [5]通过优化卷积网络来学习视图-时间-光坐标和输入图像之间然而,他们使用输入和扭曲图像之间的损失进行优化,因此他们的主要假设是亮度恒定性,这在我们的情况下是无效的。我们解决这个问题,lem通过利用一个预先训练的流量网络,是高度鲁棒的照明变化。2.2. 变形与我们的应用程序类似,图像变形方法产生一系列图像以在两个输入图像之间平滑过渡。大多数算法[4,8,30,49,31]通过首先计算两个图像之间的一组稀疏对应关系,然后使用它们将图像扭曲到中间帧来实现然后将这些扭曲的图像组合以创建变形图像。这些方法通常最适合于不同场景的图像以来220∈它们典型地利用稀疏对应,对于我们的例子(相同动态场景的图像),它们的过渡不够详细以产生吸引人的效果。几种方法[50,12]建议使用基于补丁的优化系统来处理此类似地,这些方法适用于不同的对象/场景,并且不能为相同对象/场景的图像产生视觉上令人愉悦的结果最近在深度学习和生成对抗网络[6,27]方面的突破已经通过在潜在空间中插值实现了高效和高质量的变形[1,21,44]。然而,这些方法大多适用于单个或几个对象(例如,脸,猫,汽车),并不是一般的。2.3. 隐式神经表示大量最近的方法已经使用神经网络作为用于图像的隐式表示的记忆高效连续函数近似器[54,57,36,15,9]和视频[7,62,54],3D对象通过签署的显示-[24,46,43,2,53,34,54]或占用网络[33,10]和辐射场[35,14,22,18,56]。新颖的输入编码[35,57]和激活函数[54]有助于在这些应用中实现紧凑网络中的高频细节编码我们建立在这些进展,但使用隐式神经表示光流插值。3. 方法给定一个动态场景的一对图像, 和It1,在不同条件下捕获,例如,不同的曝光,我们的方法的目标是在两个图像之间重建时间t处的图像,其中t[t0,t1]。大多数现有的帧内插方法,特别是Reda等人的最先进的方法。[47],将此过程分解为流量估计和混合组件。具体来说,他们首先从内部计算一组流将时间t处的帧与两个输入图像Ft→t0和Ft→t1进行中间处理。然后,他们使用这些流将图像/特征向后扭曲到中间帧,并将它们组合起来以重建最终图像It。不幸的是,这些方法是不能够正确地处理的情况下,照明变化,主要是因为估计的流量的质量迅速下降的亮度恒定性的情况下。这是预期的,因为这些方法在相邻帧之间包含最小照明变化的视频数据集上训练它们的系统。为了解决这个问题,我们建议利用强大的光流估计方法[58,61],这些方法对这些照明变化具有高度鲁棒性。主要的挑战是,使用这些光流方法,我们只能估计输入之间的双向流,Ft0→t1和Ft1→t0,但我们需要估计中间流。我们建议通过使用基于坐标的神经网络隐式地内插双向光流来解决这一挑战。一旦中间流被估计,我们将它们纳入混合网络Reda等人。[47]来估计最终的图像。我们的系统的概述如图所示。2.接下来,我们讨论我们的隐流插值和混合方法。讨论:人们可能会尝试在具有光照变化的数据集上训练现有的视频插值方法来处理该应用。然而,构建具有真实光照变化的输入图像及其对应的中间地面实况图像的数据集是困难的。此外,即使数据集可以重建,设计一个可以超越最先进的光流方法的网络也可能具有挑战性。最后,通过使用已有的流量估计方法,我们有能力用更新更好的方法来代替它们,以进一步改进我们的结果。我们还注意到,我们考虑的是向前翘曲,而不是向后翘曲,使用尼克劳斯等人。的方法[38],以避免计算中间流的需要。然而,他们的方法需要计算一个重要性掩码,以正确处理重叠区域。不幸的是,这个重要性掩模是在假设亮度恒定的情况下计算的,这在我们的情况下是无效的。3.1. 隐式流插值我们的目标是从两个输入图像之间的双向流Ft0→t1和Ft1→t0估计中间流Ft→t0和Ft→t1,这两个输入图像是由一个预先训练好的流网络生成的在我们的系统中,我们使用Teed等人[58]因为它能够在有挑战性的情况下产生高质量的流。如前所述,我们建议通过基于坐标的神经网络隐式地估计中间流。基于坐标的网络找到输入坐标与该坐标处的对应输出之间的映射,即, y = f θ(x),其中θ是网络的权重。然后,通过最小化损失以找到最佳网络权重θ,可以在一组输入输出对(xi,yi)上优化该网络。通过这种优化,数据将被编码到神经网络的权重关键思想是,一旦执行了这种优化,我们就可以在任何中间坐标处评估网络,以获得相应的输出。该网络基本上将在观测坐标处内插输出以生成中间结果。在我们的应用程序中,输入坐标是三维的,x=(x,y,t),其中x和y是空间坐标,t是时间坐标。另一方面,输出是在每个坐标y=F(x,y,t)处的2D流(在水平和垂直方向上)。注意,我们使用由时间坐标的差异归一化的流作为输出,221−θ∈i=1j =1k=0估计的标准化流量xyS我RE N超网络流译码器t0 t1损失(方程式第三章预训练的标准化流x yt图像中间流内插图像流解码器优化流-图像插值图2:我们提供了我们的方法的概述在左边,我们执行优化,将使用预先训练的流网络估计的双向流编码一旦流被编码,我们估计通过我们系统的中间流,并在FILM的混合系统中使用这些流[48]来生成最终图像,如右图所示。这里,“预训练”意味着组件以离线方式在大型数据集上训练,并在运行时固定。“Fixed-Operations” refers tountrainable and fixed 最后,放到我们的网络上,即, F(x,y,t0)= Ft0→t1(x,y)/(t1-t0)和F(x,y,t1)=Ft1→t0(x,y)/(t0t1)。这是因为最初的流动方向相反(t0到t1以及t1到t0)并且不能被内插。通过用它们的坐标差对流进行归一化我们使用以下目标将这些标准化流编码到基于坐标的网络中:w h 1θ= argminfθ(xi,yj,tk)−F(xi,yj,tk)<$2,(一)其中w和h是图像的宽度和高度(并且类似地,流量)。一旦执行了这种优化,我们就可以在任意的时间坐标上评估网络t[t0,t1]来估计中间流。请注意,网络在每个坐标处产生归一化流然后,我们将其转换为两个中间流,如下所示:Ft→t0(x,y)=(t-t0)×fθ(x,y,t)F t→t1(x,y)=(t-t 1)× f θ(x,y,t).(二)对于我们的网络,我们使用SIREN,由Sitz- mann等人提出。[55],具有5个隐藏层,每个隐藏层包含128个神经元。此外,我们将正弦激活函数的频率设置为10。如图3、这种方法(单SIREN)不能正确地内插两个输入流。这是因为基于坐标的网络通过在观察到的附近坐标处对数据进行“平均”来生成中间结果因此,网络通过在相同的空间坐标处组合两个流(t0和t1)来重构中间流 本质上图3:我们通过一个合成示例展示了我们方法的有效性这里,圆从左向右移动,因此两个输入坐标t0和t1处的流包含不同位置处的圆。从每种情况下,我们显示的编码输入流和插值流在时间t0。五、通过将两个流编码到单个SIREN中,网络简单地产生两个流的“平均值”。在没有底层超网络的情况下,将流编码成两个独立的SIREN,然后内插它们的权重是无效的,因为这两个流是单独编码的。使用超网络,我们能够正确地产生插值流。网络生成两个编码流的我们通过使用超网络对时间坐标进行编码来解决这个问题,如下所述。3.2. 超网络的时间编码为了正确地插值中间流,我们需要对两个输入流的形状进行我们的主要业务-特征提取器流量金字塔融合预先培训的固定操作优化流译码器翘曲Hyper Two网络SIREN单个警报F(:,:F(:,:F(:,:222通过将数据编码到基于坐标的网络中,形状将基本上使用网络的权重来表示因此,我们可以将归一化的双向流编码成两个单独的基于坐标的网络。在这种情况下,网络仅将空间坐标作为输入fθ(xi,yi),并且两个网络被独立地优化以编码在t0和t1处的流。然后,可以对优化的权重θ0和θ1进行线性插值,以获得中间流θt的表示。内插权重可用于生成中间流。然而,如图在图3中,该策略(两个SIREN)不产生期望的插值,因为两个流被独立地编码并且两个表示θ0和θ1不可插值。为了解决这个问题,我们建议使用超网络[17]来估计基于坐标的网络的权重,该超网络将时间坐标作为输入,即, θ=f(t)。我们通过以下目标将两个标准化流编码到我们的系统中:w h 1以适当地编码这两个流并重建中间流。3.3. 共混如所讨论的,我们使用我们的插值流与Reda等人预先训练的混合网络。[47](FILM)生成最终插值图像。虽然FILM为了将我们估计的中间流合并到他们的系统中,我们首先通过将我们估计的中间流下采样到多个尺度来生成流金字塔我们使用双线性插值来对流进行下采样,并将流的幅度除以比例因子。一旦我们获得了两个流的金字塔,我们就使用它们来将特征金字塔(使用FILM最后,我们将所有扭曲的特征和图像传递到FILMfθ(xi,yj)−F(xi,yj,tk)<$2,i=1j =1k =0哪 里θ=f ( tk ) 。(三)在这种情况下,我们同时对两个流进行编码,并且由于使用单个超网络来估计表示(权重θ0=f(t0)和θ1=f(t1)),因此它们在高维空间中更接近,因此是可插值的。关于两个SIREN策略的主要区别在于,在这里,估计代表-站(权重)由相同的网络(超网络)产生而在理论上,产生与两个SIREN策略相同的θ0和θ1的最小化器是有效等式3,通过使用一个小的超网络并将权重初始化为小值,我们通常会收敛到一个在实践中产生高度相关的SIREN权重的解决方案一旦超网络被优化,我们通过在中间时间坐标θ t=f θ(t)处评估超网络并使用等式中计算的权重来生成最终中间流。2.我们还试验了首先使用我们的超网络来估计t0和t1处的权重θ0=f(t0)和θ1=f(t1)),然后线性插值得到θ t,但结果相似。我们的超网络由一组全连接网络组成,其中一个隐藏层大小为128,具有ReLU激活,将时间坐标t映射到我们基于坐标的网络(SIREN)的每一层中的权重此外,我们使用t0= 0和t1= 0。1,以进一步迫使网络产生高度相关的权重(参见图中坐标距离的影响。(七).总之,使用小型超网络以及紧密的时间坐标,我们限制了可能的权重空间如图3、我们的超网络系统能够4. 结果我们在PyTorch [45]中实现了我们的模型,并将Torchmeta [13]用于我们的超网络。我们利用Teed等人的预训练流估计网络。[58](RAFT)和Reda等人的混合网络。[47](电影)。我们的解决方案为RAFT使用sintel检查点,为FILM的混合使用风格检查点。具体而言,RAFTRAFT应用各种数据扩充,以确保对各种失真的鲁棒性。我们使用Adam [28]优化我们的模型,默认参数β1= 0。9和β2= 0。999 我们训练10公里-在单个A100 GPU上使用1e−6的学习率进行计算。4.1. 比较我们比较我们的算法,国家的最先进的视频帧插值方 法 公 园 等 。 [42] ( ABME ) 和 Redaet al.[47] ( 电影)。我们使用作者为这两种方法提供的源代码。定量分析:内插图像的质量的数值评估是具有挑战性的,因为没有包含具有光照变化的输入图像及其对应的地面实况中间图像的数据集。虽然我们可以潜在地使用现有的数据集并应用各种扰动(例如,色调),构造相应的地面实况中间图像仍然是一个挑战,因为这些扰动是非线性的。因此,我们只对中间流的质量进行数值评估。为此,我们使用Xiph 2K和4K的两个视频帧插值数据集[38],ϕ223×表1:我们数值比较我们的插值流与Reda等人的。[47]平均终点误差(EPE)。对于这些比较,我们使用Xiph 2K和4K [38]以及Sintel [23]。Xiph 2KXiph 4KSintel膜13.9737.3412.9我们3.417.465.16和Sintel数据集一样[23]。对于每个输入图像对,我们通过随机扰动亮度、对比度、饱和度和色调来应用各种光度增强。我们使用Pytorch然后,我们使用扰动图像作为输入来估计中间流,然后将其与参考流进行比较。提供了Sintel数据集的参考中间流,但对于Xiph2K和4K,我们简单地使用中间和两个输入干净(未扰动)图像之间的RAFT流作为参考。对于Xiph 2k和4k,我们在创建图像对时跳过六帧(例如,1-7、2-8等)以增加场景的运动量,而我们跳过Sintel数据集的一帧。表1显示了与Reda等人的方法的比较。[47]平均终点误差(EPE)。注意,我们不包括Park等人的方法。[42]因为它们的方法没有明确地估计流量。可以看出,我们的插值流量明显优于Reda等人估计的中间流量。我们在补充材料中显示了来自所有数据集的一些图像的视觉比较。定性:我们在resolution 2016 1512中对使用智能手机拍摄的几个具有挑战性的场景进行了定性比较。为了显示我们的方法的鲁棒性,我们捕获室内和室外场景,并在一天中的不同时间或几秒钟内拍摄图像对。我们比较了图中6个场景的所有方法估计的中间图像。4,但鼓励读者看到我们的补充视频。我们首先检查BABY场景,其中包含在室内设置中的非刚性运动。婴儿从一个充满好奇的阴影的姿势转变为一个半亮的微笑表情。这个场景说明了自然光是如何发生显著变化的,即使是相隔几秒钟拍摄的照片。ABME在移动区域中产生模糊结果当FILM生成更清晰的插值时,它会使婴儿的头部变形。我们的方法保留了婴儿HOUSE场景展示了我们的方法在极其不同的光照条件下插值图像的能力。这两张照片是从一个静态场景中拍摄的,但拍摄时间不同(早上和晚上)。ABME生成模糊插值,重影的文物,而电影产生了不自然的插值通过引入整个图像的黑暗补丁。我们的方法,另一方面,是能够插值intermediate图像与合理的质量,因为我们的系统能够插值高质量的流。HUG场景包含移动的主体和显著的相机运动。树木和阴影上轻微的灯光变化加上大幅度的运动,使这个场景对其他方法极具挑战性。相比之下,RAFT能够估计高质量的流量,我们的方法适当地插值的intermedi-ate流量产生的结果没有令人反感的文物。类似地,LAMP场景虽然是静态的,但包含显著的相机运动,并且已经用不同的曝光(参见输入图像中的天空)捕获,使其成为用于其他方法的增强场景。尽管我们的方法在对象边界周围产生轻微的重影伪影,但我们的结果仍然是合理的,并且明显优于其他技术。三个场景包含重要的主体运动和照明变化(请参见输入中的建筑物屋顶和阴影)。ABME模糊了整个帧,而FILM严重扭曲了背景。相比之下,我们的方法产生了一个高质量的插值平滑扭曲的主题,同时保持连贯的背景。最后,虽然LADY是一个相对容易的场景,但ABME产生了模糊的背景,FILM无法正确地重建椅子上的间隙。我们的方法,无论如何,产生了高质量的结果,没有任何异议的文物.4.2. 消融实验超网络的影响:我们首先评估的超网络上的插值流的质量的影响。在图3中,我们显示了它对合成示例的影响。对一个实际例子的影响如图所示。5.可以看出,虽然所有的方法都能够以类似的质量在时间t0和t1编码输入流,但只有我们的超网络方法能够正确地重建插值流。ω的影响:接下来,我们评估图中SIREN的正弦激活函数的频率ω六、频率是将数据正确编码到基于坐标的网络中的关键因素。较高的频率更适合包含大量细节的信号,而较低的频率更适合平滑的信号。如图所示,在我们的情况下,8到12之间的频率产生合理的结果。我们在实现中使用ω=10。时间坐标的影响:在图7中,我们显示了ef-改变时间坐标(t0和t1)的影响,它们被用作我们超网络的输入。如图所示,在两个坐标(0.2和0.5)之间的大距离的情况下,我们的系统不能产生高质量的中间流。224输入ABME FILM Ours图4:我们显示了与Park等人的最先进方法的比较。[42](ABME)和Redaet al.[48]第四十八话225F(:,:,t0)F(:,:,t0.5)F(:,:,t1)t1= 0.5 t1= 0.2 t1= 0.1 t1= 0.05 t1= 0.02图7:改变输入时间坐标t0和t1之间的距离对插值流质量的影响。在所有情况下,t0等于0。图5:我们评估了超网络对真实示例中插值流质量的影响。所有的方法都正确地编码了t0和t1的流,但只有我们的超网络方法可以产生高质量的插值流。ω = 5 ω = 8 ω = 10 ω = 12图6:改变SIREN的ω对t0时内插流量的影响。五、这是因为,在这种情况下,超网络将不提供足够的约束,并且两个坐标(θ0和θ1)的估计的基于坐标的网络权重变得独立。另一方面,当坐标彼此太接近(距离为0.02)时,超网络变得过于严格,无法估计适当的权重。0.1和0.05的距离是理想的,并产生最好的质量。混合效果:在我们的方法中,我们使用Reda et al。的混合网络[48](电影)。然而,我们可以潜在地使用任何其他方法的混合网络,该方法将该过程分解为流量估计和混合两个阶段。图8,我们比较了使用FILM的混合的插值图像的质量[20](RIFE)。请注意,在这两种情况下,我们都使用插值流作为混合系统的输入正如所看到的,虽然这两种方法都产生了合理的结果,但FILMRIFE Blending FILM Blending(Ours)图 8 : Huang 等 人 的 混 合 方 法 之 间 的 比 较 。 [20](RIFE)和Redaet al.[48](电影)当与我们的估计流量使用。4.3. 局限性和未来工作我们的方法使用RAFT [58]估计的流量,因此我们结果的质量取决于这些预测流量的准确性。虽然RAFT在大量情况下产生高质量流,但它可能在具有挑战性的情况下失败。在这些情况下,流动伪影可能会出现在我们的最终结果中。然而,由于我们的方法允许我们使用任何光流方法,随着未来开发出更好的流量估计方法,我们可以简单地使用它们来进一步改进我们的结果。我们还探索了直接插值图像而不是流的想法,但根据我们最初的实验并不成功。我们认为这是因为图像比光流要详细得多。我们把对这个想法的彻底调查留到将来。5. 结论我们提出了一种方法来插值之间的一对图像的动态场景与照明变化。我们建议这样做,利用现有的光流方法。为了计算中间帧和两个输入图像之间的流,我们以隐式方式使用预先训练的流网络对估计的双向流进行插值具体来说,我们将双向流编码到基于坐标的网络中,并通过传递适当的坐标作为输入来随时估计流量。我们使用现有混合网络中的估计流量我们表明,我们的方法是能够产生显着更好的结果比最先进的在广泛的具有挑战性的场景。超网络两个警报单个警报器226引用[1] Rameen Abdal,Yipeng Qin,and Peter Wonka.图像-年龄2风格:如何将图像嵌入到潜空间中?在IEEE/CVF计算机视觉国际会议(ICCV)的会议记录中,2019年10月。[2] Matan Atzmon和Yaron Lipman。Sal:从原始数据中学习形状的符号不可知论。 在IEEE/CVF会议 计算机视觉和模式识别(CVPR),2020年6月。[3] Wenbo Bao , Wei-Sheng Lai , Chao Ma , XiaoyunZhang,Zhiyong Gao,and Ming-Hsuan Yang.深度感知视频帧插值。在IEEE计算机视觉和模式识别会议上,2019年。[4] Thaddeus Beier和Shawn Neely基于特征的图像变形。SIGGRAPH Comput. Graph. ,26(2):35-42,1992.[5] Mojtaba Bemana , Karol Myszkowski , Hans-PeterSeidel,and Tobias Ritschel. X场:隐式神经视图,光和时 间 图 像 插 值 。 ACM Transactions on Graph-ics(TOG),39(6):1[6] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模GAN训练。在学习代表国际会议上,2019年。[7] 陈昊,何伯,王涵玉,任逸轩,林南爵士,史里瓦斯塔瓦。Nerv:视频的神经表示。神经信息处理系统进展,第34卷,第21557-21568页,2021年[8] 申昌Eric Chen和Lance Williams。视图插值和灰图像合成 。 在 Proceedings of the 20th Annual Conference onComputer Graphics and Interactive Techniques , 第 279-288页[9] Yinbo Chen,Sifei Liu,and Xiaolong Wang.用局部隐式图 像 函 数 学 习 连 续 图 像 表 示 arXiv 预 印 本 arXiv :2012.09161,2020。[10] 陈志勤和张浩。学习生成式形状建模的隐式字段。在IEEE/CVF计算机视觉和模式识别会议论文集,第5939-5948页[11] Myungsub Choi , Heewon Kim , Bohyung Han , NingXu,and Kyoung Mu Lee.通道注意力是视频帧插值所需的全部在AAAI,2020年。[12] Soheil Darabi,Eli Shechtman,Connelly Barnes,Dan BGoldman,and Pradeep Sen.图像融合:使用基于块的合成 来 组 合 不 一 致 的 图 像 。 ACM 图 形 转 换 ( TOG )(SIGGRAPH 2012会议记录),31(4):82:1[13] TristanDeleu , TobiasWuürfl, MandanaSamiei ,JosephPaulCohen , and Yoonge Bengio.Torchmeta :PyTorch 的 元学 习库 ,2019 。 可从 以下 网址 获取 :https://github.com/tristandeleu/pytorch-meta。[14] Kangle Deng,Andrew Liu,Jun-Yan Zhu,and Deva Ra-manan.深度监督NeRF:更少的观看和更快的免费培训。在IEEE/CVF计算机视觉和模式识别会议(CVPR)上,2022年6月。[15] Emilien Dupont,Adam Golinski,Milad Alizadeh,YeeWhye Teh,and Arnaud Doucet.COIN:内隐神经表征的压缩在神经压缩中:从信息理论到应用-研讨会@ ICLR2021,2021。[16] Shurui Gui,Chaoyue Wang,Qihua Chen,and DachengTao.特征流:通过结构到纹理生成的鲁棒视频插值。2020 年 IEEE/CVF 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),第14001[17] David Ha,Andrew Dai,and Quoc V Le. 超网络arXiv预印本arXiv:1609.09106,2016。[18] Peter Hedman,Pratul P.放大图片创作者:Jonathan T.Barron和Paul Debevec。烘焙神经辐射场用于实时视图合成。ICCV,2021年。[19] Ping Hu,Simon Niklaus,Stan Scaroff,and Kate Saenko.多对多飞溅的有效视频帧插值。在IEEE/CVF计算机视觉和模式识别会议论文集,第3553-3562页,2022年。[20] 黄哲伟,张天元,温恒,石博新,周书昌。用于视频帧内 插 的 实 时 中 间 流 估 计 。 欧 洲 计 算 机 视 觉 会 议(ECCV),2022年。[21] Ali Jahanian*、Lucy Chai* 和Phillip Isola。关于生成式对抗网络的“引导能力”。在2020年国际学习代表会议上[22] Ajay Jain Matthew Tancik和Pieter Abbeel。让nerf节食:语义一致的少镜头视图合成。在IEEE/CVF国际计算机视觉会议(ICCV)中,第5885[23] Joel Janai、Fatma Guney、Jonas Wulff、Michael J Black和Andreas Geiger。慢流:利用高速摄像机获得准确多样的光流参考数据。在IEEE计算机视觉和模式识别会议的论文集,第3597-3607页[24] Chiyu三维场景的局部隐式网格表示。在IEEE/CVF计算机视觉和模式识别会议(CVPR)上,2020年6月。[25] Huaiizu Jiang , Deqing Sun , Varun Jampani , Ming-Hsuan Yang,Erik Learned-Miller,and Jan Kautz.超级斯洛莫:用于视频内插的多个中间帧的高质量估计。在IEEE计算机视觉和模式识别会议论文集,第9000- 9008页[26] Tarun Kadhi,Deepak Pathak,Manmohan Chandraker和Du Tran。Flavr:用于快速帧插值的流无关视频表示。arXiv预印本arXiv:2012.08512,2020。[27] Tero Karras , Samuli Laine , Miika Aittala , JanneHellsten,Jaakko Lehtinen,and Timo Aila.分析和改进了扫描仪的图像质量。IEEE/CVF计算机视觉和模式识别会议(CVPR),2020年6月。227[28] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[29] Sungho Lee,Narae Choi,and Woong Il Choi.基于增强相关匹配的视频帧内插。在IEEE/CVF计算机视觉应用冬季会议上,第2839-2847页,2022年[30] Seungyong Lee,G. Wolberg,Kyung-Yong Chwa,andSung Yong Shin.具有分散特征约束的图像变形。IEEETransactions on Visualization and Computer Graphics,2(4):337[31] 作者:Jing Liao,Rodolfo S.放大图片作者:Lima,Diego Nehab,Hugues Hoppe,Pedro V.Sander和JinhuiYu利用中途域上的结构相似性自动化图像 ACM事务处理图表,33(5),2014年9月。[32] 刘玉伦,廖一栋,林燕玉,庄永玉。使用循环帧生成的深度 视频 帧内插 。AAAI人工 智能 会议论 文集 ,33(01):8794-8802,7月。2019年。[33] Lars Mescheder,Michael Oechsle,Michael Niemeyer,Se- bastian Nowozin , and Andreas Geiger.Occupancynetworks:Learning 3d reconstruction in function space.在IEEE/CVF计算机视觉和模式识别会议论文集,第4460-4470页[34] 马特乌什·米哈尔凯维奇、乔尼·凯塞莫德尔·庞特斯、多米尼克·杰克、马赫萨·巴克塔什莫特拉格和安德斯·埃里克森。隐式表面表示作为神经网络中的层在2019年IEEE/CVF计算机视觉国际会议(ICCV)上,第4742-4751页[35] Ben Mildenhall,Pratul P Srinivasan,Matthew Tancik,Jonathan T Barron , Ravi Ramamoorthi , and Ren Ng.Nerf:将场景表示为用于视图合成的神经辐射场。欧洲计算机视觉会议,第405-421页。Springer,2020年。[36] ThomasMüller, Ale xEvans, ChristophSchied ,andAlexan-der Keller.即时神经图形原语与多分辨率哈希编码。ACM事务处理图表,41(4):102:1[37] 西蒙·尼克劳斯和凤琉。用于视频帧内插的上下文感知合成 。在 IEEE计算 机视 觉和模 式识 别会议 论文 集(CVPR),2018年6月。[38] 西蒙·尼克劳斯和凤琉。Softmax splatting用于视频帧插值。IEEE/CVF计算机视觉和模式识别会议(CVPR),2020年6月。[39] 西蒙·尼克劳斯、龙迈、风流。基于自适应卷积的视频帧内插。在IEEE计算机视觉和模式识别会议,2017年7月。[40] 西蒙·尼克劳斯、龙迈、风流。基于自适应可分离卷积的视频帧在IEEE计算机视觉国际会议(ICCV)的会议记录中,2017年10月。[41] Junheum Park,Keunsoo Ko,Chul Lee,and Chang-SuKim.双边运动估计与双边成本卷视频插值.在欧洲计算机视觉会议上,第109-125页[42] Park Junheum,Chul Lee和Chang-Su Kim用于视频帧内插的非对称双边运动估计在IEEE/CVF计算机视觉国际会议(ICCV)的会议记录中,第14539-14548页,2021年10月。[43] 郑俊朴、彼得·弗洛伦斯、朱利安·斯特劳布、理查德·纽科姆和史蒂文·洛夫格罗夫。Deepsdf:学习连续符号距离函数用于形状表示。在IEEE计算机视觉和模式识别会议(CVPR)上,2019年6月。[44] Sanghun Park,Kwanggyoon Seo和Junyong Noh。神经杂交:基
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- WebLogic集群配置与管理实战指南
- AIX5.3上安装Weblogic 9.2详细步骤
- 面向对象编程模拟试题详解与解析
- Flex+FMS2.0中文教程:开发流媒体应用的实践指南
- PID调节深入解析:从入门到精通
- 数字水印技术:保护版权的新防线
- 8位数码管显示24小时制数字电子钟程序设计
- Mhdd免费版详细使用教程:硬盘检测与坏道屏蔽
- 操作系统期末复习指南:进程、线程与系统调用详解
- Cognos8性能优化指南:软件参数与报表设计调优
- Cognos8开发入门:从Transformer到ReportStudio
- Cisco 6509交换机配置全面指南
- C#入门:XML基础教程与实例解析
- Matlab振动分析详解:从单自由度到6自由度模型
- Eclipse JDT中的ASTParser详解与核心类介绍
- Java程序员必备资源网站大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功