Deflur-NeRF：模糊图像恢复的神经辐射场

172 浏览量更新于2023-10-25 收藏 1.83MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12861Deflur-NeRF：来自模糊图像的神经辐射场李马1* 李晓宇 2廖静3张琦2王璇2王珏2佩德罗V. 砂光机11香港科技大学2腾讯人工智能实验室3香港城市大学（a）模糊源视图的样本（b）来自NeRF的新视图（c）来自Deflur-NeRF的新视图图1.给定一组模糊的多视图输入图像（a），原始NeRF实现重建模糊的新视图（b）。我们的方法能够恢复清晰的辐射场并合成清晰的新视图（c）。我们提出的方法可以处理相机运动模糊（第一行）和散焦模糊（第二行）。视频结果请参考补充资料摘要神经辐射场（NeRF）以其优异的合成性能在三维场景重建和新视点合成然而，在野外拍摄场景时，由于散焦或运动引起的图像模糊会严重影响重建质量。为了解决这个问题，我们提出了Deflur-NeRF，第一种方法，可以从模糊的输入中恢复清晰的NeRF。我们采用的分析合成的方法，重建模糊的意见，通过模拟模糊的过程，从而使NeRF强大的模糊输入。该模拟的核心是一种新的可变形稀疏核（DSK）模块，该模块通过在每个空间位置处变形正则稀疏核来对空间变化的模糊核进行建模。受物理模糊过程的启发，每个核点的光线原点被联合优化。该模块被参数化为具有被推广到各种模糊类型的能力的MLP。联合优化NeRF和DSK模块使我们能够恢复清晰的NeRF。我们恶魔-*作者在腾讯人工智能实验室实习期间完成了这项工作证明我们的方法可以用于相机运动模糊和散焦模糊：两种最常见的类型在真实场景中的模糊。对合成数据和真实数据的评价结果表明，我们的方法优于几个基线。合成数据集和真实数据集以及源代码可在https：//limacv.github.io/deblurnerf/网站。1. 介绍在过去的几年中，在新颖的视图合成，其中的中间3D表示是从稀疏的输入视图重建插值或外推任意的新颖的意见，已经见证了巨大的进步最近，NeRF [22]成为一种有效的场景表示，实现了照片级真实感渲染结果。它将静态场景建模为连续的体积函数，将3D位置和2D视图方向映射到颜色和密度。该函数被参数化为多层感知器（MLP），其输出可以通过体绘制技术以可微的方式进行绘制。为了重建NeRF，需要来自不同视图的若干图像。原来的火车路线散焦模糊摄影机运动模糊12862−−当这些图像被很好地捕获和校准时，使用NeRF效果很好，当模糊发生时，它会产生明显的伪影例如，当使用长曝光设置来捕获低光场景时，图像对相机抖动更敏感，从而导致相机运动模糊。此外，当使用大光圈捕获具有大深度变化的场景时，散焦模糊是不可避免的这些模糊将显著降低重建的NeRF的质量，导致渲染的新视图中的伪影。最近提出了许多工作来处理异常输入，同时训练NeRF。NeRF-W [20]专注于具有照明变化和移动对象的图像。当输入跨越不同尺度时，Mip-NeRF [1]改进了NeRF。在SCNeRF [11]中同时考虑并校准输入失真。据我们所知，没有人考虑解决从模糊输入图像训练NeRF的问题。一种解决方案是首先在图像空间中对输入进行去模糊，然后使用去模糊图像训练NeRF，我们将其称为图像空间基线。该基线通过利用最近的单个图像或视频去模糊方法在一定程度上提高了NeRF的新视图合成质量。然而，单图像去模糊方法不能聚合来自相邻视图的信息，并且不能保证多视图一致的结果。基于视频的方法设法考虑多帧，通常依赖于图像空间操作，例如光流和特征相关体积。然而，这些方法未能利用场景的3D几何形状，导致跨视图的不准确的对应性，特别是当它们具有大基线时。相反，我们的方法通过聚合来自所有观察的信息来消除模糊，并充分了解3D场景。在本文中，我们提出了去模糊NeRF，一个有效的框架，明确地模拟网络中的模糊过程我们通过使用类似于盲去卷积方法的模糊核卷积干净图像来建模模糊过程[2]。提出了一种新的可变形稀疏核（DSK）模块来模拟模糊核的灵感来自以下观察。首先，由于渲染期间计算和存储器使用的急剧增加，对于诸如NeRF的场景表示，使用密集内核进行卷积是不可行的为了解决这个问题，DSK使用稀疏射线来近似密集内核。第二，我们表明，实际的模糊过程涉及到从不同的起源，这促使我们共同优化的光线来源相结合的光线。最后，为了对空间变化的模糊核进行建模，我们在每个2D空间位置处变形一个规范的稀疏核变形被参数化为可以被推广到不同类型的模糊的MLP。在训练过程中，我们联合优化DSK和一个尖锐的NeRF，只有模糊的输入作为监督，而在推理阶段，通过去除DSK可以呈现清晰的新颖视图。我们进行了广泛的实验，合成和真实的数据集与两种类型的模糊：相机运动模糊和散焦模糊。结果表明，所提出的方法优于原始NeRF和图像空间基线（即，将NeRF与最先进的图像或视频去模糊方法相结合），对于这两种模糊类型，如图所示。1和实验部分。我们的贡献可归纳如下：• 我们提出了第一个框架，可以重建一个清晰的NeRF从模糊的输入。• 我们提出了一个可变形的稀疏内核模块，使我们能够有效地建模的模糊过程，并概括为不同类型的模糊。• 我们分析了物理模糊过程，并通过考虑每个核点的光线原点的平移，将2D核扩展到3D空间。2. 相关工作神经辐射场。我们的工作扩展了NeRF [22]，这是一种基于坐标的隐式3D场景表示，由于其最先进的新颖视图合成结果，它在过去几年中受到了欢迎。NeRF的成功激发了许多后续工作，扩展了NeRF [7，8，18，25，30一些作品已经探索了训练NeRF与非理想输入。例如，BRAF [19]、NeRF[47]第21话，来训练NeRF不带摄像机的姿势SCNeRF [11]专注于联合校准更复杂的非线性相机模型。为了解决在不受控制的野外照片下的NeRF训练，NeRF-W [20]引入了对NeRF的几个扩展，这些扩展成功地对视图中不一致的外观变化和瞬态对象进行了建模。PixelNeRF [51]仅用一个或几个图像重建神经体积。此外，Jonathanet al.提出了Mip-NeRF [1]，其改进了具有不同尺度的输入下的NeRF，产生抗锯齿结果。然而，用模糊图像训练NeRF仍然是一个未探索的领域，因为上述作品似乎都没有明确考虑这种退化。单幅图像去模糊。图像去模糊的目的是从模糊的输入中恢复清晰的图像.通常，模糊图像被建模为清晰图像与模糊核的卷积，并且去模糊过程被公式化为在给定模糊观测的情况下联合求解清晰图像和核该任务是不适定的，因为存在可以合成所观察到的模糊图像的许多组图像模糊对[46]。经典的盲去模糊算法通过引入手工制作或学习的图像先验同时优化清晰图像和内核来解决不适定性，例如总变差[4，35]，归一化梯度稀疏性[13]和非自然l0[49]。自从侠影进来12863i=1D·∗×样本，并且T（i）=exp（−ΣΣi−1σ（j）δ（j））。本文L--现实世界的照片通常是空间变化的，许多作品试图将模糊核重新参数化到更小的求解空间。早期的工作使用投影运动模糊[42]，其使用多个全息图拟合空间变化的模糊内核，而基于区域的方法假设分段常数[16]或分段投影[28]。此外，基于深度的模型用于联合优化深度图和相机姿势[29，33]。对模糊核进行建模的另一种方法是使用光流[9]。这些方法要么对模糊模式进行强假设，要么只能对一种特定类型的模糊进行建模。相反，我们的方法其中，超参数L指示映射中使用的最高频率，并且可以用于控制场景函数的平滑度[43]。为了渲染以图像坐标p为中心的像素，我们首先从相机投影中心o沿着观察方向dp发射射线rp（t）= o + tdp。然后，使用采样策略来确定预定义的近平面t（0）和远平面t（D+1）之间的D个排序的距离t（i）D。我们使用FΘ估计每个样本点rp（t（i））处的颜色c（i）和密度σ（i）。像素的最终颜色计算如下：使用MLP对空间变化的内核进行建模，这可以推广到不同的模糊类型。近期走势是引入深度神经网络cp=c（rp）=Σi=1T（i）.1−exp（−σ（i）δ（i））<$c（i）、（3）直接将模糊图像映射到潜在的清晰图像，年龄[3，14，15，23，26，39，44，48，52，53]。这些方法其中δ（i）=t（i+1）-t（i）是相邻两个点之间的距离比传统方法更有效。然而，这一工作高度依赖于训练数据和方法，我们使用CP和c（rp）j=1可互换。注意这个渲染-ODS通常难以推广到现实世界中不可见的模糊类型[45]。多图像去模糊。使用多图像设置的去模糊在跨帧聚合信息和保持时间一致性方面提出了新的挑战。光流是用于将相邻帧配准到参考帧的有用工具[9，27]。然而，估计准确的光流是困难的和不适定的，特别是当输入是模糊的。随着深度学习的发展，人们可以通过连接多个帧并使用CNN直接恢复干净的帧来设计无流方法[41]。另一种选择是使用跨帧传播特征的递归结构[10，24，40，56]。Li等[17]将光流扩展到特征相关体，大大提高了性能。类似地，Sonet al.[40]建议放宽对准确流量的要求的像素体积然而，这些建立在图像空间操作上的多图像去模糊方法未能利用场景的3D几何形状，并且难以解决具有大基线的多视图输入。3. 初步我们首先回顾静态3D场景的NeRF表示[22]NeRF将场景定义为将3D位置x和2D视图方向d映射到颜色c和体积密度σ的连续体积函数。形式上：（c，σ）=FΘ（γLx（x），γLd（d）），（1）其中FΘ表示具有参数Θ的MLP，并且γL（）是将向量的每个元素映射到更高维频率空间的位置编码：γ （ x ） = sinπx ， cosπx ， . ， sin 2L−1πx ， cos2L−1πxT，（二）过程是平凡可微的。4. 方法我们的任务是用模糊输入训练NeRF培训管道如图所示。二、其核心思想是对模糊过程进行解释性建模，并寻求联合优化尖锐NeRF和模糊参数，以便合成的模糊图像与输入匹配具体来说，为了在训练过程中渲染模糊像素，我们首先使用新提出的可变形稀疏核（DSK）模块生成我们使用NeRF渲染这些光线，并混合结果以获得最终模糊的颜色，然后由模糊输入监督。请注意，在推理阶段，我们可以直接渲染NeRF而无需DSK以获得清晰的新颖视图。我们在下面的小节中描述DSK以及一些其他设计。4.1. 可变形稀疏核类似于大多数图像去模糊算法[2，46]，我们通过将清晰图像与模糊核h进行卷积来对模糊过程进行建模：bp=cph，（4）其中cp是p处的清晰像素的颜色，理想情况下，它也是我们模型中清晰NeRF的输出。Bp是相应的模糊颜色，代表卷积算子。模糊核的支持通常在以p为中心的K K窗口中定义。为了计算bp，我们在窗口内取cp和h这可以在基于地图的图像表示中有效地计算。然而，当CP被建模为NeRF时会出现问题，因为渲染变得相当计算和内存消耗。对于每个像素，都有K×K条光线需要渲染12864ΣΣNNi=0时--N·∗Σ1图2.概述我们的培训框架。当渲染光线时，我们首先基于规范内核及其权重预测N条稀疏优化光线。渲染这些光线后，我们将结果合并以获得模糊的pi x elb。请注意，在测试时，我们可以直接渲染光线，而无需内核变形，从而获得清晰的图像。在支持窗口，从而使培训不可行。因此，我们建议用少量稀疏点来近似密集模糊bp=q∈N（p）wqcq，w.r.t.q∈N（p）wq= 1，（5）其中（p）是稀疏分布在p周围的N个位置的集合，这些位置组成了我们的稀疏内核的支持wq是每个位置处的相应权重。我们将N设置为固定数，并在我们的实验中消除这个超参数（第二节）。（五）。请注意，q是一个连续值，我们可以联合优化位置（p），wq和NeRF，以便回归最佳稀疏核。模糊核在现实世界图像中通常是空间变化受使用MLP作为连续5D函数的NeRF的启发，我们也选择使用MLP来对空间变化的内核进行建模。具体来说，对于每个输入视图，我们分配“规范内核位置”′（p）=q′iN−1，并使用MLP来使位置变形，同时还预测权重：（n_q，w_q）= GΦ（p，q′，l），其中q′∈N ′（p）.（六）这里，GΦ指示具有参数Φ的MLP，并且l是学习的视图嵌入。这种视图嵌入是必要的，因为模糊模式通常在视图之间是不同的。为每个视图优化不同的视图嵌入允许DSK模块为每个视图适配不同的模糊核在我们的实验中，我们将视图嵌入设置为长度为32的向量。我们计算最终的稀疏核位置，图3.自上而下的视图模糊的过程所造成的相机运动和散焦。模糊颜色是从指定在像素处在散焦模糊中，像素的光线在焦平面处散射到不同方向，这相当于从不同相机中心发射的光线的混合。年龄强度物理上更正确的模型应该是 bp=f（c′ph），其中c′表示场景辐照度，f（）是将场景辐照度映射到图像强度的相机响应函数（CRF）。非线性CRF将增加模糊核的复杂性，并且如果等式中的线性模型不适合于DSK，则使得DSK的学习变得困难（4），特别是在高对比度区域[46]。为了补偿非线性CRF，我们假设我们的尖锐NeRF预测线性空间中的颜色，并在最终输出中采用简单的bp=g（wqc′q），（7）q∈N（p）N（p）为q=q′+<$q。请注意，我们需要将其中g（c′）=c′是伽马校正函数。MLPG ΦN次，以获得所有变形位置。一可以潜在地提高性能的选项是通过替换等式中的输入p来向GΦ（6）有γ（p）.但是，我们发现这种操作无助于提高质量。一个可能的原因是空间变化的内核沿着空间位置逐渐变化，而没有高频变化。4.2. 辐照度卷积正如Chenet al. [5]，这种模糊卷积模型应该应用于场景辐照度，而不是IM。二、2更复杂的CRF可以用于模拟真实世界的相机，例如预校准的CRF，或在训练期间联合优化CRF但我们发现这种简单的方案足以补偿成像过程中的非线性，提高成像质量。关于CRF建模的更多讨论可参见补充材料。4.3. 优化射线源卷积模型的一个观察结果是它是实际模糊模型的2D近似。在会议室里-12865NL--2ΣR在传统模型中，模糊结果是相邻像素的组合，所述相邻像素是具有与原点相同的相机中心的相邻光线的渲染结果。然而，实际的模糊过程通常涉及混合从不同来源投射的光线。考虑图1所示的两个模糊过程。3.第三章。当捕捉相机运动模糊时，相机中心在一次拍摄期间移动，从而导致光线原点的改变。对于散焦模糊，光线散射到不同的方向，这相当于来自不同来源的光线的当场景主要是平面时，光线原点的平移可以通过像素位置的2D平移来很好地近似然而，由于视差效应和遮挡，当存在深度不连续性时，情况并非如此。由于我们可以访问3D场景表示，因此我们可以开发考虑光线来源变化的内核。因此，我们共同优化每个稀疏内核位置的射线原点的平移。具体来说，我们共同预测每个内核位置的原点transla- tion如下等式。（六）：（ωoq，ωq，wq）=GΦ（p，q′，l），q′∈ N′（p），（8），然后通过以下步骤生成射线：rq=（o+oq）+tdq，q=q′+ q.（九）这些优化的光线被渲染和组合以获得最终的模糊像素。培训过程概述如下：我们首先预测元组{oq，q，wq}q∈N（p）使用等式：（8），我们用它生成多个优化的射线rqq∈N（p），使规范采样位置变形并如等式（1）中那样优化射线原点（九）、我们渲染这些光线，sparse kernel so that all the optimized rays rq are close到输入射线RP。这是通过乘以一个小的增益为0。1到输出元组（Qq，Qq，Wq）的每个元素。结果，射线原点oq和核点q被初始化为分别接近相机中心和像素位置。在训练开始时，所有我们还引入了一个对齐损失，它迫使一条优化的光线rq与输入光线rp相似：Lalign=q0−p2+λooq02，（11）其中q0是（q）中的固定元素。通过应用align，我们监督q0成为内核的中心。我们在所有实验中都设置λo=10我们的最终损失是NeRF反射损失和对准损失的组合：L=Lreconstruct + λaLalign。（12）在我们的实验中，我们设定λ a= 0。1.一、5. 实验5.1. 实现细节训练我们在NeRF的Pytorch重新实现上构建了我们的可变形稀疏内核[50]。我们使用1024条射线的批量大小，每个样本在粗体积中的64个坐标和细体积中的64个我们设置稀疏位置的数量N= 5。我们使用Adam优化器[12]和默认参数。我们将学习率设置为从5×10−4开始，然后衰减到c′q使用Eq.（3）并混合以获得模糊的pix elb图像，使用当量（七）、这个合成的模糊像素是由核心监督的按比例为8×10−5 在优化的粗糙度上。响应地面实况像素颜色bgt：Lreconstruct=bp−bgt2，（10）p∈R其中是每个批次中的像素集。请注意，我们的管道仅在培训期间使用。在测试时，我们可以直接使用恢复的尖锐NeRF与伽马校正渲染尖锐的结果。4.4. 调整NeRF如实验所示，如果我们自由地优化所有可学习的组件，即，NeRF和可变形稀疏核，重建的NeRF可能会经历一些非刚性失真。这与预期一致，因为由NeRF表示的场景和学习的内核一起变形而不影响重建的模糊结果是可能的。然而，这通常是不期望的。为了约束NeRF模型以与观察结果对齐，我们首先初始化可变形12866我们在一台NVIDIA上对每个场景进行20万次迭代V100 GPU。我们采用与原始NeRF [22]相同的FΘ的MLP结构，并且对于GΦ，我们使用具有4个完全连接的隐藏层的MLP，每个层具有64个通道和ReLU激活。我们还添加了一个快捷方式，将第一层连接到最后一层。数据集。在实验中，我们关注两种模糊类型：相机运动模糊和散焦模糊。对于每种类型的模糊，我们使用Blender [6]合成5个我们手动放置多视角摄像头来模拟真实数据捕获。为了渲染具有相机运动模糊的图像，我们随机地扰动相机姿态，然后在每个视图的原始姿态和扰动姿态之间线性地插入姿态。我们从插值的姿势渲染图像，并将它们混合在线性RGB空间中以生成最终的模糊图像。对于散焦模糊，我们使用内置功能来渲染景深图像。我们固定光圈，并在最近和最远深度之间随机选择一个焦平面我们还用10个场景捕捉了20个真实世界的场景对于每种模糊类型进行定性研究。使用的相机12867L|N|散焦PSNR↑ SSIM↑ LPIPS↓ PSNR↑ SSIM↑ LPIPS↓ PSNR↑ SSIM↑ LPIPS↓ PSNR↑ SSIM↑ LPIPS↓ PSNR↑ SSIM↑ LPIPS↓工厂公司简介POOL鱼形目T型滚轮AVerage摄像机运动PSNR↑ SSIM↑ LPIPS↓ PSNR↑ SSIM↑ LPIPS↓ PSNR↑ SSIM↑ LPIPS↓ PSNR↑ SSIM↑ LPIPS↓ PSNR↑ SSIM↑ LPIPS↓ PSNR↑SSIM ↑LPIPS↓不含伽马射线不对齐w/o originopt.Ours不含伽马射线25.92.8170 .157931.18 .9078 .055629.9728.0030.2130.52.8095.7481.8172.8246.2082.2078.2023.190125.0024.86二十五块七十五二十六点二十五.8172.8149.84440.8517.1299.1021.1104099524.3724.50二十四点八十二分二十五点一八.7819.7977.80140.8067.1680.1292.1590.143627.2926.28二十八点十三分.8267.8048点八四七七.1439.1286.1313不对齐26.31.8051 .149327.76.8583.0545无原点选择28.00.8584 .134431.85 .91730.0506我们28.03.8628 .1127 31.85.9175048128.37 .8527 .1188表1.我们的方法在合成场景中的消融。我们分别报告两种模糊类型的数值结果：相机运动模糊和散焦模糊。我们用颜色将每一行标记为最好和第二好。(a) w/ogamma（b）w/o align（c）w/o origin opt.（d）我们的（e）地面实况图4.合成场景中的消融示例。相应的误差图在底部可视化，其中较暗的区域指示较小的误差。我们的完整模型具有最小的误差，尤其是在边缘。注意红色框中突出显示的伪影图5.使用不同数量的内核点比较我们的完整模型。垂直的绿线表示N=5，我们在其他实验中使用。是一个佳能EOS RP与手动曝光模式。我们通过在曝光期间手动摇动相机来捕获相机运动模糊图像，而参考图像使用三脚架拍摄。为了捕获散焦图像，我们选择大光圈。我们使用COLMAP [36，37]计算真实世界场景中模糊和参考图像的相机姿势。虽然从COLMAP估计的姿势可能是模糊的，由于模糊，我们发现我们的方法是不准确的姿势鲁棒性一个原因是优化射线源补偿了配准误差。5.2. 消融研究主要组成部分的有效性。我们首先对框架中的几个组件进行消融：伽马校正（w/o伽马），射线原点优化（w/o原点优化），以及对准损失（w/o对准）。我们单独删除这些组件，并在每个合成相机运动模糊和散焦模糊数据集中训练单独的NeRF我们报告了合成新视图和地面真实新视图之间的PSNR、SSIM和LPIPS [55]指标。如Tab.所示。1，总体而言，使用完整模型时达到最佳效果。我们在图中可视化了两个示例的结果和误差图。4.第一章我们注意到，其他方法存在较大的误差，特别是在对象的边界处。没有对齐，NeRF产生了尖锐但错位的新观点。内核点数。在我们的方法中，一个重要的超参数是稀疏位置的数量N =（p）.我们在各种模糊情况下用完整模型试验了不同的N模糊类型和三个模糊度我们在图中绘制PSNR和SSIM曲线。五、我们注意到，在所有情况下，结果的质量随着N的增加而提高。然而，超过N= 5，改善就不那散焦模糊摄影机运动模糊23.27 0.6908.321024.95 0.7419.278029.86 0.8964.056425.53 0.8032.063631.29 0.86350.133927.45 点七三八九点一四四三25.50 0.8211.147224.77 0.8086.128225.44 0.8071.151324.71 0.8036.132427.07 0.8158.162025.48 0.7792.149325.29.7657.282731.86 0.9244.047931.64 0.8691.121626.20.8475.152325.53.8199.177428.11 0.8453.156412868么显著了。如果12869工厂公司简介POOL鱼形目T型滚轮AVerage摄像机运动PSNR↑ SSIM↑ LPIPS↓ PSNR↑ SSIM↑ LPIPS↓ PSNR↑ SSIM↑ LPIPS↓ PSNR↑ SSIM↑ LPIPS↓ PSNR↑ SSIM↑ LPIPS↓ PSNR↑SSIM ↑LPIPS↓NeRF MPR +NeRF PVD +NeRF我们散焦PSNR↑ SSIM↑ LPIPS↓ PSNR↑ SSIM↑ LPIPS↓ PSNR↑ SSIM↑ LPIPS↓ PSNR↑ SSIM↑ LPIPS↓ PSNR↑ SSIM↑ LPIPS↓ PSNR↑ SSIM↑LPIPS↓19.32 0.4563.530425.66 0.7941.228830.45 0.8354.193222.22 0.6807.365321.25 .6370.363323.78 0.6807.336221.70 0.6153.309427.88 0.8502.115330.64 .8385.164122.71.7199.250922.64.7141.234425.11 .7476.214820.33 0.5386.366727.74 0.8296.145127.56 0.7626.214823.44.7293.254223.81.7351.256724.58 0.7190.247525.60 0.7750.268732.08 0.9261.047731.61 0.8682.124627.11 0.8640.122827.45 0.8632.136328.77 0.8593.1400幼稚NeRF25.36.7847 .235130.03 .8926 .088527.77 .7266 .334023.80 .7811 .214222.67 .7103 .279925.93 .7791 .2303KPAC + NeRF26.40.8194 .162428.15 .8592 .081526.69 .6589 .263124.81 .8147 .163923.42 .7495 .215525.89 .7803.1773我们二十八点三七0.8527 .1188二十八点零三分.8628 .1127三十一点八五0.9175 048130.52 .8246 .1901二十六点二十五0.8517 0995二十五点一八0.8067 .1436表2.两种模糊类型合成场景的定量比较。我们用颜色将每一行标记为最佳和次佳NeRF MPR + NeRF PVD + NeRF我们的参考图6.真实世界相机运动模糊的定性比较捕获最后一列仅供参考，并且可能与地面实况不对齐。输入是非常模糊的，进一步增加核点的数量可能会有所帮助。然而，增加N会在训练期间带来更大的计算和内存成本。因此，我们在所有其他实验中使用N=5，在渲染质量和效率之间提供良好的平衡。5.3. 比较由于没有现有的作品，试图重建的NeRF从模糊的输入新颖的视图合成，我们仔细选择了几个可能的基线进行比较。最直接的方法是使用模糊输入（naiveNeRF）直接训练NeRF此外，我们还比较了图像空间基线，首先使用现有的基于图像或视频的去模糊技术恢复输入对于相机运动模糊，我们将其与当前最先进的单幅图像去模糊方法进行比较[52]（MPR + NeRF）和视频[40]（PVD + NeRF）。对于散焦模糊，我们与KPAC [39]（KPAC + NeRF）进行比较。我们在Tab中显示了合成场景的定量结果。二、对于真实场景，由于捕获的性质，地面实况图像由于相机运动模糊的未对准或散焦模糊的曝光变化而不可用我们可以看到，虽然图像空间去模糊基线与朴素NeRF基线相比有所改善，但我们的完整流水线在两种模糊类型的合成场景中在很大程度上优于这些基线。基于视频的去模糊方法PVD + NeRF有时比基于单图像的方法MPR + NeRF执行得更差。一个可能的原因是PVD + NeRF基于光流聚合来自相邻帧的特征，这对于具有大基线的模糊输入确实具有挑战性图图6和图7分别示出了我们的方法产生了具有锐利边缘和丰富细节的新颖视图，12870Naive NeRF KPAC + NeRF我们的参考图7.真实世界散焦模糊的定性比较最后一列仅供参考，可能未对齐或与地面实况有不同的曝光。最接近地面真相。先前的方法展示了对象边界附近的伪影和模糊的纹理。与其他方法相比，我们预测的深度图也更清晰。此外，我们的方法可以产生更多的视图一致的结果比其他基线。并在补充资料中提供了与视频输出相结合的广告效果。6. 讨论和结论6.1. 为什么我们的框架有效盲目地恢复清晰的NeRF和仅具有模糊图像的模糊内核模拟是不适定的问题，因为NeRF还可以重建可以“解释”模糊图像的模糊场景那么我们的框架是如何确保我们得到一个清晰的NeRF的呢？如NeRF++ [54]中所示，NeRF编码先验以用于视图一致性重建。当模糊输入是视图不一致时，我们的框架使用DSK模块补偿不一致性注意，如果模糊输入等同于一个模糊3D场景的清晰观察，则现实世界中的模糊通常是不一致的。由于相机移动的随机性或焦距的可变性，每个镜头都有不同的模糊模式。这可以通过以下事实进一步验证：当朴素NeRF重建真实场景数据集时，当视点改变时，结果严重闪烁我们的框架解决了这个问题这在现实世界的数据中很常见。6.2. 限制当模糊是视图一致时，我们的方法可能失败，例如，照相机在所有视图上以大致相同的方向一致地抖动，或者照相机具有固定的焦点（即，专注于单一目标）。去模糊一致的模糊，可以潜在地解决通过引入图像先验，这是我们作为未来的工作。当遇到严重模糊的输入图像时，我们的方法也可能但在实验中我们发现这只是在非常模糊的情况下的假设.有关此类限制的进一步讨论，请参阅补充材料。6.3. 结论在本文中，我们提出了一个简单但有效的框架，用于在模糊输入下训练尖锐的NeRF。合成和真实世界场景的实验验证了我们的框架的有效性，并证明了显着的改善质量比天真NeRF和图像空间去模糊方法。我们希望这项工作将进一步推动对基于NeRF的去模糊应用方法的研究。鸣谢。香港科技大学和香港城市大学的作者部分获得香港研究资助局（研资局）的资助，包括研资局资助金9048148（城大21209119）项下的“早期就业计划”。12871引用[1] Jonathan T Barron，Ben Mildenhall，Matthew Tancik，Peter Hedman ， Ricardo Martin-Brualla ， and Pratul PSrinivasan. Mip-nerf：抗混叠神经辐射场的多尺度表示。arXiv预印本arXiv：2103.13415，2021。2[2] Patrizio Campisi和Karen Egiazarian 盲图像反卷积：理论与应用。CRC Press，2017. 二、三[3] 艾扬·查克拉巴蒂盲运动去模糊的神经方法。在BastianLeibe，Jiri Matas，Nicu Sebe和Max Welling，编辑，计算机视觉施普林格国际出版社. 3[4] Tony F Chan和Chiu-Kwong Wong。全变分盲反卷积。IEEE图像处理学报，7（3）：370-375，1998年。2[5] Xiaogang Chen，Feng Li，Jie Yang，and Jingyi Yu.图像去模糊中摄像机响应函数的理论分析。欧洲计算机视觉会议，第333-346页。Springer，2012. 4[6] Blender在线社区。Blender -3D建模和渲染软件包。Blender基金会，Stichting Blender基金会，阿姆斯特丹，2018。5[7] Peter Hedman ， Pratul P Srinivasan ， Ben Mildenhall，Jonathan T Barron，and Paul Debevec.烘焙神经辐射场用于实时视图合成。arXiv预印本arXiv：2103.14645，2021。2[8] 黄欣、张琦、冯颖、李宏东、王轩、王庆。Hdr-nerf：高动态范围神经辐射场。 arXiv 预印本 arXiv ：2111.14451，2021。2[9] Tae Hyun Kim和Kyoung Mu Lee。动态场景的广义视频去模糊。在IEEE计算机视觉和模式识别会议论文集，第5426-5434页，2015年。3[10] Tae Hyun Kim，Kyoung Mu Lee，Bernhard Scholkopf，and Michael Hirsch.基于动态时间混合网络的在线视频去模糊。在IEEE国际计算机视觉会议集，第40383[11] Yoonwoo Jeong 、 Seokjun Ahn 、 Christopher Choy 、Anima Anandkumar、Minsu Cho和Jaesik Park。自校准神经辐射场。在IEEE/CVF国际计算机视觉会议论文集，第5846- 5854页2[12] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。5[13] Dilip Krishnan、Terence Tay和Rob Fergus。使用归一化稀疏性度量的盲去卷积。见CVPR 2011，第233-240页。IEEE，2011年。2[14] OrestKupyn、VolodymyrBudzan、MykolaMykhailych 、 DmytroMishkin 和 Jiˇr´ıMatas 。Deflurgan：使用条件对抗网络进行盲运动去模糊。在IEEE计算机视觉和模式识别会议论文集，第8183-8192页，2018年。3[15] Junyong Lee 、 Hyeongseok Son 、 Jaesung Rim 、Sunghyun Cho和Seungyong Lee。迭代滤波自适应网络用于单个图像散焦去模糊。In Proceedings ofIEEE/CVF计算机视觉和模式识别会议，第2034-2042页，2021年。3[16] Anat Levin利用图像统计量进行盲运动去模糊。神经信息处理系统进展，19：841-848，2006。3[17] Dongxu Li ，Chenchen Xu，Kaihao Zhang，Xin Yu ，Yiran Zhong ， Wenqi Ren ， Hanna Suominen ， andHongdong Li. Arvo：学习视频去模糊的全范围体积对应。在IEEE/CVF计算机视觉和模式识别会议论文集，第77213[18] Zhengqi Li，Simon Niklaus，Noah Snavely，and OliverWang.神经场景流场用于动态场景的时空视图合成在IEEE/CVF计算机视觉和模式识别会议论文集，第6498-6508页2[19] 林振轩，马伟秋，安东尼奥·托拉尔巴，西蒙·露西。呕吐：束调节神经辐射场。 arXiv 预印本 arXiv ：2104.06405，2021。2[20] Ricardo Martin-Brualla 、 Noha Radwan 、 Mehdi SMSajjadi、Jonathan T Barron、Alexey Dosovitskiy和DanielDuck-worth。Nerf在野外：神经辐射场用于非受控的照片收集。在IEEE/CVF计算机视觉和模式识别会议论文集，第7210-7219页，2021年。2[21] Quan Meng，Anpei Chen，Haimin Luo，Minye Wu，Hao Su，Lan Xu，Xuming He，and Jingyi Yu. Gnerf：基于Gan的神经辐射场，无需设置摄像头。arXiv预印本arXiv：2103.15606，2021。2[22] Ben Mildenhall，Pratul P Srinivasan，Matthew Tancik，Jonathan T Barron ， Ravi Ramamoorthi ， and Ren Ng.Nerf：将场景表示为用于视图合成的神经辐射场。欧洲计算机视觉会议，第405-421页。Springer，2020年。一、二、三、五[23] Seungjun Nah，Tae Hyun Kim，and Kyoung Mu Lee.深度多尺度卷积神经网络动态场景去模糊。在IEEE计算机视觉和模式识别会议论文集，第3883-3891页3[24] Seungjun Nah，Sanghyun Son，and Kyoung Mu Lee.用于视频去模糊的具有帧内迭代的回流神经网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第8102-8111页3[25] Michael Niemeyer和Andreas Geiger。Giraffe：将场景表示为合成生成神经特征场。在IEEE/CVF计算机视觉和模式识别会议论文集，第11453-11464页，2021年。2[26] Mehdi Noroozi，Paramanand Chandramouli，and PaoloFavaro.运动去模糊在野外。在德国的模式识别，65-77页。Springer，2017. 3[27] 潘金山，白浩然，唐金辉。使用时间锐度先验的级联深度视频去模糊在IEEE/CVF计算机视觉和模式识别会议论文集，第3043-30

下载后可阅读完整内容，剩余1页未读，立即下载