没有合适的资源?快使用搜索试试~ 我知道了~
16190黑暗中的NeRF:从嘈杂的原始图像合成高动态范围视图本·米尔登霍尔·彼得·海德曼·里卡多·马丁-布鲁阿拉·普拉图尔·P。Srinivasan Jonathan T. 巴伦谷歌研究摘要神经辐射场(NeRF)是一种从一组摆姿势的输入图像中合成高质量新视图的技术。像大多数视图合成方法一样,NeRF使用色调映射的低动态范围(LDR)作为输入;这些图像已经由有损照相机流水线处理,该有损照相机流水线平滑细节、剪辑高光、并且使原始传感器数据的简单噪声分布失真。我们修改NeRF,直接在线性原始图像上训练,保留场景的全动态范围。通过从所得到的NeRF渲染原始输出图像,我们可以执行新的高动态范围(HDR)视图合成任务。除了改变相机视点,我们还可以在事后操纵焦点、曝光和色调映射虽然单个原始图像看起来比后期图像明显更嘈杂(a) 重建烛光场景(b) 原始输入图像噪声(c) RawNeRF效果图结果表明,NeRF对噪声的零均值分布具有很强的鲁棒性当在许多噪声原始输入(25-200)上进行优化时,NeRF产生的场景表示非常准确,以至于其渲染的新颖视图优于在相同宽基线输入图像上运行的专用单图像和多图像深度原始去噪器。因此,我们的方法,我们称之为RawNeRF,可以从在近黑暗中捕获的极其嘈杂的图像中重建场景。1. 介绍视图合成方法,例如神经辐射场(NeRF)[39],通常使用色调映射的低动态范围(LDR)图像作为输入,并直接重建和渲染LDR空间中场景的新视图这对于光线充足且不包含大的亮度变化的场景没有问题,因为它们可以使用单个固定的相机曝光设置以最小的噪声捕获。然而,这排除了许多常见的捕获场景:在夜间或在除了最亮的室内空间之外的任何空间中拍摄的图像将具有差的信噪比,并且具有日光和阴影区域的场景具有需要高动态范围(HDR)来精确表示的极端对比度。我们的方法,RawNeRF,修改NeRF重建场景中的线性HDR颜色空间直接监督嘈杂的原始输入图像。这就绕过了有损的后置处理,(d) 改变视点、焦点、曝光和色调映射图1.通过在许多输入图像上联合优化单个场景表示,NeRF对高水平的图像噪声具有惊人的鲁棒性。我们利用这一事实直接在完全未经处理的HDR线性原始图像上训练RawNeRF。在这个只有一支蜡烛照亮的夜间场景中(a),RawNeRF可以从嘈杂的原始数据中提取细节,这些数据本来会被后处理破坏(b,c)。RawNeRF可恢复完整的HDR颜色信息,支持HDR视图合成任务,例如更改焦点和曝光以渲染新视图。由此产生的渲染可以像任何原始照片一样进行修饰:在这里,我们示出了(d,左)具有简单全局色调图的暗全聚焦曝光和(d,右)由HDRNet后处理的较亮的合成重聚焦曝光[18]。查看我们的补充视频了解更多结果。处理摄像机应用于压缩动态范围和平滑噪声,以产生视觉上可口的8位JPEG。通过保留原始输入的全动态范围,RawNeRF实现了各种新颖的HDR视图合成任务。我们可以修改应用于渲染输出的曝光水平和色调映射算法,甚至可以创建具有在失焦光源周围精确渲染的散景效果的合成重聚焦图像除了这些视图合成应用程序,我们表明,直接对原始数据进行训练,有效地将Raw-NeRF转换为能够重建的多图像去噪器16191⇥Noisy img. NeRF RawNeRF全动态范围Noisy img. NeRF RawNeRF黑电平Noisy img.NeRFRawNeRFNoisyimg.NeRFRawNeRF(a) 全RawNeRF输出0.0 0.5 1.02.04.08.016.0亮度(b) 亮区:RawNeRF保留亮点-0.04-0.020.000.02零 点零四分亮度(c) 暗区:RawNeRF避免偏倚图2. NeRF在白天室内场景的故障模式。(a)在这里,我们展示了完整RawNeRF输出渲染的两次曝光(相隔24次),两者都通过全局色调映射曲线。与之前的工作一样,用后处理的LDR图像训练NeRF,(b)防止它恢复在1处剪切的明亮高光,导致车窗外丢失汽车,(c)破坏每像素噪声分布,使得NeRF由于非线性色调图和在0处剪切而恢复不正确的颜色,特别是在植物和沙发周围的黑暗区域相比之下,RawNeRF直接在HDR线性原始图像上训练,并正确恢复场景中极亮和极暗部分的辐射分布在近黑暗中拍摄的场景(图1)。标准照相机后处理流水线(例如,HDR+ [21])破坏了原始数据的简单噪声分布,引入了显著的偏差,以减少方差并产生可接受的输出图像。因此,将这些图像输入NeRF会产生带有不正确颜色的有偏重建,特别是在场景的最暗区域(示例见图2)。相反,我们利用NeRF与典型的视频或突发图像去噪方法不同,RawNeRF假设静态场景并期望相机姿势作为输入。有了这些额外的限制,RawNeRF能够利用3D多视图一致性来同时平均几乎所有输入帧的信息。由于我们捕获的每个场景包含25-200个输入图像,这意味着RawNeRF可以比前馈单个或多个图像去噪网络(每个输出仅使用1-5个输入图像)去除更多的噪声。总之,我们做出以下贡献:1. 我们提出了一种直接在原始图像上训练RawNeRF的方法,该方法可以处理高动态范围场景以及在黑暗中捕获的噪声输入。2. 我们表明,RawNeRF在嘈杂的真实和合成数据集上优于NeRF,并且是宽基线静态场景的有竞争力的多图像去噪器。3. 我们展示了新颖的视图合成应用程序,使我们的线性HDR场景表示(不同的曝光,色调映射和焦点)成为可能。2. 相关工作RawNeRF结合了几个研究领域的概念。我们将NeRF作为高质量视图合成的基准,从低级别图像处理中引入想法,直接在有噪声的原始数据上优化NeRF,从计算机图形和计算摄影中使用HDR中获得灵感,展示HDR场景重建所带来的新应用。我们简要介绍了这些领域的相关前期工作2.1. 一种新的视图合成方法新颖视图合成是使用一组输入图像及其相机姿态来重建能够渲染新颖视图的场景表示当输入图像被密集采样时,可以在像素空间中使用直接插值进行视图合成[20,33]。更可行的捕获方案是捕获更宽间隔的输入并使用一个重建的三角形网格)来重新投影和组合来自输入图像的颜色,使用启发式[6]或学习的[22,42,43]混合函数。最近将深度学习应用于视图合成的工作集中在体积而不是基于网格的场景表示[16,36,57]。NeRF [39]直接优化神经体积场景表示,以使用渲染损失的梯度下降来匹配所有输入图像。各种扩展提高了NeRF到目前为止,还没有方法将NeRF扩展到与高动态范围颜色数据一起工作。使用LDR数据训练的一些先前视图合成方法联合求解每图像缩放因子,以考虑相机之间的不一致照明或误校准[29,36]。ADOP [44]监督LDR图像,并通过可微分色调映射步骤解决曝光问题,以近似恢复HDR,但不关注对噪声的鲁棒性或对原始数据的监督。2.2. 去噪早期的神经去噪方法主要集中在对被加性分布(对数尺度)分布(线性标度)16192⇥白高斯噪声[54]。在2017年,Pl oütz和Roth[41]建立了一个真实的原始图像去噪基准,该基准表明这些深度去噪器未能在训练期间使用的合成数据之外进行推广,并且被标准的非学习方法(如BM 3D [11])所超越。随后对单图像[5,9]和多图像[8,19,38,53]去噪的工作证明了训练网络直接对噪声原始输入数据进行操作的好处。现代手机摄像头管道在原始域中对多个噪声输入帧进行鲁棒平均[21],但由于速度和功率限制,它们通常无法另一项研究调查了当没有相应的干净的地面真相存在时,是否可以只使用噪声数据来训练Noise2Noise[32]证明,给定同一图像的独立噪声观测对的数据集,这是可能的,这是Ehret等人的见解。[14]应用于通过对齐连续的噪声帧来对视频进行Noise2Noise的各种后续行动提出了修改后的网络架构,允许使用单个噪声图像的数据集进行监督[4,30,31]。Sheth等人[46]表明,这种范例可以应用于使用单个噪声视频来训练去噪器,包括对原始视频数据的应用。类似地,RawNeRF在单组图像上进行优化,以去除噪声并恢复所捕获场景的3D结构。Pearlet al的并行工作。[40]修改了前馈IBRNet视图合成方法[49],以实现有竞争力的突发去噪结果;该方法对于每个新场景更快地产生结果,但是由于存储器限制,只能处理有限数量的输入图像(每个输出像素)。2.3. 原始和HDR图像数据计算摄影直接处理原始数据的价值早已被数字摄影师所注意,因为它保留了动态范围,允许最大的后处理灵活性,让用户在事后修改曝光、白平衡和色调映射许多工作尝试通过使用自动化或机器学习来自动化该过程,以直接从原始数据映射到后处理的LDR图像[7,9,18,23]。另一种工作集中于从LDR输入恢复HDR这个概念是由Debevec和Malik [12]开创的,他们使用一堆在不同曝光下拍摄的对齐的LDR图像来恢复和反转相机的非线性响应曲线。目前的方法应用机器学习从单个[15]或多个未对齐的[24] LDR输入产生HDR输出,恢复或在剪辑的高光中产生幻觉细节。合成散焦许多现代手机包括一个后处理选项,以添加合成散焦模糊后捕获[48]。虽然可以使用薄镜头模型[10]或使用光线跟踪的真实多元件相机镜头[28]准确地模拟散焦,但大多数机器学习模型使用更快的近似渲染模型,预测深度图并将深度变化模糊内核应用于每个离散深度层[2,47]。在HDR空间中执行这种模糊对于实现散焦明亮高光(称为“散景”)的正确外观至关重要[55]。3. 噪声原始输入数据NeRF [39]将后处理的低动态范围(LDR)sRGB颜色空间图像作为输入。这在使用干净、无噪声的图像时效果很好,而且对比度最小然而,所有真实图像都包含一定程度的噪声,并且相机后处理管道中的每个步骤都以某种方式破坏这种分布在这里,我们简要地列出了与我们的方法相关的简化的流水线阶段(完整的相机流水线的完整描述可以在最近的工作中找到[13,26])。原始相机测量当拍摄图像时,撞击相机传感器上像素的光子数被转换为电荷,并记录为高位深数字信号(通常为10至14位)。这些值通过“黑电平”偏移,以允许由于噪声而导致的负测量。在黑电平减法之后,信号是与在快门打开时到达的光子的预期数量成比例的量xi的噪声测量yi该噪声由光子到达是泊松过程的物理事实(“散粒”噪声)和将模拟电信号转换为数字值的读出电路中的噪声(“读取”噪声)两者引起组合的激发和读取噪声分布可以被很好地建模为高斯分布,其方差是下式的仿射函数:其均值[17];重要的是,这意味着误差yi-xi的分布为零均值。彩色相机在图像传感器前面包含一个拜耳彩色滤光片阵列,因此每个像素像素颜色值通常排列在2 × 2个正方形中,包含两个绿色像素,一个红色像素和一个蓝色像素(称为拜耳模式),导致为了生成全分辨率彩色图像,使用去马赛克算法对缺失的颜色通道进行插值[34]。这种插值在空间上关联噪声,并且马赛克的棋盘图案导致交替像素中的不同噪声水平。颜色校正和白平衡不同相机的每个滤色器元件的光谱响应曲线不同,并且颜色校正矩阵用于16193⇥X将图像从该相机特定的颜色空间转换到标准化的颜色空间。另外,因为人类感知对于由不同光源赋予的色彩色调是鲁棒的,所以照相机试图考虑这种色调(即,使白色表面呈现RGB中性白色)。These twosteps are typically combined into a single linear 3 3 matrixtransform, which further correlates the noise betweencolor channels.伽马压缩和色调映射人类能够在图像的暗区域中辨别出与亮区域相比较小的相对差异。sRGB伽马压缩利用了这一事实,其通过裁剪[0,1]之外的值并将非线性曲线应用于信号来优化最终图像编码,该非线性曲线以压缩明亮高光为代价将除了伽马压缩,色调映射算法可以用于在高动态范围场景中更好地保持对比度(其中明亮区域比最暗区域亮几个数量级),当图像被量化为8位时[12,21]。稍微滥用一下术语,我们将在本文的其余部分中将这两个步骤共同称为“色调映射”,指示将线性HDR值映射到非线性LDR空间以进行可视化的过程。我们将把色调映射之前的信号称为高动态范围(HDR),而把色调映射之后的信号称为低动态范围(LDR)。在所有后处理操作中,色调映射对噪声分布的影响最大:限幅完全丢弃最亮和最暗区域中的信息,并且在非线性色调映射曲线之后,噪声不再保证为高斯或甚至为零均值。4. RawNeRF神经辐射场(NeRF)[39]是一种基于神经网络的场景表示,经过优化以再现具有已知相机姿势的一组输入图像的外观。然后,所得到的重建可以用于从先前未观察到的姿势渲染新的视图NeRF为了渲染输出图像中的每个像素,NeRF使用体积渲染来组合沿着相应3D射线采样的许多点标准NeRF采用干净的低动态范围(LDR)sRGB颜色空间图像,其值在[0,1]范围内,输入. 将原始HDR图像转换为LDR图像(例如,使用第3)节中描述的管道有两个重要的后果:1. 当值从上方裁剪为1时,明亮区域的细节会丢失,图3.标准NeRF训练流水线(a)接收已通过相机处理流水线发送的LDR图像,重建场景并在LDR颜色空间中渲染新视图。因此,它的渲染实际上已经经过了后期处理,无法进行显著的修饰。相比之下,我们的方法RawNeRF(b)修改NeRF以直接在线性原始HDR输入数据上训练。生成的场景表示会生成新颖的视图,这些视图可以像任何原始照片一样进行编辑。由色调映射曲线压缩并随后量化为8比特。2. 每像素噪声分布在通过非线性色调映射曲线并且从零处的下方被裁剪之后变得有偏(不再是零均值)。RawNeRF的目标是利用这些信息而不是丢弃它们,直接在HDR颜色空间中的线性原始输入数据上优化NeRF(图3)。在第5节中,我们将展示在原始空间中重建NeRF首先,我们详细介绍了NeRF使用原始数据所需的更改。4.1. 损失函数由于HDR图像中的颜色分布可以跨越许多数量级,因此在HDR空间中应用的标准L2损失将完全由明亮区域中的误差主导,并且在色调映射时产生具有低对比度的浑浊暗区域的图像(参见图4)。相反,我们应用更强烈地惩罚暗区域中的错误的损失,以与人类感知如何压缩动态范围相一致实现这一点的一种方式是通过在应用损失之前将渲染的估计强度y和噪声观测强度y两者传递通过色调映射曲线yL(y,y)= ((yi)-(yi))2.(一)我然而,在低光原始图像中,观察到的信号y被零均值噪声严重破坏,并且非线性色调映射将引入改变噪声信号(a)NeRF管道后处理训练NeRF渲染LDR视图(改变观点)(b)RawNeRF管道输入数据(噪声镶嵌线性原始图像)训练RawNeRF渲染HDR视图后处理(改变观点)(改变曝光,和焦点)色调映射)16194⇥X·我不是我我我我我 我我不是全局(sRGB)局部(HDR+)(a) 噪声原始测试图像(b)经过训练的,有L2损失 (c)接受过培训,但有拟议的损失图4. 这个具有挑战性的场景(a)在其第90个和第10个原始颜色之间具有7000的比率。(b)当面对如此高对比度的输入时,NeRF的标准L2损失设法(a) RawNeRF模型使用固定与变化曝光(b) 应用于RawNeRF的全局和局部色调映射在不同的曝光恢复场景的明亮部分,但在较暗的区域产生较差的结果,这在LDR色调映射之后变得特别明显。(c)我们提出的损失(4),根据对数色调图曲线的梯度重新加权,成功地重建了场景的所有部分。两个渲染图像都使用HDR+ [21]进行色调映射以进行可视化。期望值(E[(y)](E[y]))。为了使网络收敛到无偏结果[32],我们使用以下形式的加权L2损失:L(y_i,y)=w_i(y_i-y_i)2。(二)我我们可以通过使用围绕每个y_i的色调曲线v_e_i的线性化来以这种形式近似色调映射损失(1):L_e(y_i,y)=X[x_o(s_g(y_i))(y_i-y)]2,(3)图5.固定的快门速度不足以在亮度变化极大的场景中捕捉完整的动态范围(a)例如,该场景需要可变曝光捕获以避免黑暗室内区域中的质量差或天空强光熄灭。只有使用短曝光和长曝光优化的RawNeRF模型才能恢复完整的动态范围。(b)该亮度变化太高而无法使用简单的全局sRGB伽马曲线在单个图像中可视化,需要更复杂的局部色调映射算法(例如,HDR+后处理[21])。和暗区。这是通过许多数码相机中包含的“包围”模式来解决的我们同样可以利用可变的风险敞口在RawNeRF中(图5)。 给定一系列图像Iii与曝光时间t(以及所有其他捕获参数)其中sg()表示将其自变量视为具有零导数的常数的停止梯度,从而防止其在反向传播期间影响损失梯度。 我们发现,“梯度监督”音调曲线v e f(z)= 10 g(y + f),其中f = 10 - 3产生具有最小伪影的感知高质量结果,这意味着损失加权项f(s g(y f i))=(s g(y f i)+f)- 1,并且最终损失Xyi-yi◆2sg(yi)+保持恒定),我们可以在实践中,我们发现,由于传感器校准错误,仅使用快门速度无法精确调整不同的曝光为了纠正这一点,我们为捕获的图像集中存在的每个唯一快门速度添加了一个学习的每颜色通道缩放因 子 , 我 们 与 NeRF 网 络 一 起 共 同 优 化 。 最 终 的RawNeRF然后来自网络的输出颜色y∈ N是min(y∈C·t ·t∈C,1),其中,c索引颜色通道,并且是学习的尺度。这正好对应于用于对于快门速度ti和通道c的ing因子(我们约束在嘈杂的HDR路径上训练时实现无偏结果Ctmax=1(最长暴露时间)。 我们从上面Noise2Noise中的跟踪数据[32]。该曲线与用于距离压缩的μ律函数成比例在音频处理中,并且先前在监督网络从LDR图像的突发映射到HDR输出时被应用为色调映射功能[24]。4.2. 可变暴露训练在具有非常高的动态范围的场景中,即使是10-14位原始图像也可能不足以捕获明亮的在1处,以说明像素在过曝光中饱和的事实构成的区域。该缩放和削波值被传递到先前描述的损耗(等式4)。4.3. 实现细节我们的实现基于mip-NeRF [3]代码库,其改进了原始NeRF方法中使用的位置编码。有关MLP场景表示和体积表示的详细信息,训练图像快门速度两长短↵L(y,y)=.(四)我16195[9]第五届中国国际汽车工业展览会 RViDeNet [53][第46话]LDR NeRF [3] Un+RawNeRF RawNeRF GT crop Ground truth|3i n { p z uts}|5in{pzuts}|100个输入,exc{luzdingtestimage}|100inputs,ex c{l uzdingtestimag e}图6.来自真实去噪数据集的后处理和颜色对齐补丁示例。RawNeRF在每种情况下都产生最详细的输出。所有深度去噪方法(第2-5列)都接收带噪声的测试图像作为输入,而NeRF变体(第6-8列)执行新的视图合成和去噪。Num.输入原仿射对齐sRGB方法Noisyinput SID[9]未处理[5]RViDeNet [53][第46话]LDR NeRF [3]Un+RawNeRFRawNeRFPSNR“54.38-10.24 0.035 0.73321.620.5250.547二十三点零二分0.4910.489PSNR“SSIM“LPIPS#22.75 0.514零点五零七19.43 0.518 0.5440.5070.50123.53 0.53623.35 0.531-67.9967.2070.6868.2970.80N -1N -1N -1-1135表1.我们将RawNeRF的去噪性能与各种单图像和多图像去噪器以及NeRF消融进行了比较。尽管仅在单个场景上进行优化,甚至从未见过测试视图的噪声版本,但RawNeRF实现了与在大型图像数据集上训练的深度去噪方法竞争的结果RawNeRF还优于在LDR sRGB图像(LDR NeRF)上训练的NeRF和使用“Unprocess”(Un+RawNeRF)对RawNeRF的输入进行降噪的消融绘制算法我们唯一的网络架构更改是将MLP输出颜色的激活函数从S形修改我们使用Adam opti- mizer [27],在所有训练图像中采样16k随机射线,学习率在500k优化步骤中从10-3衰减到10-5我们发现,非常嘈杂的场景受益于regulization损失的体积密度,以防止部分trans-parent我们在体绘制过程中对用于沿着射线累积颜色值的权重分布的方差应用损失;请看sup-请详细说明。由于我们的原始输入数据是镶嵌的,因此每个像素只包含一个颜色值。我们仅将损失应用于每个像素的活动颜色通道,以便优化NeRF有效地对输入图像进行去马赛克。由于任何重新采样步骤都会影响原始噪声分布,因此我们不会对输入进行解失真或降采样,而是使用全分辨率马赛克图像(通常为12MP)进行训练。为了实现这一点,我们使用相机固有的会计产生光线时的径向失真我们使用全分辨率后处理的JPEG图像来计算相机姿势,因为COLMAP [45]不支持原始图像。5. 结果我们目前的结果探索两个后果的监督NeRF与原始HDR数据。首先,我们证明了RawNeRF对高噪声水平具有惊人的鲁棒性,在某种程度上,当应用于静态场景的宽基线图像时,它可以充当有竞争力的多图像去噪器。其次,我们展示了通过恢复保留高动态范围颜色值的场景表示启用的HDR视图合成应用。5.1. 去噪近年来,人们越来越关注开发直接在原始线性域中对图像进行降噪的深度学习方法[5,9]。这项工作已经扩展到包括可以应用于突发图像或视频帧的多图像去噪器[8,46,53]。这些多图像去噪器通常假设存在相对小的16196模拟快门速度(秒)方法噪声输入-23.3319.65十六点零三分12.519.407.1811/71/151/301/601/120 1/240LDRNeRF33.16三十一点二五二十九点十四分二十六点十分22.3118.2714.87帧之间的运动量,但是场景内可能存在大量的对象运动。当附近的帧可以很好地对齐时,这些方法合并来自相似图像块(通常跨越2-8个相邻图像)的信息,以优于单个图像去噪器。相比之下,NeRF(并通过扩展,RawNeRF)优化了与所有输入图像一致的单个场景重建。通过专注于宽基线静态场景并利用3D多视图信息,RawNeRF可以从比典型多图像更宽间隔的输入图像中去噪方法真实数据集我们收集了一个真实世界的去噪数据集,其中包含3个不同的场景,每个场景由101张嘈杂的图像和一张从稳定的长时间曝光中合并的干净参考图像组成。前100张图像是在宽基线上手持拍摄的(标准的前向NeRF拍摄),使用快速快门速度来强调噪音。然后,我们在三脚架上捕获50-100次较长曝光的稳定突发,并使用HDR+ [21]将它们稳健地合并,以创建一个干净的地面实况帧。在原始快快门速度下拍摄的一个额外的三脚架图像用作深度去噪方法的噪声输入“基础帧”。所有图像均使用iPhone X(2017)或iPhone SE(2020)以12MP分辨率使用广角镜头拍摄,并保存为12位原始DNG文件。在表1和图6中,我们将Raw-NeRF的联合视图合成和去噪性能与最近的几种深度单图像和多图像去噪方法进行了比较请注意,所有去噪器都需要测试图像的噪声版本作为输入,而RawNeRF及其消融仅需要其相机姿势。我们专注于我们的比较方法明确设计来处理原始输入图像。Chen等人[9](SID)提出了一个单一的图像降噪器,从原始输入映射到后处理的LDR图像,并在作者收集的噪声原始和干净后处理图像对的大型数据集上进行训练Brooks等人[5](Unprocess)是一种用于在从互联网图像数据集创建的模拟原始数据上训练原始单图像降噪器的方法,该数据集可以很好地转换为真实的原始图像。RViDeNet [53]在Unprocessing风格的合成数据和新的真实原始视频数据集的组合上训练原始视频降噪器Sheth等人[46](UDVD)提出了一种UDVD提供了在RViDeNet的原始视频数据集上专门训练的网络权重。对于所有方法,我们使用公开的代码和预训练的模型权重。我们还比较了我们的方法的两个消融。LDR NeRF表示在LDR中训练(像往常一样)的mip-NeRF [3]模拟快门速度(秒)1/15 1/60 1/240图7.来自表2中使用的合成场景的示例补丁,每个插图都用sRGB PSNR注释。对于完全干净的输入,LDR图像上的训练是优越的,但是对于任何非零数量的噪声,在原始空间中优化NeRF更有利,其中噪声分布保持无偏。表2.我们对具有120张训练图像的合成渲染原始数据集进行了消融研究在这里,我们报告LDR sRGB空间中的PSNR值。通过最小的sRGB色调映射管道对图像进行后处理。“Un+RawNeRF” preprocesses the training images usingthe single image raw denoiser from Brooks [5](所有比较的方法都将镶嵌的原始图像作为输入。每个深度去噪器[5,9,46,53]都使用嘈杂的我们将12位原始输入转换为浮点数,通过使用白色和黑色电平进行归一化。由于每种方法都是在来自不同来源的原始数据上训练的,因此它们会为输出提供不同的色彩。因此,这不会影响metrics,我们计算每个颜色通道的仿射变换,使每个方法的原始输出与地面真实原始图像最佳匹配(例外是SID和LDR NeRF,我们将其sRGB输出与后处理的sRGB地面实况匹配。我们用于可视化和计算sRGB指标的基本后处理管道是应用双线性演示(必要时),执行白平衡/色彩校正,重新调整白电平,裁剪到[0,1],并应用sRGB131岁71三十4019号。5528岁7629岁7612个。3821岁7328岁737 .第一次会议。09十四岁51二十四岁64测试图像RawNeRFLDR NeRF16197(a) 全RawNeRF输出(b) LDR NeRF散焦(c) RawNeRF散焦和曝光变化(d)看到物体背后(e)揭示反射图8.合成散焦示例。在这个夜间花园场景(a)中,LDR NeRF无法准确地渲染散焦的明亮高光,因为它是在已经进行色调映射和裁剪的图像上训练的(b)。RawNeRF恢复光源的线性强度,使得应用散焦模糊产生正确的由于RawNeRF针对宽基线输入的视图合成进行了优化,因此它可以实现单个图像和深度图不可能实现的3D散焦效果,例如通过聚焦在前景推土机后面(d)或聚焦在钢琴键上方反射的书架上(e)来显示背景伽玛曲线详情请参阅补充资料分析尽管同时执行去噪和新视图合成,但我们的方法与所有比较的深度去噪器相比具有竞争力(表1,图6)。我们怀疑多图像去噪器难以利用从宽基线捕获提供的附加帧,因为相机移动大于典型的亚秒突发或视频剪辑。相比之下,RawNeRF,尽管缺乏任何明确学习的图像先验,干净的训练数据,甚至是尽管LDRNeRF被直接训练以最小化sRGB空间中的均方我们还发现,在训练RawNeRF之前对输入应用单个图像去噪器会导致过度平滑的渲染(Un+RawNeRF)。合成噪声消融在表2和图7中,我们展示了噪声水平对RawNeRF图像质量的影响。为了进行训练,我们使用NeRF [39]中的Lego场景渲染120个线性HDR图像,从iPhone捕获的EXIF元数据中借用颜色校正,白平衡和噪声参数来将由于渲染有大量的空白空间,我们通过使用提供的alpha掩码仅报告对象上的sRGB PSNR(否则来自背景像素的错误会严重损害LDR NeRF)。即使在这种合成设置中,不受相机误校准的影响,我们也可以清楚地观察到在后处理的噪声数据上训练LDRNeRF所引起的颜色偏差和细节损失5.2. HDR视图合成应用修改曝光和色调映射图1、图2、图4、图5和图8包括改变由RawNeRF输出的图像的曝光水平和色调映射算法的示例,这些图像存在于线性HDR空间中,并且因此可以像来自数码相机的原始照片那样请参阅我们的补充和视频更多的例子。合成散焦给定场景的完整3D模型,基于物理的渲染器通过跟踪通过每个透镜元件折射的光线来精确地模拟相机透镜散焦效果[28],但这个过程在计算上非常昂贵。一个相当令人信服且便宜得多的解决方案是将变化的模糊内核应用于场景的不同深度层并将它们合成在一起[2,48]。在图8中,我们将此合成散焦渲染模型应用于从训练的RawNeRF模型预先计算的RGBA深度层集合(类似于多平面图像[57])。 如Zhanget al.[55],恢复线性HDR颜色对于在散焦的明亮光源周围实现特征过饱和的“散景球”是至关重要的6. 讨论我们已经证明了直接在线性原始相机图像上训练NeRF的好处。然而,这种修改并非没有权衡。大多数数码相机只能以最小的压缩率以全分辨率保存原始图像,从而在捕获每个场景数十或数百张图像时产生巨大的存储需求。我们的方法还依赖于COLMAP这可能通过联合优化RawNeRF和输入摄像机姿态来解决[35,50]。最后,尽管RawNeRF对噪声具有鲁棒性,但它不能被视为通用降噪器,因为它不能处理场景运动,并且需要比前馈网络多几个数量级的计算。尽管存在这些缺点,但我们相信RawNeRF代表着向强大,高质量的真实世界环境捕获迈出了一步。在具有可变曝光的原始图像上进行训练使我们能够捕获具有更宽动态范围的场景,并且对噪声的鲁棒性使得重建黑暗的夜间捕获成为解除这些限制大大增加了世界上可以侦察的部分结构和探索与照片级真实感视图合成。远焦点近焦点16198引用[1] 本杰明·阿塔尔,艾略特·莱德劳,亚伦·戈卡斯兰,昌吉尔·金,克里斯蒂安·理查德,詹姆斯·汤普金和马修·奥图尔。Tor? rf:用于动态场景视图合成的飞行时间辐射场NeurIPS,34,2021. 2[2] 乔纳森·T.Barron,Andrew Adams,YiChang Shih,andCar-losHer na'ndez. 最 后 的 双 边 空 间 立 体 合 成 散 焦 。CVPR,2015年。三、八[3] 乔纳森·T. Barron,Ben Mildenhall,Matthew Tancik,Pe- ter Hedman ,Ricardo Martin-Brualla,and Pratul P.Srini- vasan。Mip-NeRF:抗混叠神经辐射场的多尺度表示。ICCV,2021年。五、六、七[4] 乔舒亚·巴特森和罗伊克·罗耶Noise2self:通过自我监督进行盲去噪。ICML,2019年。3[5] Tim Brooks , Ben Mildenhall , Tianfan Xue , JiawenChen, Dillon Sharlet,and Jonathan T. 巴伦未 处理图像,用于学习的原始去噪。CVPR,2019年。三六七八[6] Chris Buehler 、 Michael Bosse 、 Leonard McMillan 、Steven Gortler和Michael Cohen。非结构化发光图绘制。SIGGRAPH,2001年。2[7] Vladimi rBychko vsky,Syl vainParis,EricChan,andFre´doDurand.使用输入/输出图像对的数据库学习摄影全局色调调整CVPR,2011年。3[8] Chen Chen,Qifeng Chen,Minh Do,and Vladlen Koltun.在黑暗中看到运动。ICCV,2019。三、六[9] Chen Chen,Qifeng Chen,Jia Xu,and Vladlen Koltun.学会在黑暗中看东西。CVPR,2018年。三六七[10] Robert L.库克,托马斯·波特和洛伦·卡彭特。分布式射线追踪。SIGGRAPH,1984. 3[11] Kostadin Dabov、Alessandro Foi、Vladimir Katkovnik和Karen Egiazarian。稀疏三维变换域协同滤波图像去噪TIP,2007年。3[12] Paul E.德贝维克和吉坦德拉·马利克从照片恢复高动态距离辐射图。SIGGRAPH,1997年。三、四[13] 放大图片作者:Michael S.布朗和佩曼·米兰法。移动计算摄影:旅游. 视觉科学年度评论,2021年。3[14] Thibaud Ehret , Axel Davy , Jean-Michel Morel ,Gabriele Facciolo,and Pablo Arias.通过帧到帧训练的模型盲视频去噪。CVPR,2019年。3[15] Gabriel Eilertsen , Joel Kronander , Gyorgy Denes ,RafaMantiuk和Jonas Unger。使用深cnn从单次曝光重建Hdr图像SIGGRAPH,2017. 3[16] John Flynn,Ivan Neulander,James Philbin,and NoahSnavely. Deepstereo:学习从世界图像中预测新视图。CVPR,2016年。2[17] Alessandro Foi、Mejdi Trimeche、Vladimir Katkovnik和Karen O.埃吉亚扎利安人单幅图像原始数据的实用泊松-高 斯 噪 声 建 模 与 拟 合 IEEE Trans-actions on ImageProcessing,2008. 3[18] Mich aeülGharbi , Ji a wenChen , JonathanTBarron ,SamuelWHasino f f,andFre´ doDurand. 用于实时图像增强的深度双边学习SIGGRAPH,2017. 第1、3条[19] 克莱门特·戈达尔,凯文·马岑,马特·乌滕代尔。深度突发去噪。ECCV,2018年。316199[20] Steven J Gortler、Radek Grzeszczuk、Richard Szeliski和Michael F Cohen。光显仪。SIGGRAPH,第43- 54页,1996年。2[21] 塞缪尔·W.哈辛诺夫,狄龙·夏莱特,瑞安·盖斯,安德鲁·亚当斯,乔纳森·T. Barron,Florian Kainz,JiawenChen,and Marc Levoy.用于移动相机的高动态范围和低光照成像的连拍SIGGRAPH Asia,2016. 二三四五七[22] Peter Hedman,Julien Philip,True Price,Jan-MichaelFrahm,George Drettakis,and Gabriel Brostow.自由视点图像渲染的深度混合。SIGGRAPH Asia,2018. 2[23] 胡 渊 明 , 何 昊 , 徐 晨 曦 , 王 宝 源 , 林 志 颖 。Exposure:一个白盒照片后处理框架。SIGGRAPH,2018. 3[24] Nima Khademi Kalantari和Ravi Ramamoorthi。动态场景的深度SIGGRAPH,36(4),2017. 三、五[25] Jun-Yan Zhu Kangle Deng , Andrew Liu , DevaRamanan.深度监督nerf:更少的观看和更快的免费培训。arXiv:2107.02791,2021。2[26] Hakki Can Karaimer和Michael Brown。一个软件平台,用于操纵相机成像流水线.第9905卷,第429-444页,2016年10月。3[27] Diederik P. Kingma和Jimmy Ba。Adam:随机最佳化的方法。ICLR,2015年。6[28] 克雷格·科尔布唐·米切尔和帕特·汉拉汉计算机图形学中的真实感相机模型。SIGGRAPH,1995. 三、八[29] Geor giosKopanas,JulienPhilip,ThomasLeim k
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功