没有合适的资源?快使用搜索试试~ 我知道了~
通用光度立体网络: 解决任意照明变化下恢复表面法线图的问题
12591使用全局照明上下文的通用光度立体网络池畑聪国家信息学研究所sikehata@nii.ac.jp猫头鹰(20张图片)苹果(21张图片)罐头和木材(18张图片)天狗(18张图片)图1.给定物体在不同光照条件下的图像,我们的方法可以恢复详细的表面法线图。在室内自然照明下,通过具有移动手持灯的智能手机相机捕获图像详情请参见第5.3节。摘要本文提出了一种新的光度立体任务,称为通用光度立体。与假定特定物理照明模型的现有任务不同;因此,极大地限制了它们的可用性,该任务的解决方案算法应该在任意照明变化下对具有不同形状和材料的对象起作用,而不假定任何特定模型。为了解决这个极具挑战性的任务,我们提出了一个纯粹的数据驱动的方法,它消除了照明的先验假设,取代了重新制定的物理照明参数与提取的通用照明表示,命名为全球照明环境。我们使用它们作为校准的光度立体网络中的照明参数,以像素方式恢复表面法线向量。为了使我们的网络适应各种形状,材料和照明,它在一个新的合成数据集上进行训练,该数据集模拟了野外物体的外观。我们的方法进行了比较,与其他国家的最先进的未校准的光度立体方法对我们的测试数据,以证明我们的方法的意义1. 介绍光度立体是一个从物体在不同光照条件下的外观恢复表面法线贴图的问题几十年来,已经提出了一系列广泛的技术来扩大目标几何形状、材料和采集设置的范围[15,23,24,42],基于物理的逆向绘制框架。最近,深度学习的进步已经消除了对来自光度立体方法的基于物理的建模的依赖,这有助于处理难以以抽象易处理的形式描述的复杂光学现象[12,21,39,44]。然而,尽管在这一研究领域的漫长旅程,每个光度立体算法仍然限于一个特定的物理照明模型,这严重影响了其可用性。实际上,最新的(半)校准[11,21,39,40,44]和未校准[12,27]光度立体方法仍然假设黑暗环境中的单一照明。其他解决自然光照条件,但是校准和未校准的方法仍然假设凸朗伯表面,其照明模型仅限于球谐照明[8,17]、主太阳照明[6,20]和等效定向照明[16,36],无法表示复杂照明。为了解决这个问题,本文提出了我们将其命名为通用光度立体(UniPS),其表示没有物理照明模型的先前假设的设置;因此,应考虑任意照明条件,这与考虑表1中的特定照明条件的校准和未校准任务不同。1[1]如果这项任务在材料上也具有普遍性,那就再理想不过了然而,由于一些物体,如镜子和透明物体必须排除在外,我们认为只有照明条件是普遍的,在这项任务。编码留声机(20张图片)12592表1.不同光度立体任务的比较。校准任务与校准任务几乎相同,除了照明校准光照模型照明条件照明参数未知。直到最近,大多数未校准的光度立体算法都假设已校准要求要求特定未校准自由要求特定普遍自由自由任意在本文中,我们基于以下关键见解提出了UniPS的第一个可行方法传统的未校准的光度立体算法恢复物理照明参数和表面法线顺序或同时,因此,由特定的照明模型的约束。然而,我们表明,物理照明参数的恢复在UniPS网络中并不是必不可少的,并且可以通过与其他图像的交互来从单个图像中提取全局照明上下文为了保持我们的网络的感受野恒定,上下文是在预定义的正则分辨率,这是独立的输入图像分辨率提取。通过使用像校准的照明参数这样的全局照明上下文,可以类似于现有的逐像素校准的光度立体网络(例如,[21,22]),它很容易扩展到高分辨率图像。虽然我们的网络放弃了照明的先验假设,但它对不同形状,材料和照明的适应必须通过训练数据来确保。由于现有的照片度量立体网络的训练数据集仅限于单一的定向照明设置,因此我们通过使用高质量的商业3-D资产物理渲染具有超过10,000种形状,材料和照明组合的对象的外观来创建用于我们任务的数据集。我们还使用不同的资产创建了一个具有50组属性的评估数据集,以将我们的方法与专门为定向照明[12]和自然照明[17,36]设计的最先进的未校准光度立体算法进行比较。最后,定性评估表明,我们的方法甚至适用于传统上被认为是棘手的具有挑战性的空间变化的照明条件下的真实对象(见图11)。1)。2. 相关工作本文简要介绍了定向光和自然光下的由于篇幅所限,其他类别(如校准设置[21-然而,我们强调,所有的方法或多或少假设任何物理照明模式,因此,仅限于特定的照明设置。未校准的定向照明:自Woodham [46]在1980年提出第一个朗伯光度立体uncal-朗伯可积曲面,目标是解决几何和光之间的一般Bas-Relief模糊性[18]。采用各种线索来解决这种模糊性,其中包括相互反射[13],表面熵[7],颜色分布[41],漫射最大值[14],反射对称[47]和透视几何[37]。虽然有非常少的方法,非朗伯曲面由于其不适定的性质,卢等。[35]利用强度分布的统计分布来恢复各向同性的非朗伯表面。2018年,第一个用于未校准光度立体的深度神经网络被提出[11]。然而,它简单地从同时呈现的校准变体中删除了照明通道,并且性能相当有限。因此,作者将他们的工作扩展到两步方法[10],其中首先仅恢复照明信息,然后将其用作校准的光度立体网络的输入。后来,作者进一步更新了他们的工作,将表面法线估计结果反馈给照明预测,以提高其准确性[12]。在这项工作的基础上,Kayaet al.[27]最近利用了[12]的照明预测结果来恢复神经逆绘制框架中的表面法线。未校准,自然照明:虽然大多数照片度量立体方法假设单向照明条件,但存在一些文献,其中涉及自然照明条件。然而,在逆渲染框架中逆分解非朗伯表面上反射的自然光是容易的,因此通常采用凸朗伯表面和近似照明模型[8,9,16,17,36]。Barsri等人提出了第一个自然光照下的无标定光度立体算法。[8]其将自然照明近似为全局一阶球面谐波。尽管由于使用正射相机的照明近似,估计的表面法线中存在全局凹凸模糊性,但Brahimi等人。[9]最近证明了透视可积性约束使问题适定性。Mo等人[36]提出了另一种自然光照下的无标定光度立体算法他们提出了等效方向照明模型,将整个任务分解为逐块方向未校准的光度立体问题。这项工作后来被作者扩展,其中引入了基于MRF的全局优化和旋转平均,以获得更好的正常贴片集成[16]。这些方法都是在正射相机下进行的,但在求解具有可积性的全局正交模糊度时,存在一个二元模糊度,需要人工求解,并且不能恢复不可积曲面12593输入逐像素采样调整大小1/11/41/81/161/32编码器(标准分辨率)例如256x256解码器(原始分辨率)例如512x512融合64x64通信特征提取调整大小全球照明环境64x64聚集输出融合逐像素采样输入B图2.所提出方法的说明。给定任意数量的图像裁剪(例如,该图中的两个),它们被调整大小到标准分辨率,并被传递到编码器以提取全局照明环境。然后,对于原始图像中的每个像素,原始图像值和内插的全局照明上下文被级联以被馈送到解码器,该解码器聚合照明轴上的特征并恢复该位置处的表面法向量。在理论上。为了解决这个问题,Haefneret al. [17]提出了一种变分方法,该方法直接恢复深度图而不是表面法线图来处理不可积表面。然而,该方法需要基本上从对象轮廓恢复的初始几何形状,并且其性能受其质量的严重影响。3. 通用光度立体在本节中,我们初步定义了UniPS问题设置。给定q个RGB图像I{1,.,q},以及用于指定图像中的目标对象的二进制掩模M,我们的目标是在属于对象的像素处恢复单位表面法向量n。使用任何现有的前地提取方法(例如[43])友好地提供对象掩模。UniPSUniPS中的主要困难是由于缺乏照明的先验知识,这使得在特定物理照明模型下设计的大多数现有的在UniPS中,照明条件可以包括近距离或远距离、方向性、点、区域、自然或甚至它们的混合(例如:如图1所示,将有源近区灯置于无源自然光下)。很可能的是,照明是空间变化的,这不能由全局照明模型表示例如,在大多数室内自然场景中可能就是这种情况[30]。在一般情况下,甚至相互反射和投射阴影也可以是空间变化照明的一部分。由于UniPS的最终目标是实现真正的实践,在光学光度立体方法中,可用的几何形状和材料(除了极端情况,例如透明和完美的镜面物体)也应该是多样的,并且输入图像的数量及其分辨率应该是任意的。虽然接受任意数量的输入图像被认为是一个重要的要求,在最近的作品(例如,[11,21,44]),但仍有一些方法不符合这一要求(例如,[31])。可伸缩性基本上不是逐像素算法的问题(例如,[21,24]),但它经常成为使用整个图像信息的方法中的主要问题,例如卷积神经网络和全局优化(例如,[12,36])。4. 方法4.1. UniPS网络与全球照明环境本文提出了第一个可行的通用光度立体网络。如图2所示,我们的网络由编码器和解码器组成。编码器从图像和对象掩模中提取全局照明上下文,对象掩模是对 应 于 物 理 照 明 参 数 ( 例 如 , 光 方 向 ) 在 深uncalibrated光度立体网络[10,12]。解码器在每个像素处获取所有原始图像值和内插的全局照明上下文,并预测其表面法线。我们的网络架构与以单个图像作为输入的基本编码器-解码器架构有两个主要区别首先,我们的网络需要多个图像作为输入;因此,考虑到它们之间的相互作用,因此,我们分别在编码器和解码器中执行其次,与编码特征直接传递到解码器的典型架构不同,我们为编码器和解码器使用不同的工作分辨率。解码器的工作分辨率与原始图像分辨率相同,但编码器将已调整大小为预定义的规范分辨率的图像作为输入,该规范分辨率基本上小于原始分辨率,并且其输出在针对解码器的工作分辨率进行逆转换之后被传递到解码器使用不同的工作分辨率有两个主要优点首先,保证了图像大小的可伸缩性,因为编码器的存储器要求仅取决于规范分辨率,而不是原始分辨率,而解码器逐个处理每个像素。第二个也是更重要的原因是保持编码器的感受野对输入图像大小不变。如果没有这一点,网络4.2. 框架组件预处理:在不同的光照条件下,单个图像的像素值范围会有很大的变化在那里-12594∈SGSG∈FSFS通信FsFSFS通信Fs(a) 没有通讯(b)在特征ex. (c)融合前(d)融合后图3.关于图像间通信的定时的编码器的四个不同变型的图示。因此,我们将每个图像按其均值进行划分以进行归一化。注意,不使用常见的零均值归一化来避免强调低信噪比的区域。然后,我们裁剪矩形对象边界区域与一个小的利润(例如,四个像素),以确认对象被放置在裁剪的中间并且从边缘到边缘被覆盖。编码器:预处理的图像和掩模的裁剪是双线性调整到预定义的s×s标准分辨率。 然后,它们被级联C{1,.,q}Rs×s×(3+1)并传递到编码器。编码器的输出是单个图像的嵌入特征,其大小为四分之一。全局照明上下文{1,...,q}((x)),并输出该位置处的单位法向量。这里,是使用双线性插值来获取与x对应的全局照明上下文的值的采样操作。注意,避免将全局照明上下文的大小调整为原始分辨率也有助于可缩放性。解码器由特征聚合和曲面法线恢复两部分组成。前者通过额外的Transformer层进一步在不同的照明条件下传播信息,然后通过多头注意力(PMA)[28]压缩照明通道。PMA的输出是独立于输入图像的数量的逐像素特征向量后者将特征馈送到具有一个隐藏层的多层感知器以输出表面法向量。我们应该注意,当如图3所示在编码器中没有进行通信时,可以认为全局照明上下文已经在解码器中的聚合步骤处被训练损失:地面实况和预测的表面法线之间的均方误差被用作训练损失。由于效率,我们只计算损失Ss典范归结之三{1,…,q}R4×4×de其中de是嵌入维数。我们称之为全局光照背景,因为图像之间的特征差异只能归因于光照条件的差异。全局照明上下文也是类似地由常规未校准的光度立体方法恢复的物理照明参数然而,不同的物理参数基本上是全局分配给每个图像的(例如,光方向[10]、球面谐波[17]),在每个位置处分配唯一的全局照明上下文(因此我们将上下文命名为"s“);因此具有表示空间变化现象的能力,编码器通过逐图像特征提取和图像间特征通信相互嵌 入 全 局 照 明 上 下 文 。 前 者 使 用 主 干 ( 例 如 ,SwinTransformer [32]),然后是基本的多尺度特征融合[48]。后者通过像素方式采用单个Transformer层[45]在图像上传播特征,而不改变特征尺寸,如最近校准的摄影立体网络[22]。如图3所示,根据信息如何经由图像间/图像内交互传播,存在编码器的多种可行设计。最佳设计将在第5.1节的消融研究中讨论。事实证明,特征通信应该在多尺度特征融合之前进行(即,融合前)。有关特征提取和通信的个别实现的更多详细信息,请参阅补充资料。解码器:对于原始分辨率的每个坐标x,解码器输入一组图像值I{1,.,q}(x)和来自特定位置的样本,而不是来自整个图像。对于每个对象,我们均匀采样像素在原始分辨率的中心可以被精确地投影到中心的像素在规范的分辨率。然后,我们进一步从有限数量的随机位置(例如,2500),其允许利用子像素全局照明上下文的正常估计。网络分析:我们的方法是数据驱动的;因此满足了UniPS的要求这是通过全局照明上下文来实现的,这消除了对物理照明参数恢复的需要,并且使得我们的方法能够处理复杂的空间变化的照明效果。我们的框架是可扩展的,通过引入用于编码全局照明上下文的规范分辨率和逐像素地应用解码器。网络的感受野与输入图像大小无关,测试图像大小也没有上限。通过利用图像间特征交互的自注意机制,只要计算资源允许,该网络可应用于任意数量的考虑到这种能力,不同形状、材料和照明的可用性通过训练数据来保证。4.3. PS-Wild训练数据集我们需要足够的训练样本来正确地表征通用的光度立体任务。虽然两个主要的合成光度立体数据集(即。Blobby和Sculpture [11],CyclesPS [21]),它们用于单向照明下的方法因此,我们提出了一个新的光度立体数据集,命名为PS-Wild,模拟-12595×××在野外的各种光照条件下,使用不同的几何形状和材料来模拟物体的外观这个想法是简单地要求一个基于物理的渲染器(即。Blender Cycles [2])在一般照明下合成大量图像,充分利用高质量的商业3-D资产。为了为我们的PS-Wild数据集组装适当的对象外观集合,我们浏览了在线市场,寻找满足三个主要需求的3D资产首先,我们应该使用具有足够复杂性的3-D模型我们太多的平面对象或低多边形模型是不够的)。其次,我们希望三维材料尽可能多样化。在我们的问题中,我们此外,纹理需要现实。在现有的合成数据集中,整个图像是用单个BRDF [11]或像素上不同的随机BRDF [21,33]渲染的,但实际表面纹理具有一些现实的规则,如以前的研究[7,15]所述。因此,值得使用由专业人士设计的纹理贴图。第三,我们希望在不同的光照条件下渲染场景。在这方面,我们发现最实用的方法是使用覆盖各种室内和室外场景的基于HDR图像(HDRI)的照明。要添加更多细节,此方法使用HDR环境贴图来放置全向光源。每一束光线在照射到物体表面之前都会被自我屏蔽,因此可以产生各种空间变化的照明效果(例如:投射阴影、近照明)进行烘焙。基于这些需求,我们选择Adobe Stock [1]作为我们的资产来创建训练数据集。该集合包含超过17,000个3D资产,包括3D模型,材质(纹理贴图)和灯光(环境贴图)。从所有可用的资产中,我们下载了410个3D模型,926个材料和31个照明。Adobe Stock资产中的大多数数据都是3D模型,我们实际上使用了我们访问时(2021年10月)可用的所有资产本身的数量可能看起来不是很大,但实际上,可以通过各种增强技术(如旋转和颜色变换)合成无数数量的图像。在获得3-D资产后,我们应用我们的计算流水线来生成具有地面真实表面正常映射的图像。对于资产中的每个3D对象,我们随机分配一个材质和一个环境贴图。然后,我们应用几个随机旋转的对象,直到它的表面正常分布的香农熵变得超过一个阈值(即。4.0),并且如果最大熵小于阈值,则从资产中丢弃3D模型。然后,我们缩放对象,以确保对象我们提供10的512 512,每个对象的16位图像。对于每一次渲染,我们在球面轴上随机旋转环境贴图,使光照条件发生变化,并自动调整相机曝光,使渲染图像的动态范围保持一致。我们打开光线跟踪器来渲染投射阴影和相互反射,以添加空间变化的照明效果。最后,我们得到了10,099个具有不同姿势,材质和照明的对象。4.4. PS-Wild测试数据集我们还创建了一个测试数据集用于评估目的。生成图像的计算管道与训练数据集的计算管道相同,但不同的3-D资产用于公平评估;来自CGTrader的25个对象[3] , 来 自 ShareTextures 的 50 个 材 料 [4] 和 来 自 sIBLArchive的 50个环境地图[5]。对于每个3-D模型,我们分配两组材料和环境贴图,从而产生50组不同的对象、材料和环境贴图。不像训练数据集,我们仔细挑选六个纹理每个纹理类别;混凝土,织物,地板,地面,木材和金属分类在ShareTextures。为了在各种照明条件下正确评估方法的性能,我们使用三种不同的照明方法为同一组对象和材料渲染图像;(a)单向照明(均匀采样),(b)HDRI照明(与训练相同)和(c)(a)和(b)的混合图像分辨率也是512 512,但图像数量是32,以评估不同数量输入图像的性能。数据集分析:我们的测试数据集的特点,普遍的光度立体任务。具有凸和非凸几何形状的物体以及各种空间变化材料(包括漫射、镜面反射和金属)用三种不同的照明方法渲染,包括HDRI照明,其表现出具有挑战性的空间变化照明效果。因此,假设特定物理照明模型的方法不适用于此数据集。5. 结果我们进行实验的合成和真实的测试数据。我们首先消除了我们的架构的重要设计元素,然后我们比较了所提出的通用照片测量立体网络与以前的未校准光度测量立体任务的最新技术[10,17,36]。为了方便起见,我们在下文中根据需要将所提出的方法训练细节:我们的网络是在带有AdamW [ 34 ]优化器的NVIDIA Quadro RTX 8000机器上从头开始训练的,使用步长衰减学习率计划(0. 每三个时期8个)。批量大小为3,初始学习率为0.0001,权重衰减为0.0512596×××××× ××{G} ∈{G}∈表2.比较不同的图像特征提取器。[49]第49话:我的世界定向人的发展指数直接+人的发展指数表4.与不同的标准分辨率进行比较。128×128 256×256 512×512定向19.919.7不适用人类发展指数18.1 16.8直接+人类发展指数17.016.1不适用表3.不同编码器设计的比较。延长期基础预融合。 融合后。定向19.722.517.025.6人的发展指数直接+人的发展指数表5.空间变化与统一的全局照明环境。空间变化的定向19.740.5(trival)HDRI16.840.5(普通)直接+ HDRI16.140.5(平凡)表6. 比较不同的特征聚合方法。最大池TF+PMA(3L)TF+PMA(6L)定向人的发展指数直接+人的发展指数用了原始分辨率的随机样本数量固定为2500。总的来说,为每个配置训练网络大约需要48小时。推理时间:我们的方法的推理时间取决于输入图像的数量和分辨率。在512 512个图像中的32个作为输入的情况下,不包括GPU上的IO,它需要不到几秒钟的时间。这比更简单的深度光度立体网络(例如,0的情况。[10]中的5秒),然而比基于反向渲染的方法效率高出百倍[17,27,36,44]。评估指标:评估基于预测和真实表面法线图之间的平均角度误差(MAE),以度(0至180)为单位测量。在我们的评估中,我们将每种算法应用于具有三种不同照明方法的PS-Wild测试数据集,并主要基于50个不同对象的平均MAE来讨论结果。5.1. 消融研究基础架构:根据需要,我们使用以下设计元素定义消融研究的基础架构:SwinTransformer[32]用于特征提取;编码器中无通信;256 256规范分辨率;三个堆栈的转换器层,随后是解码器中的特征聚合PMA;在消融中,仅目标属性从该基础架构更改。编码器:表2显示了四种不同图像特征提取器的比较:SwinTransformer [32] , Vision- Longformer [49] 和ResNet-50/101 [19]。我们观察到基于transformer的编码器,特别是SwinTransformer,可能是由于Transformer模型的接收域更大而优于ResNets。因为这项工作的主要目的是提出一个可行的方法来证明我们的想法,进一步的讨论仍然是未来的工作。表3比较了该特性的四种不同变体通信;在图像特征提取期间(Dur-Ext)、在多尺度融合之前(Pre-Fus)和在多尺度融合之后(Post-Fus),编码器(Base)中没有通信,如图3所示。如前所述,当通信在多尺度融合之前完成时,获得了最佳性能有趣的是,第二个最好的是当没有通信的图像之间进行了编码器,但只有在解码器。我们对此结果进行了分析,发现图像特征提取过程中的通信简单地破坏了特征提取过程,而融合后的通信则使优化变得不稳定,因为它相当于在解码过程中增加了Transformer层,这与后来的结果是一致的。表4比较了128 128或256 256的不同规范分辨率,我们观察到256 256的效果略好。这一结果表明,虽然较低的分辨率有助于看到整个对象,但在非常低的分辨率下可能会丢弃细节的重要信息另一方面,令人惊讶地看到,来自128 × 128规范分辨率的32 × 32全局照明上下文仍然提供了用于512 × 512输出分辨率的合理重构。很不幸,我们512×512标准分辨率,由于内存限制。最后,我们通过应用全局平均池化将Rs ×s×de缩小到uniR1×1×de并将空间上相同的向量馈送到解码器,将我们的空间变化的全局照明上下文与空间均匀的实际上,这是现有未校准的光度立体网络[10,27]中的类似过程,其中首先为每个图像恢复单个照明参数并用作表面法线预测器的输入。然而,表5表明,具有统一上下文的网络总是提供平凡的解决方案,因为它捕捉空间变化的照明效果。解码器:我们比较了来自最大池化的逐像素特征聚合策略的三种不同变体,即具有PMA的三个Transformer层和具有PMA的六个Transformer层;我们越向右走,理论上可以发生越请注意,Transformer层中的潜在向量大小固定为384,12597定向GTOursGCNet MPM变量环境GTOursGCNet MPM变量方向+环境GTOursGCNet MPM变量表7.不同数量的输入图像(我们的,预融合)。表8.与其他方法比较(融合前)。人的发展指数直接+人的发展指数人的发展指数直接+人的发展指数ObjectID=18,seamless_concrete_48(目录)ObjectID=37,爆炸蓝色(环境)ObjectID=31,black_metal_2(方向+ Env.)图4.我们比较了我们的方法与三个未校准的光度立体方法专门设计的单向照明(即。GCNet [10])和自然照明(即,MPM [36]和Variational [17])在我们的合成PS-Wild测试数据集上进行测试。有三种不同的照明方法;定向,HDRI(以及它们的混合。基于以度为单位的平均角度误差来评估性能。我们展示了数据集中的示例和恢复的表面法线映射/错误映射(最大80度前馈层的隐藏维数是1024。结果如表6所示。尽管简单的最大池根本不起作用并不令人惊讶应该注意的是,已知Transformer网络是难以训练的网络,并且仔细调整超参数可能会产生不同的结果。不同数量的输入图像:在表7中,我们用不同数量的输入图像评估了我们的网络(基础+预融合)。正如预期的那样,随着输入图像数量的减少,准确度下降。然而,与现有的校准和未校准的光度立体方法不同,这些方法已经被证明10)[10,21],我们的方法的下降程度并不十分显著。5.2. PS-Wild测试数据的定量评价我们将我们的方法与我们的合成测试数据集上的未校准光度立体问题的最新技术进行了比较。第一个比较点是GCNet [12],这是一种在定向照明条件下基于学习的方法第二点是基于矩阵的补丁合并(MPM)[36],这是基于等效定向照明模型的用于未校准自然光的朗伯光度立体方法。的第三点是变分未校准的光度立体方法(变分)[17],其通过球谐展开近似朗伯反射模型。我们使用作者结果如图4和表82所示。我们观察到,我们的UniPS-GLC合理地独立于照明方法工作。正如预期的那样,GCNet [10]在定向照明条件下(例如,ID 48),然而,不均匀的材料和非定向照明的问题。总体而言,MPM [36]和Vari- ational [17]由于其凸朗伯曲面的假设,对于不同的对象,其性能劣于GCNet。特别是,MPM在处理空间变化的非朗伯纹理或非凸几何形状(例如,ID 37)和变分在处理非朗伯反射方面也有问题,特别是对于金属表面(例如,ID 31)。有趣的是,对于相同形状和材料的物体,我们的方法在环境照明下比定向照明下观察到更好的性能这一结果可以归因于以下事实:在定向照明条件下的图像中,阴影或互反射表现为负面的,而在环境光下,它们积极地产生作为信息源的2补充资料中提供了各个对象的输入图像和恢复的法线图1481632我们[10]第36话:你是谁?[17个]定向35.422.618.817.517.0定向17.017.7 32.9 33.012598×(b)第(1)款(c)第(1)款(d)其他事项葡萄(18张图片)(a)我们(d)变分金属彩绘球(24张图片)(d)变分(a)(b)第(1)款(c)第(1)款(d)其他事项幸运猫(17张图片)(a)我们(d)变分碗(16张图片)(a)我们(b)GCNet(c)MPM(d)变分(d)其他事项(c)第(1)款(b)第(1)款(一)(c)MPM(b)GCNet(c)MPM(b)GCNet(a)我们(d)其他事项(c)第(1)款(b)第(1)款(一)(c)MPM(b)GCNet(一)图5.在具有挑战性的空间变化光照条件下对真实图像进行定量比较所有的图像都是用移动近区光源和静态室内自然照明捕获的。前景对象已使用对象遮罩裁剪5.3. 真实数据图1验证了我们的方法(基础+预融合)的真实图像。不同材料的物体,如陶瓷,金属和透明涂层,由8位智能手机摄像头在几个手持区域灯和/或室内自然照明下捕获。区域光源被故意放置在物体的30 cm内,以便观察到强烈的空间变化的照明效果。虽然定量评估是不可能的,由于缺乏地面真相,我们观察到,整体合理的正常地图被重新覆盖,即使在这些极具挑战性的设置。我们还观察到,GLiCo的非常低的分辨率(即,64 64)足以恢复表面细节。为了进行更客观的评估,图5提供了GCNet、MPM和Variational的比较。图像是在静态室内自然光照条件下通过在物体附近放置单个区域光来捕获的;因此,不能用物理照明模型(如定向照明或球谐函数)来表示。我们挑选了四个不同难度的物体,包括两个Grapes和Metallic Painted Spheres),以便可以基于法线贴图的球形部分来评估法线贴图的质量。葡萄因其非凸的几何形状而呈现复杂的铸造阴影。金属涂层球体由四个表面粗糙度和结构不同的金属涂层球体组成,这些球体之间具有强烈的相互反射。幸运猫包含大的从阴影中猜出来碗是将多个具有挑战性的物体放在一个碗中,这是很难解决的凹凸歧义。我们强调,这些都是非常困难的对象,现有的光度立体方法甚至没有试图处理它们。虽然我们的结果还远未达到完美(即,我们清楚地观察到我们的结果中的误差,这是由于金属涂层球体中的相互反射和碗中的凸几何形状),我们的方法明显地恢复了最合理的表面法线映射。6. 结论本文提出了一种新的光度立体任务,称为通用光度立体(UniPS),它放弃了物理照明模型的先验假设为此,我们提出了第一个可行的UniPS网络的基础上通用照明表示命名为全球照明上下文。我们还为我们的UniPS任务提供了合成训练和评估数据集,我们的广泛评估证明了我们方法的性能。尽管在实用的光度立体方法方面取得了重大进展,但仍然存在一些局限性。首先,缺少对全局照明上下文的更深入分析。探索其在地表法线恢复以外的应用潜力其次,我们的训练方法指定了一个相机模型(例如,正交、线性相机),并且我们可能还想要去除这种依赖性。最后,我们需要一个真实的数据集,以更定量的方式评估UniPS方法。12599引用[1] Adobe Stock. https://stock.adobe.com/网站。5[2] 搅拌机https://www.blender.org/网站。5[3] CGTrader. https://www.cgtrader.com/网站。5[4] 共享纹理。https://www. 共享纹理。com/.5[5] Archive.http://www.hdrlabs.com/sibl/archive.html。5[6] J. Ackermann,F.Langguth,S.Fuhrmann和M.Goesele户外网络摄像头的光度立体声。CVPR,2012。1[7] N. Alldrin,S. Mallick和D.克里格曼用熵最小化方法解决广义浅浮雕模糊问题CVPR,2007年。 二、五[8] Ronen Basri,David Jacobs,and Ira Kemelmacher.普通的 , 未 知 的 灯 光 。 International Journal of ComputerVision,72(3):239-257,2007。一、二[9] MohammedBrahimi , Y vainQue' au , BjoernHaefner ,andDaniel Cremers.一般照明下未标定的摄影立体声系统的 适 定 性 在 AdvancesinPho-tometric3D-Reconstruction,第147Springer,2020年。2[10] G. Chen,K.汉湾Shi,Y. Matsushita和K. K. K.黄。自校准深度光度立体网络。2019年IEEE/CVF计算机视觉和模式识别会议(CVPR),第8731-8739页二三四五六七[11] G. Chen,K.汉和K-Y。K.黄。Ps-fcn:一个灵活的光度立体学习框架。ECCV,2018年。一、二、三、四、五[12] Guanying Chen,Michael Waechter,Boxin Shi,Kwan-Yee K Wong,and Yasuyuki Matsushita.在深度未校准的光度立体中学到了什么?欧洲计算机视觉会议,第745Springer,2020年。一、二、三、七[13] 关于dˇrejDrbohl a v和RadimSˇa´ra。镜面反射降低了未校准的光度立体的模糊性。ECCV,第46-60页,2002年。2[14] P. Favaro和T.帕帕希米特里一个封闭的形式解决方案,以未校准的光度立体通过漫射最大值。CVPR,2012。2[15] D.戈德曼湾Curless,A. Hertzmann和S.塞茨来自光度立体 的形 状和 空 间变 化brdfs 。 InICCV , October 2005.一、五[16] 郭恒,莫志鹏,施博信,卢峰,赛杰勇,谭平,松下康之.自然光照下基于块的IEEE Transactions on PatternAnalysis and Machine Intelligence,第1-1页,2021年。一、二[17] BjoernHaefner,Zhenzhang Ye,Maolin Gao,Tao Wu,Yvain Qu e'au,andDanielCr e mers. 普通照明下的可变未校准的摄影第8539-8548页一、二、三、四、五、六、七[18] H. 早 川 任 意 运 动 光 源 下 的 光 度 立 体 。 JOSA , 11(11):3079-3089,1994. 2[19] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年。6[20] YannickHold-Geoffroy ,PauloGotardo,andJean-FrancoisLalonde. 单 日 户 外 光 度 立 体 声 。 IEEEtransactionsonpatternanalysisandmachineintelligence,43(6):2062-2074,2019。1[21] S.池畑Cnn-ps:用于一般非凸表面的基于Cnn的光度立体。在ECCV,2018。一、二、三、四、五、七[22] S.池畑Ps-transformer:使用自注意机制学习稀疏光度立体网络。在BMVC,2021年。二、四[23] S. Ikehata和K.相泽一般各向同性表面使用约束双变量回归的CVPR,2014。一、二[24] S. Ikehata,D. Wipf,Y. Matsushita和K.相泽使用稀疏回归的鲁棒光度立体。CVPR,2012。一、二、三[25] S. Ikehata,D. Wipf,Y. Matsushita和K.相泽一般漫射表面使用稀疏贝叶斯回归的摄影立体。IEEE TPAMI,36(9):1816-1831,2014年。2[26] 岩堀雄二、杉枝秀纯、石井直弘。点光源照明下阴影图像的形状重建载于ICPR,第1卷,第83-87页。IEEE,1990年。2[27] Berk Kaya,Suryansh Kumar,Carlos Oliveira,VittorioFer- rari,and Luc Van Gool.一般表面光度立体的无标定神经逆绘制。第3804- 3814页一、二、六[28] J.李,Y. Lee,J. Kim,A. Kosiorek,S. Choi和Y. W.茶Set Transformer:一个基于注意力的置换不变神经网络框架。在ICML,第3744-3753页,2019年。4[29] Min Li , Zhenglong Zhou , Zhe Wu , Boxin Shi ,Changyu Diao,and Ping Tan.多视图光度立体:空间变化各向同性材料的鲁棒解决方案和基准数据集。IEEETransactions on Image Processing , 29 : 4159-4173 ,2020。2[30] Zhengqin Li,Mohammad Shafiei,Ravi Ramamoorthi,Kalyan Sunkavalli,and Manmohan Chandraker.复杂室内场景的逆在CVPR中,第2475-2484页,2020年。3[31] Daniel Lichy , Jiaye Wu , Soumyadip Sengupta , andDavid W Jacobs.在家里捕捉形状和材料在CVPR中,第61233[32] Ze Liu,Yutong Lin,Yue Cao,Han Hu,Yixuan Wei,Zheng Zhang , Stephen Lin , and Baining Guo. SwinTransformer:使用移动窗口的分层视觉Transformer。ICCV,2021。四、六[33] Fotios Logothetis , Rumas Budvytis , Roberto Mecca ,and Roberto Cipolla. Px-net:光度立体网络的简单高效的逐像素训练。在CVPR中,第12757-12766页,2021年。5[34] 伊利亚·罗希洛夫和弗兰克·哈特。解耦权重衰减正则化。2019. 512600[35] Feng Lu , Yasuyuki Matsushita , Imari Sato , Taka
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- OptiX传输试题与SDH基础知识
- C++Builder函数详解与应用
- Linux shell (bash) 文件与字符串比较运算符详解
- Adam Gawne-Cain解读英文版WKT格式与常见投影标准
- dos命令详解:基础操作与网络测试必备
- Windows 蓝屏代码解析与处理指南
- PSoC CY8C24533在电动自行车控制器设计中的应用
- PHP整合FCKeditor网页编辑器教程
- Java Swing计算器源码示例:初学者入门教程
- Eclipse平台上的可视化开发:使用VEP与SWT
- 软件工程CASE工具实践指南
- AIX LVM详解:网络存储架构与管理
- 递归算法解析:文件系统、XML与树图
- 使用Struts2与MySQL构建Web登录验证教程
- PHP5 CLI模式:用PHP编写Shell脚本教程
- MyBatis与Spring完美整合:1.0.0-RC3详解
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功