没有合适的资源?快使用搜索试试~ 我知道了~
�1 940一个光照不变的点处理器用于阴影0Kathryn Heal Jialiang Wang Steven J. Gortler Todd Zickler 哈佛大学0{kathrynheal@g, jialiangwang@g, sjg@cs, zickler@seas}.harvard.edu0摘要0在传统的漫反射模型下,对于未知方向光照,与单个图像点的强度空间导数一致的二次曲面形状集合是嵌入在五维二次曲面空间中的二维代数多样性。我们描述了这个多样性的几何特征,并引入了一个简洁的前馈模型,它可以根据任何单个图像点处的强度及其导数计算出多样性的显式、可微的近似值。结果是一个并行处理器,它在每个图像点上运行,并产生一个与该点上连续的兼容表面形状的光照不变描述符。我们描述了这个处理器的两个应用:两次未校准的光度立体和二次曲面形状从阴影中恢复。01. 引言0图像I(x, y)中一个漫反射的曲面(例如,具有高度函数f(x,y)的曲面)的阴影变化会引起对曲面形状的感知。在机器中模仿这种感知能力被称为从阴影中恢复“形状”。在某些特殊情况下,已经存在用于从已知光源的强度和位置(apriori)或以某种方式准确推断出形状的技术。这些技术可以理解为使用一个连接的二维图像“点处理器”阵列,其中每个点处理器读取单个图像点的强度I,并根据已知或估计的光照条件计算该点上与之兼容的局部形状的中间数值表示,包括该点上的一组(或概率密度)局部表面方向{(f x, fy)}。每个中间的每点方向集合本身都是模糊的,但是当点处理器阵列连接在一起时(通过强制表面连续性并包括附加的视觉线索,如遮挡轮廓或自上而下的语义),可以开始恢复0→0x0y0x y0图1. 与图像导数I = (I, I x, I y, I xx, I xy, Iyy)在一个图像点(黑色圆圈,左侧)一致的局部二阶曲面形状集合{(f x, f y, f xx, f xy, fyy)}满足三个多项式方程。零点(即多样性)是二维的,并在此处投影到三个维度(f xx, f xy, fyy)。多样性的每个元素都是一个局部形状(其中四个被标出),它在某个光照方向下产生图像导数。我们证明对于任何非退化的I,二维多样性都有四个同构分量(在此示例中以颜色标出),并且可以通过一对耦合的浅层神经网络进行高效近似。0从几乎五十年来来看,形状从阴影中恢复的主导范式是通过函数f(x,y)来实现的[10],但是这远远不能令人满意。尽管经过半个世纪的研究,它仍然对非理想性非常敏感,并且很少在没有人工标注者的大量帮助下部署,这些标注者首先需要在图像中指示遮挡轮廓或提供相关漫反射表面区域的分割。这种脆弱性的一个原因是,光照通常在表面上是不均匀的,由于自阴影和其他物理效应。这使得很难推断每个图像点的光照条件,进而扭曲了基于重建的每个点的方向集合{(f x, fy)}。此外,即使光照在表面上是均匀的,由于固有的数学模糊性,也很难从图像中推断出场景主要光源的真实位置和强度[3]。相比之下,单眼人类视觉950尽管在推断光照方面表现不佳,但在感知漫反射阴影形状方面似乎表现良好,至少在这些模糊性方面表现良好。本文介绍了一种用于阴影的点处理器,可以帮助解决这些缺陷,提供对形状的每个点的约束,而无需了解光照。处理器的输入是一个测量,包括一个点处强度的空间导数向量,用I := (I,Ix, Iy, Ixx, Ixy,Iyy)表示,Koenderink的2-阶导数[11]。处理器的内部结构是一对耦合的浅层神经网络,处理器的输出是一个连续的兼容局部二阶形状集合F(I)的紧凑表示,形式为参数化的二维流形在R5中。处理器提供有用的每点约束,因为尽管有许多兼容的形状F(I),但绝大多数形状都被排除在外。我们的主要贡献是对Lambertian阴影进行代数分析,为点处理器的内部结构和输出格式提供基础。具体来说,我们证明了兼容的局部二阶形状集合F(I)包含在三个多项式方程的零集中,即包含在R5中的二维代数多样性中。我们展示了这个多样性的特殊属性允许通过从R2到R3的函数来以显式形式表示它,而这个函数可以通过一对耦合的浅层神经网络高效地近似。这个点处理器最重要的特性是它在“光照不变”意义上是不变的,即输出形状集合F(I)始终包括真实的局部二阶形状,无论表面如何照明。这意味着虽然来自不同方向的照明的表面通常会在一个点产生不同的测量I,并且这些不同的图像测量将进一步产生不同的形状集合F(I),但所有预测的形状集合都将包括该点的真实二阶形状。作为使用点处理器进行图像分析的示例,我们描述了两种情景,其中每个点的内在二维形状模糊F(I)可以通过利用额外的约束或信息减少为离散的四种选择。一种情景是非校准的两次拍摄光度立体,其中输入是在两个未知光照方向下的表面的两个图像。另一种情况是二次阴影形状,其中输入是一个在扩展区域上是二次的形状的单个图像。我们使用合成图像演示了这些情况,将鲁棒算法的开发和在捕获的照片上的部署留给将来的工作。在本文中,我们假设一个参考框架,使得我们的测量是某个多项式函数的图形。我们将这些局部表面高度和图像值表示为它们系数的向量-应用Monge-Taylor映射-忽略fxx对fx的依赖。0我们并不试图解决任何偏微分方程;相反,我们在本地线性系数坐标空间中研究代数约束。02. 背景和相关工作0大多数基于阴影的形状恢复方法依赖于标量强度I和表面方向(fx,fy)之间的每个点的关系。例如,如果光照来自单一方向,则兼容方向的集合是一个轴等于光照方向且顶角与强度成比例的右圆锥体。同样,如果光照是方向二球上的正值函数,则兼容方向的集合可以很好地近似为由光照函数的球谐系数定义的一维流形,其次数不超过三阶。无论如何,任何强度和表面方向之间的这种关系都必须先了解每个表面点的光照的先验知识或准确估计。尽管最近取得了实质性的进展,包括能够适应某些非均匀光照和非均匀表面材料特性,但要获得有用的结果仍然需要人类的广泛帮助,人类必须首先标记包含连续表面的区域和/或指示遮挡轮廓的位置。0相比之下,我们遵循Kunsberg和Zucker的方法[14],将点分析提升到不仅考虑点的强度和表面方向,还考虑强度和形状的高阶导数。这样可以完全消除对光照的依赖,并且它暗示了一种不同的方法,即感知分组和形状重建可以在没有对光照的明确知识的情况下进行,而光照可以作为形状感知的副产品(近似地)推断出来。在本文中,我们只考虑了实现这种可能性的第一步:基本点处理器的设计。0我们还受到了Xiong等人的研究结果的启发[17],他们考虑了一个与纯点处理器不同的光照不变的局部区域处理器,并且展示了扩展图像块中的强度值可以确定扩展二次形状,但有四种离散的选择。这四种选择导致了我们在第4节中描述的自同构(即从一个空间到自身的双射)群。0我们的工作与最近基于学习的单目深度估计方法(例如[6])互补,这些方法旨在利用漫反射着色和许多其他自底向上的线索,同时利用大型图像数据集中的上下文线索。我们的目标是探索可以提高这类系统的普适性和效率的替代前端架构和可解释的中间表示。̸9603. 作为代数变量的局部形状集合0我们的光照不变点处理器受到Kunsberg和Zucker的工作的启发[14],他们使用微分几何推导出三个与光照无关的有理方程,将点处的图像2-阶导数I与该点处的表面高度导数相关联。相反,我们采用代数几何方法,它提供了等效方程的简化推导,并揭示了形状集合包含在代数变量(即某些多项式方程的零集)中,正如将在第4节中看到的,它具有有用的几何结构。03.1. 着色和表面模型0我们的分析适用于2D图像中的任意点。我们将坐标(0,0)分配给感兴趣点,并用I(x, y)表示该点附近有界局部邻域U �R^2中的强度。我们将U称为感受野。在实践中,它的大小不超过能够稳健地计算I(x,y)在原点处的离散近似的一阶和二阶空间导数所需的大小。在邻域U内,我们假设图像是曲面的正交投影,并且该曲面可以由高度函数f(x, y)表示。曲面的反射率ρ ∈R+被假定为在U内是常数。我们还假设光照在U内是均匀和定向的,因此可以用强度L ∈R^3、强度∥L∥和方向L/∥L∥来表示。在这些假设下,强度是0I(x, y) = ρL ∙ N0|| N(x, y) ||,(x, y) ∈ U,(1)0其中 N(x, y) := (- (∂f/∂x)(x, y), - (∂f/∂y)(x, y), 1)^T0是法向量场。注意,我们允许投影、反射率和光照在U之外变化。我们假设曲面f在点(x,y)附近足够平滑,可以忽略该点处的三阶或更高阶导数。0f(x, y) = f xx + f yy + 02 ∙ f xx x^2 + 2 ∙ f xy xy + f yyy^2。 (2)0我们将点 (x, y) 处的局部形状 f := (f x, f y, f xx, f xy, f yy)∈ R^5称为局部形状。我们假设所有的局部形状都不是平坦的或圆柱形的,或者更准确地说,在这个意义上都是非退化的。0定义1. 如果(fxx + fyy)(fxxfyy - f2xy)(4f2xy + (fxx - fyy)2)≠ 0,则局部形状f是非退化的。0局部形状可以产生许多不同的图像强度模式,这取决于光照方向。我们称由任意组合的局部形状和光照产生的所有可能的图像2-阶导数集合为可实现的,并且我们说由特定形状产生的可实现的图像2-阶导数与该形状一致。0定义2. 可实现测量I的集合是向量v ∈R6的集合,其中存在一个光照方向L ∈R3和非退化的局部形状f,使得当形状模型(2)与阴影模型(1)结合时,v = I。0定义3. 如果对于一对(I, f) ∈ I ×R5存在这样的L,我们说I和f是一致的。这意味着对于某个光照方向,f是图像测量I的有效解释。03.2. 局部形状集合0我们的直接目标是描述与任何光照方向的观察I一致的形状集F(I)。这组可接受的形状被包含在三个多项式方程的实数解的轨迹中。一个重要的特点是反射率和光照不出现在这些方程中。0定理1.假设(1)的阴影模型和(2)的表面模型,并假设我们给出了由某个未知表面/光照组合生成的测量I ∈ I。定义多项式0C1(f; I):= f4xIxx + 2f3xfxxIx + f2xf2xyI + 2f2xfxyfyIx + 2f2xf2yIxx0+2f2xIxx - 2fxfxxfxyfyI + 2fxfxxf2yIx + 2fxfxxIx0+ f2xxf2yI + f2xxI + f2xyI + 2fxyf3yIx + 2fxyfyIx0+ f4yIxx + 2f2yIxx + Ixx, (3)0C2(f; I):= f4xIyy + 2f3xfxyIy + 2f2xf2yIyy + 2f2xfyfyyIy + f2xf2yyI0+2f2xIyy + 2fxfxyf2yIy - 2fxfxyfyfyyI + 2fxfxyIy0+ f2xyf2yI + f2xyI + f4yIyy + 2f3yfyyIy + 2f2yIyy0+2fyfyyIy + f2yyI + Iyy, (4)0C3(f; I):= f4xIxy + f3xfxxIy + f3xfxyIx + f2xfxyfyIy + f2xfxyfyyI0+2f2xf2yIxy + f2xfyfyyIx + 2f2xIxy + fxfxxf2yIy0- fxfxxfyfyyI + fxfxxIy - fxf2xyfyI0+ fxfxyf2yIx + fxfxyIx + fxxfxyf2yI + fxxfxyI0+ fxyf3yIy + fxyfyIy + fxyfyyI + f4yIxy + f3yfyyIx0+2f2yIxy + fyfyyIx + Ixy. (5)0然后,任何非退化的局部形状f∈R5,它是测量I的有效解释,将满足Ci = 0 � i。等价地,仿射变量F := V(C1, C2,C3)包含与I一致的所有形状f的集合。0证明概要。我们在这里提供了证明的概要,详细内容请参见补充材料。从(1)开始,将反射率ρ吸收到(非单位长度的)L中。引入辅助变量w,它扮演1/||N(x,y)||的角色。将其代入(1)得到多项式g1(x, y, w, f) := I(x, y) -L ∙ N(x, y)和g2(x, y, w, f) := w2||N(x, y)||2 -1。计算g1关于x、y的一阶和二阶空间导数,在(x, y) = (0,0)处评估所有多项式,并重新排列以消除变量L和w。�ρ1 :(fx,fy,fxx,fxy,fyy)�→−(fx,fy,fxx,fxy,fyy)ρ2 :(fx,fy,fxx,fxy,fyy)�→1�4f 2xy +(fxx−fyy)2fxfxx−fxfyy +2fyfxy2fxfxy +fyfyy −fyfxxf 2xx−fxxfyy +2f 2xyfxxfxy +fxyfyyf 2yy −fxxfyy +2f 2xy(6)970t = -1.5 t = 0.5 t = 1.5 t = 2.50图2. 不同测量形式I ≈ (1 - t, -4.10, -5.87, -12.41, -13.41, -20.30) +t的二维变量的可视化。每个变量都投影到与图1相同的三个维度,并按其同构部分进行着色。0注1.这些方程的实数解与[14]的推论4.2的解相同;我们提供了代数推导作为该工作中所提出的微分几何方法的替代。0定理1表明,与给定测量I一致的本地形状集必须满足三个代数无关的多项式集,并且因此,根据定义,包含在五维形状空间中的一个实二维代数多样性中。(我们使用符号V(∙)表示与一组多项式对应的多样性。这本质上是它们的零点。)这个多样性类似于经典形状从阴影中的表面方向的一维流形,并且它对本地形状提供了实质性的约束,因为虽然仍然存在无限多个可接受的本地形状,但绝大多数形状都被淘汰了。特定测量I的多样性在图1中可视化,从五维形状空间投影到与二阶形状维度(f xx,f xy,fyy)相对应的三维空间。其他示例在图2中,显示了不同测量的多样性如何变化。04. 本地形状集的属性0在这个阶段,我们用生成多项式(3)-(5)的隐式描述来描述形状集F(I)。对于一个有用的点处理器,我们希望得到一个显式的表示,以及一种计算(和存储)任何特定图像2-阶矩I的显式表示的高效方法。显式解析表示仍然无法实现[1],但幸运的是,这些多样性具有三个特性,使它们易于近似。首先,我们证明多样性配备有一个自同构群,自然地将其分成四个同构部分,从而允许整个形状集由一个部分表示。01 当 I 和 f x ,f y固定时,方程组(3)-(5)的解可以解释为三个二次超曲面的交集。已经提出了用于找到三个二次曲面交集的代数求解器[5,13],但对于这里研究的方程来说,这些方法在计算上是难以处理的。0我们然后将一个部分与从R2到R3的连续函数φI相关联,这意味着点处理器等效于从向量I � R6到连续函数φI:R2 →R3的映射(第4.2节)。最后,我们证明任何一致的测量和形状I,f可以在图像平面上同时旋转而不影响一致性,这允许对输入空间I进行无损压缩。正如我们将在第5节中看到的,这三个特性使得点处理器能够以神经网络逼近从2-阶矩I到函数φI的映射(见图3)。如何使用这种表示进行形状从阴影的示例在第6节中描述。04.1. F ( I ) 上的自同构群0第一个特性源于每个多样性F(I)具有两个对称性。这些对称性很有用,因为它们允许将每个多样性F(I)划分为四个同构的组件,因此只需一个组件就可以更紧凑地表示整个形状集。这种划分适用于除了通常是F(I)的单个点对之外的任何地方。因此,虽然我们在技术上必须在“穿孔”多样性上定义这个划分(我们将在下面称之为F0),但在实践中,我们通常可以忽略这个区别,并且在接下来的内容中可以省略下标。这些对称性可以通过将其代入(3)-(5)中进行验证,这些对称性与[17]中描述的扩展二次补丁的对称性相同。0观察1. 存在一个子集 F + ( I ) � F ( I ),其在由生成的自同构群下的轨道F0(I) := F(I)\V(4f 2xy + (fxx − fyy)2).̸�Φ(I) = {(fx, fy, φI(fx, fy))},(8)�det J = γ((1 + f 2y )fxx − 2fxfyfxy + (1 + f 2x)fyy)is strictly positive. On F+(I), the term fxxfyy − f 2xy > 0,so discrfx det J < 0 over R. This implies that there are nopoints in F+(I) where the implicit function fails.TI :=1�I2x + I2y� IxIy−IyIx�=:�G11G12G21G22�,(9)SI :=G2112G11G21G221G11G12G11G22 + G12G21G21G22G2122G12G22G222 ,(10)RI :=1000TI000S−1I ,(11)980正是 F 0 ( I ) ,其中0因此,对于固定的 I 和 f x , f y ,( 3 )-( 5 )有零个、两个或四个非零实数解,每个解对应于局部形状的某种组合,包括凹/凸和鞍/球形。图 1显示了一个明显可见的四个组成部分的例子,其中四个突出的曲面组成一个轨道。我们可以选择任何一个组成部分作为代表性的组成部分。与正曲率形状对应的组成部分比较方便,因此我们选择了它,并称之为正形状集。0定义 4. 我们称其为半代数集0F + := { f ∈ F 0 : f xx + f yy > 0 且 f xx f yy − f 2 xy > 0 } (7)0正形状集。该子集 F + ( I ) 是集合 F 0 ( I ) 模除 � ρ 1 ,ρ 2 �的群作用。0对于非平面图像,很容易验证 0 / ∈ F + , ρ 2不存在实数不动点,并且根据定义 1 4 f 2 xy + ( f xx − fyy ) 2 � = 0 在 F + ( I ) 上。因此,映射 ρ 1 , ρ 2 在 F + (I ) 上是良定义的。04.2. F + ( I ) 是一个图0我们的目标是找到正形状子集 F + ( I )(因此也是整个形状集 F ( I ))的简洁表示,以及计算任意特定测量 I的这种表示的高效方法。由于 F ( I ) 及其子集 F + ( I ) 是由 I确定的,我们可以定义一个映射 Φ : I �→ F + ( I )。为了简化从向量 I 到正子集 F + ( I ) 的映射 Φ,我们假设每个(二维)正子集都可以由表面方向 ( f x , f y) 参数化,以便映射 Φ( I ) = { ( f x , f y , f xx , f xy , f yy ) }可以分解为0对于 φ I : R 2 �→ R 3为连续函数。虽然我们在这里将其作为一个假设,但这种分解实际上可能是精确的。隐函数定理保证了在每个系统雅可比矩阵非奇异的 f 的局部邻域中存在(唯一)的函数 φ ( f x ,f y ) = ( f xx , f xy , f yy )。虽然证明雅可比矩阵始终非奇异——即,对于任何 I ∈ I和任何实数 ( f x , f y ),都非奇异——仍然是一个未解决的问题,但我们猜测这是正确的。从实验上看,我们从未见过非奇异的雅可比矩阵,并且我们可以在简化的情况下证明非奇异性,如下面的例子所示。0例 1. 考虑测量 I 满足 I x = I y = 0的情况,即图像的法线与观察方向平行。在这种情况下,系统 ( C 1 , C 2 , C 3 ) 的雅可比矩阵的行列式为0其中 γ = − 4( f xx f yy − f 2 xy ) / (1 + f 2 x + f 2 y ) 5 。只有当其关于 f x的判别式严格为正时,才有实数解。在 F + ( I ) 上,项 f xx f yy − f 2 xy > 0 ,因此在 R上,判别式 f x det J < 0 。这意味着在 F + ( I ) 中没有隐函数失败的点。0判别式 f x det J = γ ((1 + f 2 y )( f xx f yy − f 2 xy ) + ( f 2 xy + f 2 yy )) ,04.3. 由旋转引起的同构0第三个属性是关于局部视角方向的旋转对称性,它允许我们无损压缩输入空间 I 。图像 I ( x, y ) 和表面 f ( x, y )之间存在的任何局部关系必须在它们共同的二维域 ( x, y )的正交基变换下保持不变。因此,我们可以自由地定义一个局部坐标系,使其适应每个测量 I 。一种选择是与图像梯度 (I x , I y ) 对齐的局部坐标系,使用一个正交变换将 I y映射为零,将 I x 映射为非负实数。这意味着有三个变换,0通过验证,我们可以得知,如果且仅如果 f ∈ F ( I ) ,则 ˆR I f ∈ F ( R I I ) ,其中 ˆ R I 是通过去除 R I的第一行和第一列得到的主子矩阵。通过使用这些变换预处理我们点处理器的每个输入 I,并相应地后处理每个输出形状 f,我们将有效的输入空间从 I � R 6 减少到 ˜ I � R 4 × R +。在补充材料中,我们展示了这个变换总是将 I yy映射到一个非正值,因此 ˜ I 实际上包含在 R 3 × R + × R− 中。通过利用 ( 3 )-( 5 ) 在 I中的线性性质,我们可以进一步将 ˜ I 限制为单位球 S 4,而不会丧失一般性。综合起来,这将有效的输入空间减少到 ˜ I � R 3 × R + × R − ∩ S 4。当设计和训练我们的神经网络时,我们将从这个域简化中获得好处。-10-55-12-10-8-6-4-22Igθhψψ(fxx, fxy, fyy)(fx, fy)·k · k ◦ RITIS−1IˆφI(fx, fy) := h (fx, fy; gθ(I)) ,(12)����990图3. 我们的两阶段网络逼近器 ˆ φ I 的结构,用于从向量 I 到函数 φI 的映射。右侧显示了与图1中相同的 I 的方向域和输出样本。05. 一个神经网络逼近器0暂时忽略与旋转相关的预处理和后处理变换,考虑近似从向量 I ∈ I 到函数 φ I的映射的任务。一种方便的方法是耦合一对神经网络,其中一个网络的输出提供另一个网络的权重。也就是说,我们可以使用0其中 g θ : R 6 �→ R M 是一个具有可调权重 θ ∈ R N的(全连接的、几层的)神经网络,而 h ψ : R 2 �→ R 3是一个(全连接的、单层的)神经网络,其权重 ψ ∈ R M由 g 的输出提供。这意味着在底层,ˆ φ I 是 θ的函数。这很方便,因为它提供了一个紧凑的表示,可以高效地拟合大量的训练样本。我们可以通过合成生成许多测量I,并针对每个测量计算相应的半代数集合 F + ( I )中的许多样本 f 来拟合权重 θ 。这产生了一组样本 { ( I ( j ), f ( i,j ) ) } i,j ,我们可以用来解决0θ = argmin θ0�0j0�0i0��� � f(i,j)xx, f(i,j)xy,f(i,j)yy �0-h � f(i,j)x, f(i,j)y; gθ � I(j) ���� � 2 (130通过随机梯度下降进行训练。现在,只需进行小的修改,我们就可以将第4.3节的旋转变换纳入到逼近器中,使其更加高效并减少训练负担。这只需要在神经网络周围添加线性变换块(参见图3),对输入进行预处理。0输入测量I,并相应地使用(9-11)预处理方向域(fx, fy)和后处理输出曲率(fxx, fxy,fyy)。这将网络gθ的定义域从R6减少到R3×R+×R-∩S4。例如,如果块∙的输入为RI在图3中的I = (I, Ix, Iy, Ixx, Ixy, Iyy),则其输出为0∥∙∥ ◦ R I 在图3中是I = (I, Ix, Iy, Ixx, Ixy,Iyy),那么它的输出是0(˜I, ˜Ix, ˜Ixx, ˜Ixy, ˜Iyy) / ∥(˜I, ˜Ix, ˜Ixx, ˜Ixy, ˜Iyy)∥ (14)0with ˜I = R I I(并丢弃现在多余的˜Iy = 0)。05.1. 训练数据和网络架构0训练需要2-jets I(j) ∈I的样本以及每个2-jet的正集F+(I(j))的样本。我们通过从光源方向L和二次曲面f中采样并将Eqs. (1)和(2)(及其空间导数)应用于渲染2-jetsI(j)来生成前者。具体来说,我们从与视角(0, 0,1)的角度半径为π/4的S2子集中均匀采样光源,然后从单位圆盘B2中均匀采样表面方向fx,fy。根据观察1,只需采样正曲率,因此我们从R3∩{fxxfyy - (fxy)2 > 0}∩{fxx + fyy >0}的有界子集中均匀采样fxx,fxy,fyy。为了为每个2-jet创建正集F+(I(j))的样本,我们首先从单位圆盘中生成密集的样本方向{(f(i)x,f(i)y)}作为输入到网络hφ。然后,对于每个I(j)和每个f(i)x,f(i)y,通过将数值根查找器应用于(3)-(5)计算相应的“地面真值”二阶形状值(f(i,j)xy, f(i,j)xy,f(i,j)yy)。结果是一个训练集{(I(j),f(i,j))}i,j。数值根查找可能很昂贵,但是我们的情况中gθ的定义域的简化(参见前一节)减少了计算负担。我们只需要生成足够的2-jetsI(j)来充分采样I,而不需要为预处理块∙生成足够的2-jets。0∥∙∥ ◦ R I 对˜I进行足够的采样。对于网络gθ:R5 →RM,我们使用具有25个ReLU节点的1个隐藏层。对于网络hψ:R2 → R30我们使用具有50个ReLU节点的1个隐藏层。可调参数的总数为N = 6wg + (dg - 1)wg(wg + 1) + M(wg + 1) +M,一旦模型训练完成,对于任何2-jetI,形状集F(I)的输出描述由M = 3(2wh +1)个有理数(向量ψ的大小)组成。因此,每个图像点的整个形状集仅由M =303个数字总结。图4可视化了未在训练中使用的代表性测试测量I的拟合质量。06. 应用0点处理器将单个点I的图像值转换为一致的中间表示1000图4.插值误差的可视化。该图显示了从训练数据集的凸包中随机选择的一个未用作训练样本的I的ˆφI。插图显示了我们的近似在四个随机选择的解中表现最差的情况,即最大化误差||f - (fx, fy, ˆφI(fx,fy))||2。0局部形状集合,以表面方向�fx, fy, ˆφI(fx,fy)�为参数的二维流形形式。为了演示如何使用这种连续表示的每个点形状进行图像分析,我们考虑了两种简单的情况。在这两种情况下,通过利用附加信息或假设来解决每个点的歧义(最多四种离散形状选择)。我们的演示使用简单的图像根据(1)进行渲染,添加了1%的高斯噪声和64位量化。我们使用高斯导数滤波器估计空间图像导数。06.1. 未校准的双拍摄光度立体0通过在不同的光照方向下捕获同一表面的附加图像来解决每个点的歧义。当光照方向未知时,这被称为未校准的光度立体[18, 7, 3]。在传统的基于表面方向(fx,fy)的公式中,至少需要三个不同光源下的三个图像[9]。我们基于二阶形状的点处理器只需要两个输入图像,而不是三个,就能实现类似的功能。考虑由两个(未知)光源L1,L2生成的两个测量I1,I2在同一点处。图5顶部描绘了一个模拟的例子。第一个测量I1将形状限制在集合F+(I1)中,0但在这个集合中,所有形状的可能性都是相等的。由于该集合是由表面方向参数化的,即�fx, fy, ˆφI1(fx,fy)�,我们可以在某个合理大小的方向域(fx,fy)上可视化(均匀的)“似然”。如图5左侧所示,洋红色点表示用于模拟的潜在真实形状f�的方向。第二个测量I2进一步限制了形状在集合F+(I1)和F+(I2)的交集中。因此,我们可以根据每个形状与F+(I1)∩F+(I2)的接近程度来改进“似然”。一种量化这一点的方法是0L(fx, fy):=���ˆφI2(fx, fy)−ˆφI1(fx, fy)���2 (15)0在圆盘中的(fx,fy)上。对于我们的模拟,更新后的两个测量似然如图5右侧所示,它成功地识别出了真实形状。通过这种简单的策略,通过这种简单的策略恢复每个点的正确形状(最多四种选择)依赖于交集F+(I1)∩F+(I2)是一个单点,就像我们的模拟中所示的那样,如图5底部所示。我们的实验表明,这通常是成立的,但是分析地表征唯一性的条件可能是一个有价值的未来工作方向。此外,解决每个点的四种选择需要做出额外的表面连续性假设,类似于如何通过“可积性”来减少传统的三次光度立体照相中固有的全局线性歧义[18]。06.2. 表面连续性0减少每个点的歧义的另一种方法是设计一个由点处理器组成的二维数组,通过在输入图像的扩展区域上强制实现表面连续性来将它们连接在一起。作为一个简单的例子,我们考虑整个表面是一个扩展二次函数的情况,也就是说,它满足整个图像I(x, y)上的(2),其中包含一些“真实形状”值f�=(f�x,f�y, f�xx, f�xy,f�yy)。当已知表面是一个扩展二次函数时,任何一个单独的局部形状f∈F+(I1),比如图像原点,立即预测出图像中其他点(x, y)的相应局部形状f′,通过(f′xx, f′xy, f′yy)=(fxx, fxy,fyy)和(f′x, f′y)=(fx, fy)+A(x, y)∙(fxx, fxy, fyy),其中矩阵A是0A ( x, y ) = � x y 0 0 y0� . (16)0与之前一样,我们从形状集合 F + ( I 1 )的均匀相对似然度开始,该集合是通过在扩展二次曲面的输入图像中原点处进行单个测量获得的(图6左侧)。然后,给定另一个点( x 2 , y 2 )处的测量 I 2,我们使用该信息来更新相对似然度。fxfyfxfy01only I1both I1 and I2011010相对似然度0图5.未校准的两次拍摄光度立体。顶行:在不同光照下的表面的两个模拟图像,其中在相同像素位置进行了测量 I 1 , I 2。中行:仅使用一个测量(左侧)或两个测量(右侧)的不同形状的“似然度”,在方向域上进行可视化。品红色点表示用于模拟的真实形状。底行:形状集合 F + ( I 1 ) , F + ( I 2 )以及它们的交集(开放圆圈)。0使用 ( 15 ) 对第一组进行估计,但使用项 ˆ φ I 2 ( f x , f y ) 替换了项 ˆ φ I 1 ( f x , f y )0被替换为 � ˆ φ I 2 ( f x , f y ) + A ( x 2 , y 2 ) ∙ ˆ φ I 1 ( f x, f y ) �。第二列显示了更新后的两个测量似然度(图6)。我们继续通过添加来自其他测量的信息,例如在 ( x 3 , y 3 ) 处的 I3 和在 ( x 4 , y 4 ) 处的 I 4 ,每次通过累积 F + ( I i ) 和F + ( I 1 ) 之间的交集误差来更新原始集合 L ( f x , f y )上的似然度。图6展示了三个点和四个点的似然度的演变。我们可以看到,复合似然度函数在形状 f ∈ F + ( I )处达到其全局最大值,该形状非常接近于 f �模除不可调和的四路模糊。这与Xiong等人的基于面积的分析一致,该分析证明了扩展二次曲面的形状重建的唯一性。0f ( x, y )0I 10I 20I 30I 40f 10f 20f 30f 40I ( x, y )0f y0f x0相对似然度0仅 I 1 , I 2 , I 1 , I 2 , I 3 , I 1 , I 2 , I 3 , I 40图6. 在扩展二次曲面上多个点的形状信息的组合。给定一个测量 I1 , F + ( I 1 ) 中的所有二次形状都是等可能的。这在函数 ˆ φ I的定义域上被描绘为一个常数相对似然度。通过在两个或更多点上合并测量 I i,可以修改似然度,使其最大值接近真实形状(品红色点)模除 ρ1 , ρ 2 。07. 结论0本文对于一种不需要了解点光照或依赖于准确估计光照的阴影可部署点处理器进行了初步探索。它提出了一种新的中间表示形式,即每个图像点上一致的二阶形状集合的显式可微分参数化二维流形。它还提供了两个简单的示例,展示了这种新的中间表示如何用于形状分析。这种方法的独特之处在于它有潜力使形状处理在光照在表面上变化并且因此难以或不可能准确推断的实际情况下成功。本文的贡献主要是理论性的,将这项研究转化为实践将需要在几个方向上取得实质性进展。这可能包括结合多尺度导数,创建适用于分段光滑表面的空间正则化方案,将方法从局部二阶形状扩展到局部三阶形状,并探索分解网络架构表示更一般(例如非兰伯特)的渲染模型的能力,并从图像而不是代数方程进行训练。0参考文献0[1] Jonathan T. Barron和Jitendra Malik. 从阴影中恢复形状、照明和反射.IEEE模式分析与机器智能交易(TPAMI),37(8):1670-1687,2015年. 21020tern Analysis and Machine Intelligence(TPAMI),37(8):1670-1687,2015年. 20[2] Ronen Basri和David W Jacobs. Lambertian反射和线性子空间.IEEE模式分析与机器智能交易(TPAMI),(2):218-233,2003年. 20[3] Peter N Belhumeur,David J Kriegman和Alan L Yuille.浮雕模糊. 计算机视觉国际期刊(IJCV),35(1):33-44,1999年. 1 , 70[4] Patrick Cavanagh. 艺术家作为神经科学家.自然,434:301-307,2005年. 20[5] Eng-Wee Chionh,Ronald N Goldman和James R Miller.使用多元结果找到三个二次曲面的交点.ACM图形交易(TOG),10(4):378-400,1991年. 40[6] David Eigen,Christian Puhrsch和Rob Fergus.使用多尺度深度网络从单个图像预测深度图.在神经信息处理系统进展(NeurIPS)中,页码2366-2374,2014年. 20[7] Joel Fan和Lawrence B Wolff.从未知的多个照明和可积性中恢复表面曲率和形状.计算机视觉和图像理解,65(2):347-359,1997年. 70[8] David A Forsyth. 可变源阴影分析.计算机视觉国际期刊(IJCV),91(3):280-302,2011年. 20[9] Hideki Hayakawa. 在具有任意运动的光源下的光度立体.美国光学学会杂志(JOSA)A,11(11):3079-3089,1994年. 70[10] Berthold KP Horn.从一张视图中获取光滑不透明物体的形状的一种方法.MIT人工智能实验室技术报告AITR-232,1970年. 10[11] Jan J Koenderink和Andrea J van Doorn.视觉系统中局部几何的表示.生物控制,55(6):367-375,1987年. 20[12] Jan J Koenderink,Andrea J Van Doorn
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功