户外材料识别中的差分角成像网络及其效能

165 浏览量更新于2023-10-15 收藏 1.36MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

764用于材料识别的贾雪1张航1Kristin Dana1西野光21罗格斯大学电气与计算机工程系，新泽西州皮斯卡塔韦，邮编088542计算机科学系，德雷克塞尔大学，费城，PA 19104{jia.xue，zhang.hang}@ rutgers.edu，kdana@ece.rutgers.edu，kon@drexel.edu摘要现实世界户外表面的材料识别对于计算机视觉支持其“野外”操作变得越来越重要作为材料识别基础的计算表面建模已经从使用实验室内控制的辐射测量的反射率建模过渡到基于在场景中捕获的材料的因特网挖掘图像的基于图像的表示。我们提出了一个中间地带的方法，利用丰富的辐射线索和灵活的图像捕捉。我们开发了一个差分角度成像的框架，其中图像捕获中的小角度变化提供了增强的外观表示和显著的识别改进。我们建立了一个大规模的材料数据库，地面地形在户外场景（GTOS），面向真正的自主代理使用。该公开可用的数据库1由超过30，000个图像组成，覆盖在变化的天气和照明条件下的40类室外地面地形。我们开发了一种新的材料识别方法，称为差分角成像网络（DAIN），以充分利用这个大数据集。有了这个网络架构，我们提取的字符编码的角度和空间梯度的外观材料的特性。我们的研究结果表明，DAIN实现识别性能，超越单-角或粗量化的多视图图像。这些结果证明了差分角成像作为一种灵活的就地材料识别手段的有效性。1. 介绍真实世界的场景由许多材料组成，如木材，大理石，泥土，金属，陶瓷和织物，这些材料有助于我们在图像中发现丰富的视觉变化。材料识别已成为一种积极的1http://ece.rutgers.edu/vision/图1：（上）GTOS数据集的示例，包括多视点、照明条件和角度差分成像的室外测量。该示例示出了在不同照明/天气条件下成像的场景表面。（下）用于材料识别的差分角度成像网络（DAIN）。近年来的研究领域，其目标是为诸如自动化代理和人机系统的应用提供详细的材料信息。对不同材料的表观或潜在特征外观进行建模对于在图像中稳健地识别它们至关重要。材料外观建模的早期研究主要集中在使用圆顶系统、机器人或角反射计收集角空间密集测量值（如BRDF、BTF）的综合实验室测量上[10]。这些基于反射率的研究具有捕获内在信息的优势-765(a) 沥青（b）砖（c）塑料覆盖层（d）金属覆盖层（e）石水泥（f）卵石（g）雪图2：差分角度成像。（上）材料表面图像的示例Iv.（下图）GTOS数据集中对应的差分图像Iδ=Iv−Iv+δ这些稀疏图像编码反射和3D浮雕纹理的角度梯度。表面的不同属性，这使得细粒度材料识别[27，33，42，47]。然而，基于实验室的图像捕获的可扩展性阻止了在现实世界场景中的广泛反射建模的一种根本不同的方法是基于图像的建模，其中表面是用场景中或“野外”的单视图图像捕获的基于图像的材料识别的最新研究使用单视图互联网挖掘图像来训练分类器[1，7，20，28]，并且可以应用于任意图像，而无需多视图反射信息。然而，在这些方法中，除了一些纯粹的局部方法之外，识别通常更多地基于上下文而不是内在的材料外观属性[34，35]。在综合实验室成像和互联网挖掘的图像之间，我们采取了有利的中间地带。我们捕捉场景中的外观，但使用受控的视角。这些测量提供了全反射函数的采样。这就引出了一个非常基本的问题：多视角如何帮助材料识别？先前的工作使用差分相机运动或物体运动进行形状重建[2，3，43]，在此我们考虑一个新问题：观察角度的微小变化，差异变化，是否会导致识别性能的显著提高？先前的工作已经表明，在材料识别中，角度滤波可以补充空间滤波。然而，这些方法依赖于基于反射镜的相机来捕获BRDF的切片[48]或光场相机来实现多个差分视点变化[44]，这由于需要专用成像设备而限制了它们的应用。相反，我们建议用普通相机捕捉视角有差异变化的表面，并从它们计算角度梯度我们提出了一种称为角微分成像的方法，对于不同视点v+δ的特定视角v的图像捕获。将此方法与基于实验室的反射率测量进行对比，基于实验室的反射率测量通常使用圆顶或具有较大角间距（如22 °）的定位装置进行角间距测量。5o.这些粗略量化的测量在近似角梯度中具有有限的用途角差分成像可以用小基线立体相机或移动相机（例如，手持）。我们证明，差分角度成像提供了材料反射特性的关键信息，同时保持方便的现场外观捕捉的灵活性。为了以保留基于图像的方法的便利性和基于反射率的方法的重要角度信息的方式捕获材料外观，我们组装了一个全面的，第一次的，包括多个视点和多个照明方向的户外材料数据库（部分BRDF采样），多种天气条件，大量的表面材料类别，超过现有的可比数据集，每个表面类的多个物理实例（以捕获类内可变性）和支持差分角度成像的框架的差分视点。我们集中在室外场景，因为室外表面的反射率数据库的有限性。我们还集中在户外场景（GTOS）中的地面地形材料上，以适用于许多应用，如自动驾驶，机器人导航，光度立体和形状重建。这40个表面类别包括地面地形，如草地、砾石、沥青、混凝土、黑冰、雪、苔藓、泥和沙（见图2）。我们构建了一种识别算法，该算法利用了深度学习和差分角度成像的优势。所得到的方法将两个图像流作为输入，原始图像和差分图像，如图1所示766数据集样品类查看照明在场景场景图像相机参数年刮除器[11]6161205NNN1999[18]第十八话1111273NNN2004[46]第四十六话847151151NNN2014反射盘[48]1901933NNY20154D光场[44]12001211YNN2016NISAR [5]100100912NNN2016全球地面观测系统（我们的）60640194YYY2016表1：全球陆地观测系统数据集与一些公开提供的BRDF材料数据集的比较请注意，4D光场数据集[44]由Lytro Illum光场相机捕获。ure1.我们优化了双流配置的材料识别性能，并将得到的网络称为本文的主要贡献有三点：1）引入微分角成像技术，作为基于反射率和基于图像的材料识别的中间地带;2）收集全球地面观测系统数据库，其中有30000多幅现场室外图像，这些图像捕获了大量材料类别的角度反射率样本; 3）开发DAIN，这是一种材料识别网络，具有最先进的综合比较验证性能。2. 相关工作纹理识别、3D纹理图像的分类和双向纹理函数，传统上依赖于手工设计的3D图像特征和多视图[8，24]。最近，使用深度神经网络学习的特征在纹理识别方面优于这些方法。Cimpoi等人[7]使用基于CNN提取的图像特征计算的Fisher矢量表示，在FMD [36]和KTH-TIPS 2 [18深度学习方法在物体识别方面的成功也转化为材料识别问题，即任意图像中材料类别的分类和分割。Bell等人，通过在材料外观的大数据集[1]上重新训练当时最先进的对象识别网络[37]来该方法依赖于包括对象和场景上下文的大图像块来识别材料。相比之下，Schwartz和Nishino [34，35]从对象边界内提取的小图像块中学习材料外观模型为了实现准确的局部材料识别，他们引入了基于其内在属性的中间材料外观表示（例如，“smooth” and除了表观外观外，材料还可以通过其辐射特性来识别，即双折射率。反射分布函数（BRDF）[30]和双向纹理函数（BTF）[11]，其本质上编码表面的空间和角度外观变化。材料通常在其反射率方面表现出独特的特性，从而提供详细的线索来识别它们中细微变化的差异（例如，不同类型的金属[27]和油漆[42]）。然而，反射率测量需要精心设计的图像捕获系统，例如角反射计[30，45]，机械臂[25]或带有相机和光源的圆顶[12，27，42]。最近，Zhanget al.介绍了使用单次反射场捕获进行材料识别[48]。他们采用Dana和Wang [9]开发的抛物面镜相机，在单次拍摄中捕获给定光源方向的反射辐射，他们将其称为反射盘。最近，Zhanget al.表明反射盘包含足够的信息来准确预测表面的动摩擦系数[49]。这些结果表明，材料的角度外观变化及其梯度编码丰富的线索，他们的识别。类似地，Wanget al.[44]使用光场照相机，并结合角度和空间滤波进行材料识别。与材料识别方面的这些最新进展保持一致然而，与过去的方法形成鲜明对比的是，我们使用来自标准相机的图像信息，而不是像Lytro那样使用多镜头阵列我们通过使用可以容易地由双相机系统捕获的角度的不同变化或单个普通相机的小运动来探索使用大视角范围（其中样本在角度空间中被粗略量化）的差异。深度学习在对象分类[4，19，23]、分割[17，22，32]和材料方面取得了重大成功。承认[7，26，49，50]。在我们结合空间和角度图像信息以解释纹理和反射的目标中，我们特别受到双流融合框架[15，37]的激励，该框架在UCF 101 [38]动作识别数据集中实现了最先进的结果。767(a) 材料类别（b）多个观察方向图3：（a）本文介绍的全球地面观测系统数据集中的40种物质类别。（右）材料表面观察点。测量了沿跨度为80 °的弧分离的九个视角。对于每个视点，从原始方向捕获± 5 °方位角的差分视图（符号是基于机械臂运动学选择的）。数据集：用于测量真实世界表面反射率的数据集在基于实验室的测量方面有着悠久的历史，包括：CURET数据库[11]，Hayman等人的KTH-TIPS数据库。[18]、MERL反射率数据库[29]、UBO 2014 BTF数据库[46]、UTIA BRDF数据库[16]、Drexel纹理数据库[31]和IC-CERTH织物数据库[21]。在许多这些数据集中，密集的反射角是用特殊的图像捕获设备捕获的。其中一些数据集每个表面类别的实例/样本有限（不同的物理样本代表同一类的类内变异性），或者表面类别很少最近的数据集捕捉场景中的材质和纹理，（也称为原位或野外）。移动到场景内捕获的动机是构建更依赖于现实世界应用的算法和方法这些最近的数据库是从互联网挖掘的数据库，并包含一个单一的照明方向下的场景的单一视图。例子包括Sharan等人的Flickr材料数据库。[36]和Bell等人的上下文数据库中的材料。[1]的文件。最近，DeGolet al.发布的GeoMat数据库[13]包含19个来自户外场地的材料类别，每个类别有3到26个物理表面实例，每个表面有8到12个视点。此数据集中的视点在角度空间中不规则地采样。3. 差分角度成像本文提出了一种新的测量方法--直角成像法，即先从一个特定的视角v，再从另一个视角v+δ对物体表面进行成像。视角中的这种差异变化的动机是强度的角梯度的改进计算。强度梯度是图像特征的基本构建块，并且众所周知，对导数的离散近似具有局限性。特别地，图像I的强度的空间梯度是近似为I（x+ λ）−I（x），并且这种近似在低空间频率下最合理，并且当λ为小了对于反射率的角度梯度，对导数的离散近似是相对于视角的减法角梯度近似为I（v+δ）−I（v），这种近似需要一个小的δ。因此，差分角度成像提供更多的精确的角度梯度。如图1和图2所示的差分图像具有几个特征。首先，差分图像揭示了在特定视点处BRDF/BTF中的梯度。其次，由于非平面表面结构，在差分图像最后，差分图像是稀疏的。这种稀疏性可以在网络内提供计算优势。(NoteI（v+δ）和I（v）在减法之前与全局仿射变换对齐。7684. GTOS数据集室外场景中的地面地形数据集我们收集GTOS数据库是第一个现场材料反射率数据库，用于研究室外地面地形的空间和角反射率信息在材料识别中的应用。我们捕捉反射率系统成像的一组视角，包括一个部分BRDF与移动探测机器人。差分角度图像也通过测量Nv= 9底角v=（θv，φv），θv∈[−40<$，−30 <$，. . .，40]，并且δ=（0，5θ）的微分角变化导致：如图3（b）所示，每个样品在18个观察方向上观察。示例表面类别如图3（a）所示。类的名称是（按从左上到右下的顺序）：水泥、沥青、涂漆沥青、砖、土壤、泥石、泥、泥坑、草、干树叶、树叶、沥青坑、覆盖物、金属格栅、塑料、沙子、石头、人造草皮、铝、石灰石、涂漆草皮、鹅卵石、树根、苔藓、松散沥青石、沥青石、布、纸、塑料覆盖物、页岩、涂漆覆盖物、石砖、砂纸、钢、干草、生锈覆盖物，玻璃、水泥石、冰泥和雪。Nc= 40个表面类别大多具有4至14个实例（类内变化的样本），并且每个实例不仅在Nv观察方向下成像，而且在多个自然光照明条件下成像。如图1所示，样品外观取决于天气条件和时间。为了捕捉这种变化，我们对具有Ni= 4种不同天气条件（多云干燥、多云潮湿、阳光明媚的早晨和阳光明媚的下午）的同一区域进行成像。我们用3种不同的曝光时间来捕获样品，以实现高动态范围成像。此外，我们的图像镜像球捕捉自然天空的环境照明。除了表面图像外，我们还捕获场景图像以显示全局上下文。机器人测量装置如图4所示。虽然，数据库测量获得与机器人定位精确的角度测量，我们的识别结果是基于这些测量的子集，使一个关节臂将不需要在现场系统。数据库中的表面图像总数为34，243。如表1所示，这是迄今为止最广泛的户外场景内多视图材料数据库5. 用于材料识别的差分角度成像网络（DAIN）考虑从多个观察方向（多视图）图像的场景内材料识别问题。我们开发了一个双流卷积神经网络，以充分利用差分角度成像进行材料识别。差分图像Iδ稀疏地编码反射角梯度以及表面浮雕纹理。水疗-图4：全球地面观测系统数据库的测量设备：移动机器人P3-AT机器人、Cyton gamma 300机械臂、Basler aca2040 - 90 uc相机（配备Edmund Op-tics 25 mm/F1.8镜头）、DGK 18%白平衡和色彩参考卡以及Macmaster-Carr 440 C不锈钢球。图像强度的初始变化仍然是重要的识别线索，因此我们的方法整合了这两个信息流。CNN用于网络的两个流，然后组合为最终预测结果。组合方法和发生组合的层导致架构的变化。我们使用ImageNet [14]预训练的VGG-M模型[4]作为预测单元（图5中标记为CNN）。第一输入分支是在特定观看方向v上的图像Iv。第二个输入分支是差分图像Iδ。图5所示的第一种组合方法(a) 是由两个分支获得的输出预测向量的简单平均第二种方法在CNN的中间层组合两个分支，即在层M输出的特征图被组合并向前传递到CNN的更高层，如图5（b）所示我们根据经验发现，在ReLU之后组合Conv5层生成的特征图表现最好。第三种方法（参见图5（c））是两种架构的混合，其通过组合两个流的层M特征图并通过组合两个流的预测输出来保留原始图像Iv的原始CNN路径，如图5（c）所示。这种方法是三种方法中性能最好的架构，我们称之为差分角度成像网络（DAIN）。为了在层M处组合特征图，考虑来自具有宽度W、高度H和特征通道深度D的两个分支的特征图xa和xb。输出特征图y将是相同的尺寸W×H×D。我们可以通过以下方式组合特征图：（1）Sum：xa和xb的逐点和，以及（2）Max：x a和x b的逐点最大值。在第6节中，我们评估了这些组合低层特征映射的方法的性能。769(a) 最终层（预测）组合方法（b）中间层（特征图）组合方法(c)差分角像网络图5：合并两个图像流的方法，原始图像Iv和差分图像Iδ=Iv+δ−Iv。性能最好的配置是（c）中的架构，我们将其称为差分角度成像网络（DAIN）。5.1.多个视图我们的GTOS数据库在一个弧上有多个观察方向（部分BRDF采样）以及每个观察方向的差分我们以两种模式评估我们的识别网络：（1）单视图DAIN，具有来自Iv和Iδ的输入，其中v表示单个视角;v∈ [v1，v2，.， vN]。对于我们的全球地面观测系统数据库，v1，v2，...， vN是由10 μ m分隔的视角，表示N× 10μ m的视角范围。我们凭经验确定，N= 4个视点足以识别。对于基线比较，我们还考虑非差分版本：单视图，仅Iv用于单个观察方向，输入为Iv，v ∈[v1，v2，.， vN]。要在DAIN中合并多视图信息，我们使用三种方法：（1）投票（使用来自每个视图的预测进行投票），（2）池化（跨视点的组合特征图的逐点最大值），（3）3D过滤器+池-ing（按照[40]使用3×3×3学习滤波器组对多视图特征图进行参见图6。3D后过滤，使用池化（跨视点的逐点最大由于学习滤波器权重，该第三种方法的计算开销明显更高。6. 实验在本节中，我们将评估用于材料识别的DAIN框架，并将GTOS上的结果与几种最先进的算法进行第一次评估，图5中的两个流网络的哪种结构在GTOS数据集上最有效，从而导致在（c）中选择DAIN结构。第二个评估考虑了DAIN识别的不同变化的识别性能。第三个实验评估比较了我们的GTOS数据集上的其他三种最先进的方法，得出结论，多视图DAIN效果最好。最后，我们将DAIN应用于光场数据集，以显示在另一个多视图材质数据集中的性能。训练程序我们设计了5个训练和测试部分，每个类的地面地形表面约70%用于训练，其余30%用于测试。注意，为了确保训练集和测试集之间没有重叠，如果一个样本在训练集中，则该样本的所有视图和照明条件都在训练集中。我们的GTOS数据库中的每个输入图像都被调整为240× 240。在训练一个双分支网络之前，我们首先分别用原始图像和差分图像对VGG-M模型进行微调，批量大小为196，速度0.5动量0.9我们采用增强方法，水平和垂直拉伸训练图像在± 10%以内，可选50%水平反射镜翻转图像随机裁剪为224× 224 ma-材料补丁。所有图像都经过减法每个颜色通道的平均值，并对单位方差进行归一化最后一个全连接层的学习速率设置为其他层的10倍我们首先只微调最后一个全连接层，学习率为5×10−2，持续5个epoch;然后，通过学习微调所有完全连接的层，770图6：多视图DAIN。3D过滤器+池化方法从多个视角组合两个流（原始图像和差分图像）。W、H和D是对应特征图的宽度、高度和深度，N是视点的数量。速率为10−2，持续5个时期。最后，我们对所有层进行微调，学习率从10−3开始，当训练精度饱和时降低0.1倍。由于雪类只有2个样本，因此我们将其从实验中省略。对于双分支网络，我们使用微调的双分支VGG-M模型，批量大小为64，学习率从10−3开始，当训练精度饱和时，学习率降低0.1倍。我们使用随机拉伸训练图像将训练数据增加±25%水平和垂直，以及水平镜像翻转。图像被随机裁剪为224× 224的材质块。我们首先只反向传播到特征映射组合层3个时期，然后微调所有层。我们对每个材料表面的多视图图像采用相同的增强方法。我们随机选择第一个视点图像，然后选择后续的N= 4个视点图像进行实验。DAIN体系结构的评估表2显示了图5中描述的不同三个分支组合方法的平均分类准确度。输入是单视图图像（Iv）和单视图差分图像（Iδ）。将在最终预测层组合两个流（77%准确度）与中间层组合（74.8%）或图5（c）中的混合方法使用的组合方法是Sum，特征图是在ReLU之后从Conv5层获得的。DAIN识别性能我们评估DAIN识别性能的单视图输入（和差分图像）和多视图输入从GTOS数据库。此外，我们将结果与使用没有差分图像流的标准CNN的识别结果进行了对于所有多视图实验结果，我们选择视点的数量N= 4，由10个视点分开，随机选择起始视点（以及相应的差分输入）。表3示出了所得的识别结果。点火率（5次分割的标准差以下标表示）。前三行示出了使用单视图和多视图输入时在没有差分角度成像的情况下的精度。请注意，这些非DAIN结果的识别中间的三行显示了单视图DAIN的识别结果为了组合特征图，我们评估具有可比结果的Sum和Max请注意，单视图DAIN的识别准确率高于带投票的多视图CNN （79.4% vs.78.1% ）。这是一个重要的结果，表明使用的能力，半透明图像。代替相隔10μ m的四个视点，单个视点及其差分图像实现了更好的识别。这些结果为构建适合材料识别的成像系统提供了设计线索我们还直接使用来自两个视角的输入（即，Iv和Iv+δ）与使用Iv和微分像Iδ相当。有趣的是，差分图像作为输入具有优势（79.4%比77.5%）。表3的最后三行显示，使用多视图DAIN的识别性能优于没有差分图像流的单视图DAIN和CNN方法的性能。我们评估了不同的方式来组合多视图图像集，包括投票、池化和图6中所示的3D过滤器+池化。我们DAIN网络的CNN模块可以被其他最先进的深度学习方法取代，以进一步改善结果。为了证明这一点，我们将单个视图DAIN（Sum）中的CNN模块（输入Iv，Iδ）更改为split 1上的ImageNet预训练ResNet-50模型[19]。将ReLU之后从Res4层（第四个残差单元）生成的特征图与训练批量大小196相结合，识别率从77.5%提高到83.0%。表4显示了优于其他三种多视图分类方法的多视图DAIN的识别率：FV+CNN [6]，FV-N+CNN+N3D [13]和MVCNN771方法最终层组合中间层组合Dain精度77.0 ±2。574.8 ±3。479.4 ±3。4表2：如图5所示，不同双流法的准确度比较。（b）和（c）的特征图组合方法是ReLU后Conv5层的Sum。报告的结果为平均准确度，下标显示5个数据分割的标准差。请注意，（c）中的架构给出了最佳性能，并被选择用于差分角成像网络（DAIN）。[39 ]第39段。该表显示了全球地面观测系统数据库中图像大小调整为240× 240的单一分割的识别率。所有实验都基于相同的预训练VGG-M模型。我们使用与MVCNN [39] 实验相同的微调和训练适用于 FV-N+CNN+N3D应用于GTOS的606个样本中，有10个样本未能通过[13]中提供的方法获得几何信息，因此我们将这些样本从实验中移除。[13]中的补丁大小为100× 100，但对于GTOS只有43%，所以我们使用240× 240。我们实施FV-N+CNN+N3D使用线性映射代替homoge-新的内核映射[41]用于SVM训练，以节省内存，具有更大的补丁大小。我们在最近的4D光场（Lytro）数据集上测试了我们的多视图DAIN（求和+池化）方法[44]。使用ResNet-50作为CNN模块。在5个分裂上的全图像的识别准确率为83.0 ±2。1.一、注意，光场数据的子集用于模拟差分成像过程，因此这些结果不应被解释为我们的算法与[44]的比较。Lytro数据集具有N=49次浏览，从7× 7小透镜阵列，其中每个小透镜对应于一不同观看方向使用（i，j）作为一个索引到这个数组中，我们采用由（4，1），（4，3），（4，5），（4，7）索引的视点作为多视图DAIN中的4个视图。我们使用索引为（3，1），（5，3），（3，5），（5，7）的视点作为相应的差分视图。这是多视图DAIN的近似值;光场数据集没有捕获视角范围以精确地模拟多个视点和这些视点的小角度变化。而不是像[44]中那样使用所有N= 49个视点，我们仅通过8个视点生成可比较的识别精度。7. 结论概括起来，这项工作有三个主要贡献：1）用于稀疏空间的差分角度成像表3：将没有角度差分成像的标准CNN识别（前三行）与我们的单视图DAIN（中间三行）和我们的多视图DAIN（底部三行）的性能进行比较的结果。Iv表示从视点v得到的图像，Iv+δ是从视点v+δ得到的图像，Iδ=Iv−Iv+δ是微分图像。差分角成像网络（DAIN）具有超分辨率，即使在将单视图DAIN与多视图CNN进行比较时，性能也优于CNN。Multiview DAIN提供最佳的识别率。架构精度FV+CNN [6]75.4%FV-N+CNN+N3D [13个国家]百分之五十八点三MVCNN [39]百分之七十八点一多视图DAIN（3D过滤器），池化81.4%表4：与全球地面观测系统数据集最新算法的比较请注意，我们的方法，多视图DAIN，实现了最佳的识别精度。角梯度分布，为材料识别提供了关键线索; 2）GTOS数据集，通过系统的部分反射率现场测量而不是实验室反射率测量对地面地形进行成像。该数据库包含34，243张图像，其中包括40个表面类别，18个观察方向，4种照明条件，每个样本3种曝光设置以及每个类别的几个实例/样本3) 我们开发和评估的架构，使用不同的角度成像，显示优越的结果，不同的输入相比，原始图像。我们在室外表面测量和建模方面的工作对机器人导航（基于当前地面地形确定控制参数）和自动驾驶（通过部分实时反射测量确定道路状况我们相信我们的数据库和方法将为深入研究野生材料识别提供坚实的基础。确认这项工作得到了国家科学基金会奖IIS-1421134的支持。用于这项研究的GPU由NVIDIA公司捐赠。感谢DiZhu、Hansi Liu、Lingyi Xu和Yueyang Chen帮助收集数据。方法第一输入二输入精度单视图CNNIv-74.3 ±2。8多视角CNN，投票Iv-78.1 ±2。4多视图CNN，3D过滤器Iv-74.8 ±3。2单视图DAIN（总和）IvIv+δ77.5 ±2。7单视图DAIN（总和）IvIδ79.4 ±3。4单视图DAIN（最大值）IvIδ79.0 ±1。8772引用[1] S. Bell，P. Upchurch，N. Snavely和K.巴拉野外材料识别与上下文数据库中的材料计算机视觉与模式识别（CVPR），2015年。二、三、四[2] M. Chandraker运动观察者对未知各向同性brdf形状的可用信息。 IEEE transactions on pattern analysis andmachine intelligence，38（7）：1283-1297，2016。2[3] M. Chandraker，J. Bai，和R. Ramamoorthi关于未知各向同性brdfs的单色光度重建IEEE transactions on patternanalysis and machine intelligence ， 35 （ 12 ）： 2941-2955，2013. 2[4] K. Chatfield，K. Simonyan、A. Vedaldi和A.齐瑟曼。魔鬼在细节中的回归：深入研究卷积网。在2014年英国机器视觉会议上。三、五[5] G. Choe，S. G. Narasimhan和我。S.奎恩近红外反射分布函数与精细尺度表面几何的同时估计。在IEEE计算机视觉和模式识别会议论文集，2016。3[6] M. Cimpoi， S. 玛吉 I. 科基诺斯 S. 穆罕默德和A.维达尔迪描述野外的纹理。在Proceedings of the IEEEConference on Computer Vision and Pattern Recognition中，第3606-3613页，2014年。七、八[7] M. Cimpoi，S. Maji和A.维达尔迪用于纹理识别和分割的深度滤波器组。在2015年IEEE计算机视觉和模式识别会议集，第3828-3836页中。二、三[8] O. G. Cula和K. J. Dana三维纹理表面的识别方法。在人类视觉和电子成像VI的SPIE会议论文集，第209-220号，第3页，2001年。3[9] K. Dana和J. Wang。用于方便测量空间变化双向反射率的装置。Journal of the Optical Society of America A，21：pp. 2004年1月1日至12日。3[10] K. J. Dana捕获计算外观：比眼睛看到的要多。IEEESignal Processing Magazine，33（5）：701[11] K. J. Dana，B. Van Ginneken，S. K. Nayar和J. J·科恩-德林克。真实世界表面的反射率和纹理。 ACMTransactions on Graphics（TOG），18（1）：1-34，1999. 三、四[12] P. Debevec ， T. 霍金斯角 Tchou ， H.-P. Duiker ，W.Sarokin和M.萨加尔获得了hu的反射率场，男人的脸在第27届计算机图形和交互技术年会的会议记录中，SIG-GRAPH出版社：ACM Press/Addison-Wesley Publishing Co. 3[13] J. DeGol，M. Golparvar-Fard和D.霍伊姆几何信息材料识别。在IEEE计算机视觉和模式识别会议论文集，第1554-1562页，2016年。四、七、八[14] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。Imagenet：一个大规模的分层图像数据库。在计算机视觉和模式识别，2009年。CVPR 2009。IEEE会议，第248-255页。IEEE，2009年。5[15] C. Feichtenhofer、A. Pinz和A.齐瑟曼。用于视频动作识别的卷积双流网络融合。 arXiv 预印本 arXiv ：1604.06573，2016年。3[16] J.菲利普和R.好的基于模板的各向异性brdfs采样Comput. Graph. Forum，33（7）：91 -99，Oct. 2014. 4[17] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于准确的对象检测和语义分割。在IEEE计算机视觉和模式识别会议论文集，第580-587页3[18] E.海曼湾卡普特湾弗里茨和J. - O.埃克伦德论现实世界条件对材料分类的重要性。欧洲计算机视觉会议，第253-266页。Springer，2004. 三、四[19] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习arXiv预印本arXiv：1512.03385，2015。三、七[20] D.胡湖，加-地Bo和X.仁面向日常物体的稳健材料识别。在BMVC中，第48.1-48.11页2[21] C. Kampouris，S. Zafeiriou，A. Ghosh和S.马拉西奥蒂斯使用微观几何形状和反射率的细粒材料分类，第778施普林格国际出版社，Cham，2016年。4[22] A. Karpathy和L.飞飞用于生成图像描述的深度视觉语义对齐。在IEEE计算机视觉和模式识别会议论文集，第3128-3137页，2015年。3[23] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在神经信息处理系统的进展，第1097-1105页，2012年。3[24] T. Leung和J.马利克用三维纹理表示和识别材料的视觉外观。国际计算机视觉杂志，43（1）：29 3[25] M. Levoy和P.汉拉汉光场渲染。在计算机图形学报，ACM SIGGRAPH 96，第31-42页，1996年8月。3[26] T.- Y. Lin，L.RoyChowdhury和S.玛吉用于细粒度视觉识别的双线性cnn模型在IEEE计算机视觉国际会议论文集，第14493[27] C. Liu和J. Gu。识别照明：基于光谱BRDF最优投影的原材料逐像素分类。 IEEE Transactions on PatternAnalysis and Machine Intelligence，36（1）：86-98，2014年1月。二、三[28] C. 柳湖，加-地Sharan，E.H. Adelson和R.罗森霍兹探索贝叶斯框架中的材料识别特征。在CVPR，第239-246页，2010年。2[29] W.马图西克Pfister，M. Brand和L.麦克米兰数据驱动的反射率模型。 ACM Transactions on Graphics ， 22（3）：759-769，2003年7月。4[30] F. 尼哥底母， J·里士满夏志清， I. 金斯伯格，以及T.林佩里斯反射率的几何考虑和命名美国国家标准局，1977年。3773[31] G. Oxholm，P.Bariya和K.西野大地构造的尺度欧洲计算机视觉会议，第一卷，第58-71页，2012年。4[32] S. Ren，K.赫利河Girshick和J.太阳Faster r-cnn：Towardsreal-time object detection with region proposal networks.在神经信息处理系统的进展，第91-99页，2015年。3[33] N. 萨拉马蒂角 Fredembach和S. 很好使用彩色和近红外图像进行在2009年的IS T/SID彩色成像会议上。2[34] G. Schwartz和K.西野视觉材料特性：识别每像素材质上下文。在IEEE Color and Pho-tometry in Computer VisionWorkshop，2013年。二、三[35] G. Schwartz和K.西野自动发现局部可视素材属性. IEEE计算机视觉与模式识别会议，2015年。二、三[36] L.沙兰河Rosenholtz和E.阿德尔森材料选择：你一眼就能看到什么？Journal of Vision，9（8）：784-784，2009. 三、四[37] K. Simonyan和A.齐瑟曼。用于视频中动作识别的双流卷积网络。In Advances神经信息处理系统，第568-576页，2014年。3[38] K. Soomro、A. R. Zamir和M. Shah. Ucf101：来自野外视频的101个人类动作类的数据集。arXiv预印本arXiv：1212.0402，2012。3[39] H. Su，S.Maji、E.Kalogerakis和E.学习米勒。用于三维形状识别的多视图卷积神经网络。在IEEE计算机视觉国际会议论文集，第945-953页，2015年。8[40] D. 特兰湖布尔代夫河费格斯湖Torresani和M.帕鲁里用三维卷积网络学习时空特征。2015年IEEE国际计算机视觉会议（ICCV），第4489-4497页IEEE，2015年。6[41] A. Vedaldi和A.齐瑟曼。通过显式特征映射的高效加性内核。IEEE transactions on pattern analysis and machineintelligence，34（3）：480-492，2012。8[42] O. Wang，P. Gunawardane，S. Scher和J.戴维斯基于brdf切片的材料分类。在IEEE计算机视觉和模式识别会议上，第2805- 2811页二、三[43] T.- C. Wang，M.Chandraker，A.A. Efros和R.拉莫-提。来自光场相机的svbrdf不变形状和反射率估计。在IEEE计算机视觉和模式识别会议论文集，第5451- 5459页2[44] T.- C.王建- Y. Zhu，E. Hiroaki，M. Chandraker，A. A.Efros和R.Ramamoorthi 用于材料识别的4d光场数据集和在欧洲计算机视觉会议上，第121施普林格，2016年。二、三、八[45] G.病房测量和建模各向异性反射。在ACM SIGGRAPH 92，第265-272页，1992年。3[46] M. Weinmann，J. Gall，和R.克莱恩基于btf数据库合成训练数据的材料分类。欧洲计算机视觉会议，第156-171页。Springer，2014. 三、四[47] H. Zhang，K. Dana和K.西野用于材料识别的反射散列。IEEE计算机视觉和模式识别会议，2015。2[48] H. Zhang，K.Dana和K.西野用于材料识别的反射散列IEEE计算机视觉和模式识别会议，第371-380页，2015年。二、三[49] H. Zhang，K. Nishino和K.丹娜反射引起的摩擦：从单次现场反射率预测物理表面特性的深反射率代码。欧洲计算机视觉会议，第808-824页3[5

下载后可阅读完整内容，剩余1页未读，立即下载