野外阴影注释数据集（SAW）：用于训练卷积神经网络预测图像中每像素的阴影信息的大规模数据集

165 浏览量更新于2023-10-15 收藏 1.58MB PDF 举报

康奈尔大学

数据集

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1野外阴影注释Balazs Kovacs Sean Bell Noah Snavely Kavita Bala康奈尔大学摘要理解图像中的阴影效果对于各种视觉和图形问题至关重要与其他视觉任务一样，机器学习是一种很有前途的理解阴影的方法，但现实世界的图像几乎没有真实的阴影数据。我们介绍Shad- ing Annotations in theWild（SAW），这是一个新的室内场景中着色注释的大规模我们使用这些数据来训练卷积神经网络，以预测图像中的每像素阴影信息我们证明了我们的数据和网络在应用程序中的价值，以内在的形象，在那里我们可以减少现有算法产生的分解文物。我们的数据库可在http://opensurfaces.cs.cornell.edu/saw上获得。1. 介绍理解图像需要对场景中的形状和材料进行推理，其中物体的外观由照明调制场景理解的大量研究都集中在形状和材料上，而照明往往被忽视或视为讨厌的因素。然而，理解图像中的阴影和照明对于视觉和图形中的各种问题是至关重要的，包括固有的图像分解、阴影检测和去除、图像重新照明和逆渲染。我们如何才能在理解自然图像中的照明方面取得进展？与其他问题领域一样，我们认为数据是关键。大型数据集，如 ImageNet [10] ， COCO [26] ， Places [36] 和 MINC[6]，在推进目标检测，场景分类和理解以及材料识别方面的研究方面产生了重大影响。这一成功激发了为着色信息创建类似数据集的动机在本文中，我们提出了一个新的，大规模的众包数据集的野生阴影注释（SAW）。一个IM-图1：SAW数据集中的注释示例。绿色表示接近恒定阴影的区域（但可能具有变化的反射率）。红色表示由于形状不连续（曲面法线或深度）而产生的边。青色表示由于照明不连续（投射阴影）而产生的边。使用这些注释，我们可以学习将图像的区域分类为不同的阴影类别。在构造着色信息数据集时的重要挑战是决定以什么方式收集着色信息以及如何收集它。我们考虑了几种可能的方法来收集此类数据，并注意到许多任务中的一个关键子问题是确定图像边缘是否是由于反射率、照明或其他原因的变化（如用于内在图像的Retinex算法[24]）。这种观察导致我们在大量图像中收集两种类型的阴影注释：（1）近似恒定阴影的图像区域，以及（2）照明中的不连续性的示例（即，投射阴影边界），或形状（例如，深度或表面法线不连续性）。这些类型的注释如图1所示。我们展示了如何使用众包和自动处理的组合来大规模收集这些注释。我们的数据集包括来自近7K照片的15K阴影边界点和24K恒定阴影区域。使用我们的新数据集，我们训练了一个卷积神经网络（CNN），以识别新图像69986999图像，并证明在这个阴影分类任务的竞争力的性能相比，一些基线。最后，我们证明了我们的数据和学习网络在应用程序中的价值，以内在的图像decomposition，在那里我们可以减少现有算法通常所犯的错误，即，当纹理由于反射被错误地归因于阴影。总的来说，我们的贡献是：• 通过众包收集的新的大规模着色注释数据集，• 训练CNN使用这些数据识别阴影效果，并与基线方法进行比较，以及• 该模型的示例使用是在改进固有图像分解之前的平滑着色2. 相关工作我们的目标是建立一个专门解决图像中阴影问题的数据集，并且足够大，非常适合机器学习。有一些相关的数据集，但据我们所知，没有一个能同时实现这两个目标。内在的图像。本征图像分解是一个经典的不适定问题，涉及将图像分离成反射率和阴影层的乘积。Grosse等人[16]介绍了MIT Intrinsic Images数据集，包含16个具有地面真实反射和着色的对象。该数据集在内在图像分解方面取得了重要进展，但数据集的规模较小，并且专注于单个对象而不是整个场景，这意味着它不太适合自然图像的机器学习方法。Beigpour等人捕获相似大小的数据集，但具有多个光源[3]。Bell等发布了Intrinsic Images in the Wild（IIW）数据集[5]，拥有超过5K真实室内照片的大规模数据集，具有数百万对点之间的相对反射率判断然而，IIW仅包含有关反射率的信息，因此仅捕获有关阴影的间接信息。因此，在IIW数据上评估的固有图像算法有时可以将错误混洗到着色通道中而不受惩罚。最后，合成数据集（来自渲染的CG场景）还提供了一种方法来获得内在图像和其他问题的地面真实阴影[8，4，7]。然而，我们发现合成场景仍然不能完全代表自然图像的复杂性。深度数据集。几个数据集包含RGB-D（深度）数据，包括NYUv 2 [30]，SUN RGB-D [31]和许多其他[12]。这些数据集可用于训练算法，以从单个图像预测深度或表面法线[34，11，25，2，9]。这些形状提示（特别是曲面法线）与着色有关，但不会捕获关键的照明效果，例如投射阴影。因此，我们绘制RGB-D数据来增强我们的数据集，但使用众包来注释额外的着色信息。其他照明数据集。其他数据集捕获特定类型的照明信息，例如太阳方向[21]、环境地图[23]或户外场景中的阴影[38，22]。这些数据集倾向于专门关注室外照明（例如，来自太阳），或仅支持特定任务（例如，硬阴影检测和去除[22，17]）。其他人已经提出了用于从图像估计照明的算法，例如，用于对象插入任务[20]、重新照明[18，28]或更一般的逆渲染问题[33]。然而，这些通常需要用户输入或多个图像。我们的目标之一是通过提供用于机器学习方法的数据来帮助推进这种照明建模和编辑方法。3. 野外阴影注释我们的目标是创建一个广泛的数据集的阴影现象在室内场景。理想情况下，我们将收集每个图像的每像素，密集的绝对阴影测量，如MIT数据集[16]。不幸的是，他们使用的灰色喷漆方法不适用于整个室内场景。合成场景是提供密集地面实况的潜在替代方案，但我们发现很难构建足够大的合成图像数据集，以完全表示现实世界中的复杂照明。Bell等通过在Wild数据集中的Intrinsic Images中标注Flickr图像，针对广泛的现实世界场景[5]。他们认为，虽然人类不能提供绝对的反射率或阴影值，但他们可以通过成对的反射率判断来区分反射率和阴影由于人造物体的大量存在，反射率值在室内场景中往往是稀疏的，这通常被用作内在图像文献中的先验[14，5，37]。相反，这种稀疏性观察不适用于着色，着色通常是平滑的，并且在自然场景中的很宽的强度范围内变化。Bell等指出，这使得人类更难在图像中的任意点对之间做出相对的阴影判断，因此他们没有收集成对的阴影注释。我们的贡献是识别和收集有用的着色注释，人类可以在人群中提供，规模和高精度。3.1. 图像为了创建一个全面的着色现象数据集，我们选择建立在Intrinsic Images in the Wild（IIW）数据集[5]上，该数据集具有关于5，230张图像的相对反射率注释的补充数据。1我们进一步1SAW图像是IIW图像的超集，除了两个图像（ID：24541，24851），这是我们排除的非典型照片。一个是绘画，另一个是书封面的特写。7000图2：我们的着色注释。第一行：恒定阴影区域S（绿色多边形）。第二行：阴影边界注释NS-SB（青色圆圈）。恒定阴影区域跨越从纹理到无纹理的范围（从左到右所示区域的平均颜色梯度幅度为3。972，0。295，0。①的人。从NYU Depth Dataset v2 [30]中添加了1，449张带有RGB-D数据的图像，SAW数据集总共有6，677张图像。3.2. 着色注释分类我们的目标是按比例收集着色注释。我们将着色分为两种类型：平滑（S）和非平滑（NS），其中非平滑着色被进一步分成两个类别，阴影边界（NS-SB）和法线/深度不连续性（NS-ND）。在需要时使用众包的明智组合，并在可能时使用自动图像/场景处理，我们的数据集包括这三种类型的着色注释。3.3. 我们的注释管道试点研究。受IIW [5]的启发，我们第一次尝试收集着色注释是使用与IIW中相同的成对比较，其中工作人员被要求进行一系列成对反射率判断。对于IIW，工作人员在图像中显示一对点1和2，并要求指定是否：（1）与2相比，1具有较暗的表面颜色，（2）与2相比，1具有较亮的表面颜色，或（E）1和2具有大致相等的表面亮度（即，比，比，在我们的例子中，我们的目标不是收集成对的反射率比较，而是收集成对的着色注释。对于人类来说，推理任意点之间的光场如何不同并不容易[27]。事实上，在这种情况下，人类经常必须对图像的非常不同的区域以及不同的材料和形状做出判断。因此，我们决定让工人挑选图3：两种类型的着色注释。（a）恒定阴影区域（绿色多边形）。（b）阴影点比较（红边）。深红色表示更有信心的判断。点本身，而不是使用IIW中的原始点对。我们创建了两个任务，要求工作人员“选择两个阴影相等的点”和“选择两个阴影不相等的不幸的是，工人们很难为前一项任务提供高质量的数据。从这个试点研究中学习，我们开发了一个新的众包管道来收集工作人员可以自信地做出反应的阴影注释。收集S注释。我们知道人类很难对远处的阴影进行推理，因此我们要求工作人员对他们选择的具有近似恒定阴影的局部区域进行注释。由于着色往往是顺利的小区域，他们可以做这项任务可靠。此外，我们从区域注释中获得的数据比两点之间的成对比较多得多因此，我们能够用少量选定的工人大规模收集S注释。这些S注释是在IIW和NYU数据集上收集的。示例见图2，详细信息见3.4收集NS注释。非平滑着色由多种原因引起，诸如阴影边界或表面形状的变化（例如，通过深度不连续性或正常不连续性）。我们采用自动化场景/图像处理和众包的组合来收集这些注释。首先，我们注意到形状不连续性（即，深度或法线变化）可以从现有数据集（如NYU RGB-D数据集）获得因此，代替众包这些注释（NS-ND），我们从地面实况RGB-D数据自动生成法线/深度不连续性更多详情见第3.5节。另一种类型的非平滑着色出现在阴影边界处。对于IIW和纽约大学数据集中的每张图像7001100010-0510-1 010- 1 510-2010-2510- 3 010- 3 510-4。 010-4。 5− 50− 40− 30− 20− 10001 02 03500300025002000150010005000为了质量控制，我们还通过三个过滤任务发送每个标记区域，以解决常见错误。这些任务要求工作人员（1）由于这些任务比第一个任务简单得多，我们不需要在这里手工选择工人。对于每个平滑阴影区域，我们收集了五个响应，10.10.10.10.10.10个。10个。10个。平均颜色渐变幅度0 10 20 30 4050覆盖面积百分比三个任务中的每一个，并使用CUBAM [32]将投票汇总为一个决策。我们保留了那些图4：恒定阴影区域的统计。左：关节每种颜色的对数平均颜色梯度幅度图恒定阴影区域和对数归一化区域（1表示该区域覆盖整个图像）。梯度大小与该区域的纹理程度相关。纹理区域是有价值的，因为恒定阴影不能基于简单的像素强度测量容易地预测。右：恒定阴影区域覆盖的总图像面积百分比的直方图。如所预期的，大多数区域相对较小，因为阴影不可能在大区域上恒定更多分析请参见补充材料。我们允许工作者选择具有不同着色的点对。由于工人控制对选择，他们能够选择他们可以做出自信决定的情况。我们发现这两对选定的点经常在尖锐阴影边界的相对两侧。我们使用这种知识从来自工人的成对数据自动生成候选阴影边界点，我们通过另一个众包任务过滤这些候选阴影边界点，以从形状不连续性中分离出真实阴影边界（NS-SB）。示例见图2，详细信息见3.53.4. 正在收集S注释在这项任务中，每个工人被要求画一个多边形周围的一个区域，有近似恒定的阴影。恒定阴影的概念对于大多数工作者来说很难理解，因此为了指导工作者提交更高质量的区域，我们添加了额外的标准：该区域必须是平坦/光滑的，不透明的（即，不透明的）、无光泽的和无凹凸不平的（即，没有表面法线变化）。根据我们的初步研究，我们进一步限制该区域由单一类型的材料组成（例如，木材、塑料），而不是织物，织物在大多数情况下往往有小的凸起。然而，我们明确要求工作人员在可能的情况下标注纹理区域，以便我们不简单地收集具有单一主色的区域（例如，画墙）。这样的纹理区域是非常有价值的，因为在这些区域中不能容易地从简单的像素强度测量预测恒定的阴影我们允许八个MTurk的工作人员谁以前提供高质量的意见书，以这项任务的工作。所有测试（即，平坦/光滑的区域，具有一种材料类型、无光泽，并且不显示变化的阴影）。我们总共收集了23，947个平滑区域（S），平均覆盖图像面积的0.6%这项任务的成本是0.011美元，平均为阴影区域，加上0.056美元用于三项质量控制任务。图2（顶部）显示了带注释的平滑阴影区域的示例，图3中的绿色多边形在整个场景的上下文中显示了这些区域。图4提供了对恒定阴影区域数据的质量的洞察。3.5. 收集NS注释接下来，我们将注意力转向非平滑着色标记（NS）。在这里，我们从我们的试点研究中发现，如果工人可以选择在哪里放置一对点，他们可以成功地决定哪个点具有较暗的颜色。更明亮的阴影。然而，这些阴影变化可归因于形状变化（法线/深度不连续性）或阴影边界。虽然我们可以众包这两种注释，但形状不连续性可以直接从现有数据集获得。因此，我们自动生成NS-ND注释，并且仅对NS-SB注释使用众包。自动生成的NS-ND注释。在法线/深度不连续处，着色往往不平滑。我们使用来自现有数据集（如NYUDepth Dataset v2 [30]）的场景深度图以及从[34]的这些深度图计算的法线图生成NS-ND注释。给定深度D和法线贴图N以及阈值τ深度和τnormal，如果（τ nD2） p> τdepth或（τ nN2） p>τnormal，则将像素p注释为具有非平滑阴影。我们忽略Kinect摄像头覆盖的像素-实际上，RGB-D图像使用[11]提供的掩模提供了不可靠的深度。我们注意到，在某些情况下，这些掩模不能充分去除所有不正确的正常/深度区域，因此我们在每个掩模上使用三次迭代的二进制腐蚀，并且还忽略靠近图像边界的像素（在图像宽度的5%内）。众包NS-SB注释。最后，我们众包非平滑着色注释，管道聚焦于阴影边界（图5）。流水线中的第一个任务要求工人选择两个点，归一化面积的照片7002（d）哪些点在阴影边界上？（b）哪一点（c）（自动）有较暗的生成阴影阴影？边界候选21（a）点击两个点，不同阴影图5：点注释管道。（a）要求工作人员点击两个点，使得第一个点的阴影比第二个点的阴影暗。（b）然后，要求5名工人为每个点对挑选具有较暗阴影的点。（c）接下来，我们基于图像梯度自动生成每个点对的候选阴影边界点。（d）最后，要求工人选择阴影边界点。第一个点的阴影比第二个点深在过滤掉具有非不透明或光泽点的比较之后，我们为每个比较收集了五个投票，询问哪个点具有较暗的阴影（图5（b），类似于[5]的相对反射率判断）。原来的一对两个点算作一个额外的投票，共6票。详见补充资料。我们收集了97，294个着色比较，平均成本为0.026美元。图3中的红色边缘显示了相对阴影判断的示例。最后一步是生成并验证阴影边界点（图5（c）和（d））。给定阴影比较，我们通过在连接比较的两个点的线段上找到具有最高对数强度梯度幅度的点来为每个非相等阴影比较生成候选阴影边界点（图 5（c））。我们丢弃线段长度大于0的候选点。2，因为这些点对相距太远，并且候选点通常位于形状不连续上;或者其中最大梯度幅度小于0。3，因为这种强度差异很难注意到。然后，我们问五个工人，候选点是否在阴影边界上（图5（d））。我们在这里定义术语“阴影边界”以排除法向或深度不连续性。这确保了我们可以区分第3.5节中自动生成的法线/深度不连续性标签（NS-ND）和阴影边界标签（NS-SB）。我们通过多数投票选择了最终的阴影边界。使用该管道，我们以0.039美元的平均成本获得15，407个阴影边界点。图2（底部）显示了阴影边界注释的示例。我们在补充材料中提供收集的阴影边界点的统计数据。众包S和NS-SB的质量控制。在收集众包时，控制质量非常重要工人提交数据，直到他们通过教程。我们还向多个工人询问相同的问题，并通过多数投票或CUBAM [32]决定最后，我们使用sentinels（具有已知基本事实的问题）来过滤掉准确率较低的工人。4. 学习预测着色特征我们通过训练CNN对不同类型的着色特征进行逐像素预测来展示着色注释数据的实用性我们将这个问题公式化为基于第3.2节中定义的分类将图像的每个像素分类为三类之一：平滑阴影（S），正常/深度不连续性（NS-ND）和阴影边界（NS-SB）。4.1. 数据集处理在训练分类器之前，我们首先将数据集转换为每个图像的像素标签（注意，只有一些像素会被标记，因为我们的注释只部分覆盖每个图像）。首先，我们调整所有图像的大小，使最大图像尺寸为512。接下来，我们从我们的恒定阴影区域生成平滑阴影（S）标签，这是通过在调整大小的图像中获取区域并用3次迭代执行二进制侵蚀来实现的，以减少恒定阴影区域边界可能接触阴影边界的任何错误的影响。这为我们提供了整个数据集的25，690，392个平滑着色像素标签。然后，我们基于1，449个NYUv 2图像的调整大小的法线/深度图生成法线/深度不连续非平滑阴影（NS-ND）标签，如第3.5节中所述，其中τnormal=1。5和τ深度=2。0的情况。我们手动选择最小的阈值，注释必须是高质量的。最后，我们使用阴影边界点注释来生成其余的非平滑着色（NS-SB）标签。请注意，在生成训练集时，我们对非平滑着色标签执行“标签膨胀”：也就是说，我们还标记在5×5邻域内非常接近这些非平滑像素的像素。我们这样做是为了训练一个更保守的分类器，它不能预测光滑的阴影。非常接近非平滑的着色效果。对于确认和测试集，我们不执行这种扩张。通过这种方式，对于训练集、验证集和测试集，我们分别得到4，758，500/1，512，257/2，418，490 NS-ND和224，886/2，418，490 NS-ND。2，107/4，267个NS-SB标签。4.2. 网络架构我们扩展Bansal等人。[2]数据[1，15]。许多工人误解了说明或没有详细阅读说明。因此，我们在大多数众包任务中实现了Tu-10，深度学习框架[19]。我们使用相同的架构，但更改了最后一个全连接层以预测上述三个类。70034.3. 培训我们将每张照片分配给训练/验证/测试集，如下所示：对于原始IIW集中的照片，我们保留了[ 37 ]使用的训练/测试分割，并在其训练集上添加了额外的训练/验证分割。对于纽约大学的图像，我们使用[2]中的分割这为我们提供了4，142次培训，836次验证和1，699张测试照片。由于我们的训练数据有限，我们使用[2]的正态预测网络初始化权重，固定卷积部分的权重，只微调最后三个完全连接的层。我们尝试微调所有层或仅微调最后一个全连接层，但观察到更差的验证性能。为了避免训练偏差，平衡三个类的训练数据非常重要。我们使用2：1：1的平衡比（S：NS-ND：NS-SB），相当于平滑和非平滑类别之间的1：1平衡。与[2]类似，我们将每个输入图像调整为224 ×224然后将其传递到网络，并对输出进行上采样恢复到原始输入图像的分辨率。由于并非图像中的所有像素都被标记，并且我们希望强制执行类平衡，因此在将一批中的所有图像通过卷积层之后，我们根据我们的平衡比率在整个批次中随机采样每个类的像素有关详细的培训参数，请参阅补充材料。4.4. 推理在推理时，我们感兴趣的是预测图像中每个像素的阴影平滑的概率。在图6中，我们显示了一些示例预测，显示为平滑着色类（S）概率的热图在左图中，网络正确预测了墙壁和抛光石材表面的平滑阴影特别有用的是对具有平滑阴影的纹理化表面的高概率预测，因为这些预测对于单独基于图像强度的预测来说是重要的。然而，我们的方法也会犯一些错误。在少数情况下，高概率区域“溢出”形状不连续性，如左图中浴室的角落，或右图中手推车的尖锐形状不连续性。一般来说，网络预测平滑着色有点保守，并错过了一些平滑着色区域，但在大多数情况下，它在预测非平滑区域方面做得很好。请参阅补充材料以了解进一步的讨论和数百个热图预测。5. 评价由于据我们所知，没有现有的算法来明确预测我们考虑的三种类型的着色类，我们把我们的评估集中在预测图6：覆盖在原始输入图像上的平滑着色类（S）的预测概率的热图。所有图像都是从测试集中选择的。这些结果的讨论见第4.4平滑着色与非平滑阴影，我们可以使用简单的基线进行比较。5.1. 基线用于预测阴影类别的一组自然基线是固有图像算法，它接受输入图像I并将其分解为反射R层和着色S层。我们使用几个国家的最先进的内在图像分解算法作为基线。特别地，给定分解R和S，我们基于着色通道S的梯度幅度将像素p分类为平滑/非平滑着色。如果p处的梯度幅度小于阈值τ，即，则我们说预测的阴影在p处是平滑<的（否则，不平滑）。在实践中，我们发现在梯度图像上应用大小为10×10的最大滤波器可以改善这些基线的结果，因此我们在测试中应用了这种滤波。我们将CNN的预测与七种基线算法进行比较：（1）“恒定反射率”（即，那条鲱鱼ingchannel 是输入图像本身的亮度通道），（ 2 ）[Shenet al.2011][29]，（3）Color Retinex [16]，（4）[Garceset al.2012][13]，（5）[Zhaoet al.2012年][35]，（6）[Bell等人2014] [5]和（7）[Zhouet al. 2015年][37]。5.2. 精准召回通过在我们的测试图像集上运行这些基线算法，并扫描阈值τ，我们可以绘制由基线预测的平滑阴影类的精确度-召回率（PR）曲线（参见图2中的彩色线）（七）. 2类似地，我们可以针对平滑着色概率扫描阈值σ2请注意，我们的测试集与训练集具有相同的2：1：1标签平衡，并且我们仅在测试集中包含精确位于边界上的非平滑阴影点，即，我们不执行标签扩张。我们不对数据集中没有标签的点进行评估7004¨¨1.00.80.60.40.20.0测试精度-召回常数R[Shen et al.2011]Color Retinex[Garces等人2012][Zhao et al. 2012年][Bell et al. 2014][Zhou et al. 2015]我们的方法不受图像对比度的限制。这些像素在曲线的低召回率区域处被分类为平滑阴影的像素中占大多数，其中基线的阈值τ较小。随着τ的增加，召回率也随之增加，低对比度像素的比例会降低，而对于曲线的一小段，精度会增加最后，请注意，我们的方法的曲线在两端被截断。这是由于CNN的行为，它产生的预测值（在最终的softmax层之后）0.0 0.2 0.4 0.6 0.8 1.0召回图7：阴影预测的查准率。我们绘制PR曲线的基线和我们的算法。我们的算法具有竞争力的性能;讨论见正文。方法精密度@百分之三十百分之五十百分之七十常数R0.8270.8220.787[Shen等人2011年][29]0.9580.8990.784[16]第十六话0.8670.8500.755[Garceset al. 2012年][13]0.9770.9490.834[Zhao等人2012年][35]0.9560.9450.868[Bell等人2014年][5]0.9360.9020.802[Zhou等人2015年][37]0.8730.8580.802我们的方法0.9460.9380.845表1：不同回忆水平下阴影预测的精确度。对于七个基线和我们提出的方法，显示了30%，50%和70%的精确度@召回水平CNN预测的能力，即。如果预测的平滑着色概率Pp大于σ，则我们说像素p处的着色是平滑的。解释此评估的一种方法是作为由此产生的PR曲线如图7所示，在这些曲线上的几个召回值的性能如表1所示。最好的方法是[Garceset al. 2012]和[Zhaoet al. 2012]，其使用包括聚类和长程项的全局优化。相比之下，我们的方法使用一个单一的前馈通过，仍然实现了竞争力的性能。请注意，PR曲线并不都是单调的（请参见通常恰好饱和在0或1。也就是说，有一些像素，它报告最大的信心，在平滑或非平滑的阴影，这种行为表现为截断的PR曲线。因此，我们的最大召回率低于其他方法。这种行为表明，最终的softmax层可能会消除预测分数中的一些值得注意的是， [Bellet al.2014] 优于 [Zhouetal.2015][37]，尽管根据IIW基准得分[5]，后者被认为具有更高质量的我们推测，由于IIW基准仅基于反射率注释，因此分解着色层中的错误没有得到充分的惩罚。因此，我们的数据集提供了另一个，互补的镜头，评价结果的内在图像方法。未来工作的一个领域是使用我们的注释结合IIW基准设计一个新的，统一的方法来评估内在的图像算法，同时考虑反射和阴影注释。我们显示的例子分解作为补充材料，从这两种算法。6. 应用于固有图像现在，我们证明了使用我们的平滑阴影预测，dictions作为一个先验的内在图像分解算法。为了证明这种先验的使用，我们修改了[35]的Retinex公式。它们最小化以获得分解的原始成本函数如下：Σfl（S）=[（Sp-Sq）2+ω（p，q）（Rp-Rq）2]，（p，q）∈N其中N表示图像中所有相邻像素对的集合，Sp和Rp分别是像素p处的阴影和反射率。 ω（p，q）在阴影和反射平滑度，由Retinex例如，PR曲线的左侧部分），部分地因为地面实况NS-ND标签包含具有非常低对比度的多个像素（即，具有小的图像梯度规则：ω（p，q）=.¨0if？R？p¨— Rqt2因此很难正确分类）。这些低对比度像素中的一些是由于像输入图像中的饱和像素（例如，靠近强光源的墙角）。另一方面，这些地面实况标签基于Kinect深度图像，其质量否则100。其中t是Retine x阈值，Rp和Rq是像素p和q的色度（详情参见[35]）。为了简单起见，我们不使用[ 35 ]的非局部约束，只使用t = 0的Retinex约束。02.我们将我们的精度7005¨¨(a) 输入（b）平滑S（S）（c）Rw/o先验（d）Sw/o先验（e）Rwith prior（f）Swith prior图8：我们使用平滑着色先验展示了内在图像分解所有图像都是从测试集中选择的(b) 显示了我们的平滑着色（S）预测的热图R和S分别表示反射率和阴影通过使用我们的平滑着色先验，我们可以减少分解着色层中的伪影，特别是去除属于反射层的表面纹理效果例如，我们的方法删除了更多的地砖纹理（顶部），或者从遮光层的毯子（底部）的纹理。通过修改ω（p，q）来平滑着色先验：http://opensurfaces.cs.cornell.edu/saw网站。照明是一ω（p，q）=.¨0if？R？p¨— Rqt2成像关键特性;我们希望我们的数据集可以使其他研究人员能够以更丰富的方式利用现代机器学习工具来探索这一特性。100·[1−（Hp+Hq）/2]，否则。Hp和Hq是我们的模型（第4节）在像素p和q处预测的平滑阴影概率。该公式允许分解算法平滑地忽略预测的平滑着色热图具有高概率的区域处的强反射率恒定性约束在图8中，我们展示了使用和不使用平滑着色先验的分解。在某些情况下，我们可以看到分解后的着色层有了显著的改善。具体来说，我们的网络是成功地检测纹理区域与平滑的阴影，其中大多数固有的图像算法无法从阴影层中删除纹理。补充资料有更多例子。7. 结论和未来工作我们提出了Shading Annotations in the Wild，这是一个新的大规模真实室内场景阴影数据集，使用众包和自动化相结合的方法使用这个数据集，我们训练了一个CNN，以在图像中阴影效果的每像素分类中实现与许多基线相比具有竞争力的性能。我们还展示了这种网络的潜在应用作为本征图像分解的平滑着色先验。我们已将此数据集公开发布于我们的工作为今后的工作提出了一些可能性。基于我们的数据对固有图像算法进行的评估表明，我们的注释可以提供另一种基于着色性能对这些算法进行排名的方法，这与广泛使用的WHDR度量[5]（仅直接测量反射率性能）是一致的。使用SAW与IIW的反射率注释，我们相信，可以建立新的内在图像指标，以推进最先进的。我们用于将像素分类为不同阴影类别的CNN可以以多种方式扩展。例如，我们可以联合预测阴影类别、形状和材料（即，在像PixelNet [2]这样的方法中的多任务设置中学习）。进一步推进这个想法，可以创建一个网络，直接预测内在图像分解以及场景几何结构，或者更进一步，预测使用我们的数据训练的几何结构和照明的完整3D描述鸣谢本工作得到了美国国家科学基金会（授予IIS-1617861，IIS- 1011919，IIS-1161645，IIS-1149393）和Google Fac.com的支持。研究奖。7006引用[1] M. 阿拉巴赫什湾 Benatallah ， A. Ignjatovic ， H. R.Motahari-Nezhad、E. Bertino和S.达斯达众包系统中的质量控制：问题和方向。IEEE Internet Computing，17（2）：76-81，Mar. 2013. 5[2] A.班萨尔湾Russell和A.古普塔。Marr Revisited：通过表面法线预测的2D- 3D模型对齐。在proc计算机视觉与模式识别，2016。二五六八[3] S. Beigpour，A. Kolb和S.昆兹一个全面的多光源数据集的基准的内在图像算法。在Proc.国际计算机视觉会议，2015年12月。2[4] S. Beigpour，M. Serra，J. van de Weijer，R. 贝纳文特，M. Vanrell，O. Penacchio和D.萨马拉斯合成复杂场景的本征图像评价。InInt. Conf. on Im-age Processing，2013.2[5] S. Bell，K.Bala和N.很聪明在野外的内在图像ACMTrans. on Graphics（SIGGRAPH），33（4），2014.二、三、五、六、七、八[6] S. Bell，P. Upchurch，N. Snavely和K.巴拉野外材料识别与上下文数据库中的材料Proc. 计算机视觉与模式识别，2015。1[7] N.博内尔湾Kovacs，S. Paris和K.巴拉用于图像编辑的内在分解。计算机图形论坛（Eurographics State of the ArtReports 2017），36（2），2017。2[8] D. J. Butler，J.Wulff，G.B. Stanley和M.J. 黑色. 一个用于光流评估的自然开放源代码电影。以.菲茨吉本等人（编），编辑，Proc. European Conference on ComputerVision，Part IV，LNCS 7577，第611Springer-Verlag，Oct. 2012. 2[9] W. Chen，Z. Fu，D. Yang和J.邓小平更在野外的单一图像深度感知。在神经信息处理系统，2016年。2[10] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。Imagenet：一个大规模的分层图像数据库。在proc计算机视觉和模式识别，第248- 255页。IEEE，2009年。1[11] D. Eigen和R.费格斯。预测深度，表面法线和语义标签与一个共同的多尺度卷积架构。在Proc. InternationalConference on Computer Vision，第2650-2658页，2015年。二、四[12] M.菲尔曼RGBD数据集：过去、现在和未来。在CVPR大规模3D数据研讨会：采集，建模和分析，2016年。2[13] E. Garces，A. Munoz，J. Lopez-Moreno，and D.古铁雷斯通过聚类的内在图像。计算机图形论坛（Eurographics Symposium on Rendering），31（4），2012年。六、七[14] P. 盖勒角Rother，M.基费尔湖Zhang和B.Scholkopf利用反射率的全局稀疏性先验恢复固有图像。神经信息处理系统，2011年。2[15] Y. Gingold，A. Shamir和D.科恩-奥用于视觉任务的微感知人类计算 ACM Trans. 2012年9月12日，《图形学》，31（5）：119：1-119：12。2012. 5[16] R.格罗斯湾K. Johnson，E. H. Adelson和W. T.自由人。地面实况数据集和基线评估，7007trinsic图像算法2009年国际计算机视觉会议。二六七[17] R.郭角，澳-地Dai和D.霍伊姆单图像阴影检测和消除使用配对区域。计算机视觉和模式识别，2011年。2[18]T. 哈伯角Fuchs，P.Bekaer，H.-P. 塞德尔湾Goesele，以及H. P. Lensch 从图像集合重新照亮对象。在Proc. 计算机视觉与模式识别，2009。2[19] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地Gir- shick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构 arXiv 预印本 arXiv ：1408.5093，2014。5[20] K. Karsch，V. Hedau，D. Forsyth和D.霍伊姆将合成对象渲染为旧照片。在 ACM Trans. 第30 卷第 157 页ACM，2011年。2[21] J. - F. Lalonde、A.A. Efros和S.G. 纳拉希姆汉从单个室外图像估计自然光照。在Proc. International Conferenceon Computer Vision，第183- 190页IEEE，2009年。2[22] J. - F. Lalonde、A. A. Efros和S. G.纳拉希姆汉检测户外消费者照片中的地面阴影。在proc2010年欧洲计算机视觉会议2[23] J. - F.拉隆德和我。马修斯户外图像采集中的光照估计。2014年国际3D视觉会议。2[24] E. H.兰德和J. J。麦肯亮度和视网膜理论。光学学会杂志Am. ，61（1），1971. 1[25] B. Li，C.沈，Y.Dai，A.van den Hengel和M.他外基于深度特征回归和分层crfs的单目图像深度和表面法线估计在proc计算机视觉与模式识别，2015。2[26] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra-manan ， P.Doll a'r 和 C. L. 齐特尼克Microsoftcoco ：上下文中的通用对象。在 Proc.European Conference on Computer Vision ，第 740-755页。Springer，2014. 1[27] Y.奥斯特洛夫斯基山口Cavanagh和P.辛哈感知场景中的照明不一致。Perception，34（11），2005. 3[28] P.Ren，Y. Dong，S. Lin，X. Tong和B.小郭。使用神经网络的基于图像的重新照明。2015. 2[29] J. Shen，X. Yang，Y. Jia和X.李使用优化的固有图像。计算机视觉与模式识别，2011年。六、七[30] N. Silberman，D. Hoiem、P.Kohli和R.费格斯。室内分割和支持从rgbd图像推断。在proc 2012年欧洲计算机视觉会议。二、三、四[31] S.宋，S. P. Lich

下载后可阅读完整内容，剩余1页未读，立即下载