4D光场显著性检测的深度学习模型及数据集

62 浏览量更新于2023-10-12 收藏 1.01MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8838用于光场显著性检测的深度学习王天天，朴永日，小李，张立和，胡川路大连理工大学，中国tiantianwang.ice @ gmail.com example.com，wwwyrpiao@dlut.edu.cnexample.com，wwwlhchuan@dlut.edu.cn摘要由于缺乏大规模的4D光场数据集，4D显著性检测的研究受到限制。为了解决这个问题，我们引入了一个新的数据集，以协助在4D光场显着性检测的后续研究。据我们所知，这是迄今为止最大的光场数据集，其中数据集为每个光场图像提供了1465个具有人类标记的地面真实掩模的全焦点图像和相应的为了验证光场数据的有效性，我们首先介绍了一个融合框架，该框架包括两个CNN流，其中焦点堆栈和全焦点图像作为输入。焦点堆栈流利用循环注意机制自适应地学习以整合焦点堆栈中的每个切片，这受益于好切片的提取特征。然后将其与由全聚焦流生成的输出图合并以进行显著性预测。此外，我们通过故意向图像中添加噪声来引入对抗性示例，以帮助训练深度网络，这可以提高所提出的网络的鲁棒性。噪声是由用户设计的，它是不可感知的，但可以欺骗CNN做出错误的预测。大量的实验表明，该模型的有效性和优越性的流行的评价指标。与现有的2D、3D和4D显著性检测方法相比，所提出的方法在所提出的数据集和前LFSD光场数据集上表现良好代码和结果可以在https://github.com/OIPLab-DUT/ICCV2019_Deeplightfield_Saliency上找到。此外，为了促进这一领域的研究，我们收集的所有图像都以随时可用的方式共享。1. 介绍显著目标检测是指对最吸引人注意力的物体进行定位和分割，长期以来一直是计算机视觉领域的一项基本任务。*通讯作者(a)（b）（c）（d）图1。Lytro Illum相机生成的通常，焦点堆栈是图像（切片）的集合在每个切片中，有一些场景点处于清晰聚焦状态，而其他点处于模糊散焦状态。现有的方法基于2D [7，18，21，22，27，32，42，43，62，63，66，72，78]，3D [10，21，22，27，32，43，62，13、25、33、47、55、77]或4D [38、39、67、69]图像。一大部分作品属于第一类，只有少数属于后两类。近年来，随着深度学习技术的快速发展，二维图像显著性检测的性能得到了显著提高。通常RGB图像作为深度网络的输入，并提取分层特征以从局部和全局角度计算显着性。随着商业3D传感器（如Microsoft Kinect[74]）的可用性，深度图被纳入显着性检测的深度网络中。附加的深度信息依赖于RGB特征，可以描述3D几何信息，并帮助人类理解显著对象的上下文信息。近年来，由于光场相机可以在一次曝光中记录多个视点，因此光场相机变得越来越流行。手持式光场相机Lytro Il- lum [46]具有微透镜阵列，该阵列由数千个微小透镜组成，旨在测量来自多个方向的光。这些信息可以通过渲染[34]和拍摄后重聚焦技术[46]合成不同种类的2D图像，包括焦点堆栈、深度图和全聚焦图像例如，参见图1，焦点堆栈中的每个切片都显示了不同的焦点深度级别。焦点堆栈是3D形状信息的丰富来源，并已广泛用于焦点形状8839和计算机视觉中的散焦形状计算[4，23]。然而，显著性检测中的4D数据仅限于利用手工特征（例如颜色、纹理、对比度）的传统方法。由于光场显着性数据的数量有限，因此对其探索较少目前，只有一个公开可用的光场显着性数据集[39]具有每像素的地面实况，其中包括100个全焦点图像，一组焦点堆栈和相应的如果没有大规模的数据，算法的可扩展性研究较少，充分利用数据丰富性的方法不太可能被利用。鉴于此，重要的是引入大规模数据集来辅助进一步的显著性检测。在获得光场数据之后，如何有效地将它们合并仍然需要处理。如图1所示，每个焦点堆栈切片分别指示图像区域的多少落入焦点，这由景深控制。显然，这些切片在最终的显著性预测中扮演不同的角色，这是因为一幅图像中的重聚焦区域包含显著对象，而一些散焦区域仅代表背景。我们倾向于选择显著的重聚焦切片来测量显著性。在这种情况下，我们期望所提出的方法可以聚焦于“好”切片，其呈现相对清晰的前景对象和模糊的因此，受[80]的启发，我们采用了一种新的切片注意力模型，该模型利用基于每个切片的卷积特征的递归神经网络。该模型可以学习自适应地合并每个切片的特征，以学习更有效的特征表示。与第3节中描述的其他融合结构相比，所提出的模型生成的输出特征显示出更好的性能。为了进一步帮助网络的训练过程，我们建议利用对抗性示例进行显著性检测。对抗性示例首先由Szegedy等人引入。 [58]，它验证了现有的DNN容易受到人类制作的图像的攻击。也就是说，尽管正确分类的输入只有很小的感知差异，但CNN仍然可能被现有的最先进的分类网络错误分类[26，57]。受他们工作的启发，在本文中，我们证明了引入对抗性示例可以在一定程度上帮助训练显着性网络，这可以进一步提高显着性检测的性能。总体而言，我们的贡献总结如下：• 我们收集并标注了第一个大规模的光场显著性数据集，其中包含1000张训练图像和465张测试图像。每个图像包含一个全焦点标记有每像素地面实况的图像和具有变化的重聚焦和散焦区域的焦点堆栈。• 我们研究了几种专门为光场数据集成而设计的CNN融合框架并提出了一种新的框架，其中一个专注的循环CNN被用来整合所有的焦点切片。通过引入对抗样本增加数据的多样性，提高了框架在不同输入数据下的鲁棒性。• 与现有的2D、3D和4D方法相比，该方法在两个光场基准数据集上的性能良好。2. 相关作品本文从显著性检测和深度融合方法两个方面简要介绍了相关工作2.1. 显著性检测根据输入数据的类型，现有的显著性检测方法一般可以归纳为三类[39]：1）RGB图像上的显著性; 2）RGB-D图像上的显著性; 3）光场图像上的显著性。以往的方法主要集中在手工特征上，无法处理背景复杂的物体。最近的深度学习可以处理更复杂的图像，这在像素级任务方面取得了突破，例如显着性，分割[14RGB显著性检测。RGB显着性检测方法主要采用手工制作的2D视觉提示，例如颜色，对比度和背景先验[3，8，17，31，41，50，54，70]。在[28]中，Itti等人提出了局部中心环绕强度、颜色和方向的对比度来检测显著目标。在[65]中，Yang等人通过基于图形的流形排名计算每个超像素[2，76]与背景像素这些方法都是基于图像边界区域大部分为背景或前景与背景之间颜色对比度高的理想假设。尽管它们在某些广泛使用的2D数据集上取得了有希望的性能[6，30，45]，但它们难以处理理想假设不适用的挑战性情况。为了克服这一点，提出了基于CNN的显着性检测[35，36，60，79]，并实现了最先进的性能，这得益于高级语义信息和低级结构化线索的优势。在[60]中，Wang等人提出了两种不同的CNN来学习局部信息以及用于显着性检测的全局对比度。Li等人。 [36]提出了一种端到端的深度对比度网络，由像素级完全卷积流和分段空间池化流组成。RGB-D显著性检测。由于Microsoft Kinect的诞生，从RGB-D图像[10，13，33，47，55]中检测显著对象吸引了大量兴趣[5]。深度先验被广泛用于RGB-D显著性检测，其是运动的。因为离观察者最近的物体总是吸引最多的注意力。Peng等人 [47]提出一项特别的建议--8840Conv1−Conv5Deconv1Conv1Conv5Deconv1正+++Conv1Conv5Deconv1(a)（c）第（1）款+C(b)（d）其他事项图2.用于4D输入的不同CNN架构逐元素加法级联通过同时考虑深度和外观线索，实现了多阶段RGB-D模型。Ren等人。 [55]通过利用全局先验的有效性提出了一种两阶段RGB-D显着对象检测框架在[33]中，Lang等人将深度先验集成到显着性检测模型中，以增强显着性预测。Desingh等人。 [13]通过非线性回归将RGB-D显着性与RGB显着性模型结合使用，以测量显着性值。这些方法证明了深度线索在确定显著目标中的重要作用。然而，这些方法可能遭受假阳性时，显着ob-bacteria位于遥远的位置。最近基于CNN的工作[25，52，56]通过将深度图像视为CNN的输入来计算显着性，从不同的动机开始Qu等人 [52]在RGB-D图像上设计卷积神经网络（CNN），以融合不同的低级别显着性线索与分层特征。在[25]中，Han等人利用CNN来学习RGB视图和深度视图中的高级表示，并提出了一种多视图CNN（MV-CNN）融合模型来组合这两种Shigematsu等人。 [56]通过利用高级，中级和低级特征提出了一种深度CNN架构。光场显著性检测。与RGB和RGB-D显著性检测方法相比，光场的显著性检测仍处于早期探索阶段，由于对足够数据的访问有限，使用光场信息的方法较少，并且没有提出基于CNN的方法。Li等人。 [39]开发了第一个显著性检测方法，该方法利用聚焦和对象模拟。然后，Li等人 [38]提出了一个统一的显著性检测框架，用于处理不同类型的输入数据（RGB图像、RGB-D图像和光场图像）。在[67]中，Zhang等人将深度线索与背景先验和位置先验结合引入光场显著性计算。Zhang等人 [69]从光场图像获得显著性线索列表，例如颜色、深度、流动和多视点，然后通过使用位置先验作为乘法加权因子来整合它们。这些作品表明，独特的重建-光场的聚焦能力可以大大提高显著性检测的准确性然而，现有的光场方法都局限于计算手工特征，忽略了显著对象的语义信息，这在某些复杂场景下是有效的。总体而言，与传统的显著性方法相比然而，现有的深度显著性方法仅基于RGB或RGB-D图像，这忽略了眼动的重要方面，即，跨深度平面的注意力转移。光场数据集中聚焦于不同深度的聚焦切片显示了光场独特的焦点堆栈中的图像在显著性预测中的值不同，这是因为不同的物体和背景位于不同的切片中。为了探讨光场信息之间的相互作用机制，本文重点研究如何在统一的框架下有效地融合焦点堆栈和所有焦点图像。2.2. 深度融合方法许多现有的工作已经以不同的方式进行融合，包括早期融合[11，61]、晚期融合[9，37]和逐层融合[24]。Couprie等人。 [11]利用多尺度CNN进行语义分割。RGB图像和深度图像被连接，然后通过拉普拉斯金字塔变换以被馈送到CNN中。在[61]中，显着性先验图和RGB图像被连接起来作为递归全卷积网络的四通道输入。在[9]中，门控融合层被学习来组合RGB和深度预测图以进行语义分割。Li等人。 [61]提出了一个像素级完全卷积流和一个分段空间池流来产生两个显着性预测。然后这些预测被融合以产生显着图。在[24]中，Gao等人学习在每个卷积层自动融合不同任务的特征。与他们的工作不同，我们的方法可以利用重聚焦区域的优势，在每一个切片，以帮助显著性检测。此外，我们的方法可以更多地关注分离的局灶性切片级联焦点切片全焦点图像预测器组合特征卷积特征图Conv1−Conv5Deconv2平均+Conv1−Conv5Deconv1CConv1−Conv5Deconv18841有用的片段。当将上述不同的融合机制应用于焦点堆栈时，早期融合平等地对待每个切片（具有RGB图像），并且仅跨RGB通道将它们连接，而切片之间没有高级语义交互。分层融合算法考虑了焦平面和RGB图像之间的相互作用后融合方法提取各层的特征，并对各层特征进行平均后进行预测，没有考虑各层的重要性优先级该方法利用递归注意力，迭代计算焦点堆栈中各切片的权重，得到各切片语义特征的加权融合，与上述融合方法相比，该方法可以提高融合性能。0.16涉及各种照明条件和不同摄像机参数。我们利用LytroDesktop将光场格式文件转换为可以直接轻松处理的jpeg图像。我们最初使用Lytro Illum相机拍摄了3000多张图像。(a) 图片（b）GT（c）UCF (d)PAGRN (e)我们图4.使用光场图像的好处然后，我们丢弃的图像是重复的，模糊的，或包含大的显着对象。预处理后，我们保留了1465张图像来构建最终的数据集。0.180.160.140.120.100.080.060.040.0200.120.10.080.060.040.020 0.20.40.60.81尺寸比1002003000.140.120.10.080.060.040.020012345678910 11 12 13焦点堆栈18161412108642每个图像包含一个具有逐像素地面实况的全聚焦图像和一个焦点堆栈。图像的空间分辨率为600×400。为了获得逐像素的地面实况，我们使用自定义分割工具我们首先沿着显著对象绘制粗略的边界最后，将数据集随机分为两部分，包括1000张训练图像和465张测试图像。我们还在图3中提供了所提出的数据集的统计数据，该数据集显示了对象大小，焦点堆栈大小，平均颜色对比度和显着ob-to-point的位置分布。0 0.5颜色对比40010200 400 600分布在所有图片中。从图3（a）中，我们可以看到，所有显著对象在整个IM上的面积百分比图3.建议的光场数据集的统计数据。 (a)、（b）、（c）和（d）从左到右和从上到下排列。 (a)：突出物体的大小。(b)：每个焦点堆栈中的切片数。(c)：前地与背景之间的颜色对比。(d)：显著对象中心的空间分布。规模对象对象类型对象大小颜色对比LFSD1001（大部分）<1000.280.39HFUT-Lytro255多<250--我们1465多>10000.220.30表1.比较建议的数据集与两个现有的数据集的数据集规模，显着的对象，对象的类型，对象的平均大小和颜色对比度的数量。3. 4D光场数据集互联网上的4D光场图像很少，尤其是包含显著物体的4D光场图像。为了弥补光场图像的不足，我们引入了一个大规模的光场数据集，这是与广泛的室内和室外场景捕获室内场景包括图书馆、办公室、教室、超市等，室外场景包括街道、校园、户外市场等。另外，我们数据集中的图像年龄在[0.05，0.8]的范围内，并且大多数对象占据图像的小于40%的面积。对应于每个全焦点图像，焦点切片的数量从2到13不等（见图3（b））。并且大多数焦面叠层包含5个以上的切片，这可以显示图像深度的多样性。颜色对比度是评价图像挑战性的另一个标准。我们计算内，外显着对象的所有像素的平均RGB特征，然后计算每幅图像的两个平均RGB特征之间的欧氏距离。图3（c）示出了显著对象相对于背景具有低的颜色对比度为了避免显著对象容易被中心先验线索提取，我们提供了整个数据集上每个显著对象从图3（d）可以看出，显著对象的中心出现在各种位置。此外，拟议数据集和现有两个数据集的一些详细比较见表1。我们在图4中提供了一些示例来演示使用光场的好处。例如，在第一行和第二行中，仅从2D图像，预测图在背景上生成更多噪声。但随着比百分比百分比884226426464 64646464++的关注ConvLSTM22融合损失层+的26426464++损失层损失层全焦点图像焦点堆栈图5.基于震源叠加加权后期积分的整体两支网络借助于光场图像，这种预测变得更加f3，f4，f5. 然后，我们利用一个类似于FCN的结构，r r r r4 5更容易，因为对象和背景噪声位于不同的焦点切片，我们可以选择最相关的一个，使突出的对象从背景中脱颖而出。通过使用双线性帧间对特征Fr、Fr进行上采样，使用元素加法运算，用f3对f4和f5进行上采样以产生最终特征R r r4. CNN结构在这一部分中，我们集中讨论如何有效地利用所捕获的4D光场图像，包括全聚焦图像和焦点堆栈。我们提出了一个双流可训练卷积神经网络架构来解决显著对象检测问题。所提出的模型可以进行端到端的训练我们首先在4.1节介绍基本结构，然后在4.2节介绍拟议的框架。除了所提出的方法，我们还描述了四种可选的融合结构，其中一个可以直接提出丰富的光场数据的基础上。虽然这些架构也可以解决所提出的任务，我们分析了这些方法之间的差异最后，我们介绍了对抗性示例，并将其与原始图像集成，以帮助微调第4.3节中提出的网络。4.1. 基本结构如图2（b-d）所示，每个双流CNN都由基本结构（a）组成，这是一个基于FCN的网络。对于双流网络，我们将焦点堆栈馈送到第一个流中，并将所有焦点图像作为第二个流的输入。这两个流都基于VGG19网络。我们只保留了前16个卷积层，并删除了最后一个最大池，两个完全连接和softmax损失层，它们是为分类任务而设计的在VGG 19中有五个卷积块，并且给定输入图像，每个卷积块的输出特征图表示为f 1，f 2，.， f 5. 特征图f4和f5具有最小的空间分辨率，其为输入图像的1/16为了构造第一个流，我们在f3、f4、f5后面连接三个卷积层，以将相应的输出特征映射的维度减少到64，表示为表示. 输出的特征图是输入的1/4空间分辨率和特征维数为64。第二流采用与第一流类似的架构，唯一的区别是我们在输出64×64特征图之后将一个卷积层与2个3×3内核连接以生成预测图。第一个频道是背景掩模，而第二个表示突出掩模。预测图的空间大小与第一流的输出特征相同。这两个流的详细框架可以在图5中找到。4.2. 不同的融合结构如图2所示，有几种不同的方法来执行这两个数据流的集成，从早期融合到后期融合。光场数据的早期整合。如图2（b）所示，我们仅利用第二流，并在将焦点堆栈和全焦点图像馈送到第二流之前，跨其RGB通道连接焦点堆栈和全焦点图像中的每个切片这可以通过改变VGG19的第一卷积层的输入通道而保持其余层不变来实现。然而，每个焦点堆栈切片和全焦点图像仅通过低层颜色特征来处理，这肯定会丢失这些图像之间的高层语义关系。光场数据的逐层积分。对于VGG19的每个卷积块，我们提取图2（c）中所示的两个流的特征然后，我们通过元素加法来整合这两个特征。输出特征用作两个流的下一个卷积层的输入。这可以利用每个焦点堆栈和全焦点图像的分层特征相关性。然而，输入是焦点切片的级联RGB特征，其省略了每两个切片之间的交互相关性。震源叠加的后期积分。见图2（d），我们Conv2Conv1Conv1Conv2Conv3Conv3Conv4Conv4Conv5Conv58843n=1n=1h0注意F1ConvLSTMO1F关注CF2H1ConvLSTMO2cO注意FThT 1ConvLSTMOTFFNN-1F2CascadeFCFF3Conv1+ Ave ragepoolingSoftmaxht 1ConvFt(a)（b）第（1）款图6.循环注意力网络的结构如图（a）所示，（b）表示注意力子网。将每个切片独立地前馈到第一流中，并直接对每个输出特征图进行平均。该方法结合了从CNN的分层特征中提取的信息。然而，这只是平等地对待每个切片的特征，而没有充分考虑每个切片在显著预测中所起的作用。对显著性检测有很大进一步利用各种注意的特征之间的空间相关性，我们接下来将Ft馈送到Co n vLSTM网络中。在每个时间步t，ConvLSTM使用来自前一个时间步的隐藏状态 h t − 1 和 attentivefeatureF<$t作为输入，并生成输出ot。其由以下公式描述震源叠加的加权后期积分。我们提出的融合过程是基于图2（d）的模型，it=σ（WxiF<$t+Whi T−1+Wci ◦ Ct−1 +bi）如图5所示。在图6中，我们重点关注了多样化焦点切片与循环注意力模型的整合。具体来说，利用注意力子网来学习焦点堆栈中每个切片的重要性，并采用递归ConvLSTM [64]来学习集成特征表示。这里，我们利用I={In|In∈RW×H×C}N用N个切片表示输入焦点堆栈I。W和H表示切片的宽度和高度。C是图像的尺寸。焦点堆栈流接受I作为输入，并输出每个切片的特征图，由F={Fn|Fn∈RWs×Hs×Cs}N. 我们在图中展示了递归注意模型的6. 在每个时间步t，注意力子网采用ConvLSTM的N个特征和隐藏状态ht−1作为输入，输出Ft是输入的加权平均功能.注意子网在图6的右边描述。我们在Fc和ht−1后面连接一个卷积层，以将特征映射的维度减少到64，从而提高计算效率。然后对这两个要素进行逐要素相加，并采用全局平均池化层来聚合每个要素的空间信息位置接下来，我们使用具有N个1×1内核的卷积层来预测中每个特征图的权重wt，n。F. wt，n使用softmax运算进行空间归一化ft=σ（Wxf<$F<$t+Whf<$Ht−1+Wcf<$Ct−1+bf）Ct=ft<$ Ct−1+it<$anh（Wxc<$F<$t+Whc<$Ht−1+bc）ot=σ（WxoF<$t+WhoHt−1+WcoCt−1+bo）Ht=o ttanh（ Ct），（二）其中，Ct表示在时间步长t处的单元输出，H1，.，Ht是隐藏状态，i t，f t，o t表示门。it是输入门，它确定信息是否将被累积到单元状态Ct。ft是遗忘门，决定什么信息可以从细胞状态Ct抛出。如果输入门it开启，则输入信息将被累积到单元Ct，如果遗忘门ft开启，则过去的单元状态Ct-1将被遗忘如果输出门ot打开，则最终状态Ht将累积最新的单元输出Ct。所有b表示卷积层的偏置。符号表示卷积运算，表示Hadamard乘积（元素乘积），σ（·）表示sigmoid函数。焦点堆栈的最终特征表示是在每个时间步长t∈ {1，2，.，T}。在获得每个切片的综合特征后，我们连接一个卷积层，具有64个通道的层和具有两个通道的另一层，以进行第一流的显著性预测最后通过wt，n=exp（wt，nΣN）/ n=1 exp（wt，n）的情况。输出地图由第一流生成的预测图将组合注意力子网的计算方法如下：ΣNF<$t=w<$t，nFn.（一）n=1与第二流产生的一个，最终预测4.3. 对抗样本对抗性扰动导致神经网络注意力子网可以关注焦点切片，当将焦点切片添加到原始预测时，焦点切片改变其原始预测。8844数据集MSTBSCADCLDHSDSS护身符UCFPAGRNPiCANetR3网络DFRGBDRGBDACSDDILFLFSWSC我们LFSDmaxF0.7040.7950.7800.8560.7680.8630.8650.8400.8670.8760.8410.8410.7800.8490.7790.7860.863Mae0.2090.2050.1610.1150.1780.0930.1430.1320.1110.0980.1800.1970.2180.1530.2390.1680.093S-M0.6460.7250.7420.8030.6780.8010.8080.7660.8220.8110.7320.6500.6810.8010.6550.7000.826E-M0.7200.7660.7840.8440.8650.8470.8440.7910.8470.8520.7370.6500.6750.8450.6250.7700.877我们maxF0.5450.6420.7160.8160.7350.7820.7890.8490.8510.7610.7220.5700.262-0.439-0.868Mae0.2100.2150.1560.0950.1320.0700.1530.0840.0890.1140.1630.2020.337-0.259-0.070S-M0.5940.660.7100.8030.7140.7770.7700.8100.8380.7330.6870.50.357-0.517-0.852E-M0.7170.7420.7810.8650.7840.8430.8280.8410.8720.8080.6840.4320.545-0.545-0.905表2.两个数据集上最大F-测量、MAE、S-测量、E-测量评分的定量比较红色和蓝色的颜色代表最好的和第二的分数。输入I.通过使用原始图像和对抗性样本进行训练，整个CNN网络可以在一定程度上避免过拟合，并且在面对来自不同来源的扰动时仍然可以准确预测为了生成对抗性示例，我们使用下面描述的公式，Iadv=I+θ·sign（θIJ（f（I;θ），S）），（3）这是通过增加网络在输入图像I和真实掩模S上的交叉熵来激发的。符号f（·）表示由θ参数化的神经网络。将噪声设置为常数0.1，可以控制噪声的大小。·J（·，·）是模型损失的梯度关于输入图像I的我们在图7中展示了采用和不采用对抗性示例的可视化示例。可以看出，通过引入对抗性的例子来帮助训练过程，预测的地图可以更好地抑制背景噪声Image GT w/o Ours图7.有和没有反例的例子。5. 实验5.1. 培训详细信息所有网络都是使用公开可用的Pytorch工具箱和两个Nvidia 1080-Ti GPU实现的。我们采用一般的数据增强方案，包括翻转，裁剪和旋转操作。具体来说，我们使用水平翻转和垂直翻转，并裁剪出最顶部，底部，左侧，右侧和中间的9/10图像。我们还将所有图像旋转90度，180度，270度的角度。总之，我们将训练集增加了11倍，包括原始图像。我们将动量和权重的decay分别设置为0.99和0.0005初始VGG 19和其他层的学习速率固定为10-10和10-8，分别我们使用官方的VGG19 Pytorch模型来初始化整个网络。所有不在VGG19网络中的卷积层的权重参数都由零均值和10−2方差的正态分布初始化，而偏差则以常数零初始化minibatch大小设置为4。我们调整所有的训练-年龄为256×256。我们首先使用增强图像训练图5中的整个网络，然后这是我们利用具有地面真值掩码的等式3来生成对抗性示例。然后，我们通过整合原始图像和对抗图像来微调整个网络，直到它收敛。5.2. 数据集为了评估所提出的方法的性能，我们在LFSD [39]数据集和所提出的数据集上进行了实验。LFSD包含Lytro光场相机拍摄的100张光场图像，包括60个室内场景和40个室外场景。这是第一个为显着性检测设计的光场数据集。大多数场景只包含一个与背景具有高对比度的显著该数据集包含1000张训练图像和465张测试图像。这是一个更具挑战性的数据集，具有以下特征：显著对象和背景之间的对比度较低，更小规模的显著对象，多个断开的显著对象和各种光照条件，如暗光或强光。5.3. 评估指标我们采用精确召回（PR）曲线，F-measure [1]，平均绝对误差（ MAE ）得分 [49] ，结构度量（ S-measure）[19]和增强对齐度量（E-measure）[20]来验证我们提出的算法的有效性。5.4. 与最新技术在这里，我们提供了16个最先进的显着目标检测方法的定量比较[2019 - 05- 15][2019 - 05][PAGRN [73] ， PiCANet [44] ， R3 Net [12] ， DFRGBD[53]，[29]第29话，我是你的朋友。88450.90.80.70.60.50.40.30.2ACSDBSCALFSMSTRGBD我们00.10.20.30.40.50.60.70.80.91召回0.90.80.70.60.50.40.30.2DCLUCFPAGRNPiCANetR3NetRGBDF我们0.10.20.30.40.50.60.70.80.91召回0.90.80.70.60.50.40.30.20.10ACSDBSCALFS MSTRGBD我们0.90.80.70.60.50.40.30.20.10查全率测量DCLUCFPAGRNPiCANetR3NetRGBDF我们图8.在我们的数据集上比较几种最先进的方法。第一列和第二列显示P-R曲线，最后两列显示F测量分数。DILF [68].我们要么使用作者提供的显着图，要么使用作者设置的默认参数运行可用的代码。对于定量评价，我们在表2中列出了MAE、F-测量、S-测量和E-测量评分。可以看出，所提出的方法在四个度量方面优于跨两个数据集的2D、3D和4D算法。然后，我们进一步提供了图8中的P-R曲线，这也可以证明所提出的方法在所有算法中的有效性。所提出的方法的定性结果，其他国家的最先进的方法和更多的结果可以在超级，*LFSD我们的数据集MaemaxFMaemaxF（一）0.1330.8170.1040.819（b）第（1）款0.1250.8250.0860.847（c）第（1）款0.1260.8310.1040.823（d）其他事项0.1320.8300.1100.822+ att0.2360.8250.2270.819+ att + LSTM0.1000.8510.0720.863我们0.0930.8630.0700.868表3.各种结构的消融研究（a）-（d）表示图2中的结构。符号“+”表示我们在焦点堆栈的后期融合上逐渐添加模块（d）。‘att’ denotes the attention补充材料。5.5. 消融分析为了验证所提出的方法的优点，我们在表3中提供了针对不同变体的最大F测量和MAE分数的实验结果首先，与不使用焦点堆栈的框架（a）相比，大多数方法产生了更好的结果，这其次，我们可以看到不同的模型（b-d）的性能根据不同的集成机制而有所不同，这表明如何在全聚焦图像和焦点堆栈之间进行集成至关重要。图9中可以找到一些示例样本。我们发现，该方法可以突出显著对象均匀，并产生尖锐的边界。我们还提供了在不使用ConvLSTM（+att）的情况下的结构结果。与（d）其中每个焦点堆栈的输出特征通过逐元素加法以及ConvLSTM和注意力模块两者的利用来操作相比，没有LSTM的注意力机制降低了性能，这表明LSTM和注意力机制之间的相互作用对于显著性检测是重要通过利用ConvLSTM，我们的方法可以通过递归机制学习更有效的特征表示。此外，与没有对抗性示例的模型（+att+LSTM）相比，我们的模型表现得更好，这源于对抗性示例在辅助训练深度网络方面的优势。Image GT（a）（b）（c）（d）Ours图9.不同网络之间的视觉比较6. 结论在本文中，我们首先介绍了一个大规模的光场数据集，以解决光场数据不足的问题我们的数据集包含1465张图像，比以前的所有数据集都要大得多。然后重点研究了如何将光场数据引入深度学习以及如何有效地组合光场数据（全焦点图像和焦点堆栈）的问题。我们利用一个经常性的注意力网络融合焦点堆栈中的每个切片。注意力网络可以集中在每个切片的信息量最大的特征上，并生成它们的加权融合。递归网络（ConvLSTM）被用来有效地学习依赖于焦点切片之间的空间关系的特征表示。为了进一步提高所提出的方法的鲁棒性，我们引入对抗性示例作为输入来帮助训练网络。大量的定量和定性评价表明，所提出的方法在现有的2D，3D和4D图像的有前途的结果。7. 确认本工作得到了大连市科技创新基金（2019J12GX039）、国家自然科学基金（61605022、61876202和U1708263）和国家自然科学基金（2019J12GX 039）的资助，中央大学基础研究基金（DUT19JC 58）。查全率测量精度精度8846引用[1] R. Achanta，S.S. Hemami，F.J. Estrada和S.暂停频率调谐显著区域检测。在CVPR，第1597-1604页，2009中。7[2] R. Achanta，K.史密斯，A. Lucchi，P.Fua，and S.暂停切片超像素。技术报告，EPFL，Tech.众议员149300，2010年。2[3] Radhakrishna Achanta和Sabine Ssstrunk。使用最大对称环绕的显著性ICIP，第2653-2656页，2010年。2[4] 浅田直树，藤原久永，松山隆。从焦点的边缘和深度。IJCV，（2）：153-163，1998. 2[5] 大卫·布劳。Xbox的Kinect。APC，2011年。2[6] Neil D. B. Bruce和John K.佐斯基于信息最大化的显著性。NIPS，第155-162页，2005年。2[7] M.M. Cheng，G.X. Zhang，N.J. Mitra，X. Huang和S.M.胡基于全局对比度的显著区域检测。IEEE TPAMI，37（3）：569-582，2015。1[8] 程明明，张国新，N. J. Mitra，Xiaolei Huang，and ShiMin Hu.基于全局对比度的显著区域检测。在CVPR，第409-416页，2011中。2[9] Yanhua Cheng，Rui Cai ，Zhiwei Li ，Xin Zhao，andKaiqi Huang. 用于rgb-d室内语义分割的门控融合局部敏感反卷积网络在CVPR，第3卷，2017年。3[10] Arridhana Ciptadi，Tucker Hermans，and James Bogger.对显着性的深入观察。在BMVC中，第112.1-112.11页，2013年。一、二[11] Ca milleCouprie ， Cle' mentFarabet ， LaurentNajman 和Yann LeCun。使用深度信息的室内语义分割。arXiv，2013. 3[12] Zijun Deng，Xiaowei Hu，Lei Zhu，Xuemiao Xu，JingQin，Guoqiang Han，and Pheng-Ann Heng. R3net：用于显著性检测的循环残差细化网络在IJCAI中，第684-690页AAAI Press，2018. 7[13] Karthik Desingh ，Krishna K Madhava ， Deepu Rajan ，andC. 诉贾瓦哈深度真的很重要：用深度改进视觉在BMVC中，第98.1-98.11页，2013年。一、二[14] Henghui Ding ， Xudong Jiang ， Ai Qun Liu ， NadiaMagnenat Thalmann，and Gang Wang.用于场景分割的边界感知特征在ICCV，2019年。2[15] Henghui Ding ， Xudong Jiang ， Bing Shuai ， Ai QunLiu，and Gang Wang.基于上下文对比特征和门控多尺度聚合的场景分割方法.在CVPR中，第2393-2402页，2018年。2[16] Henghui Ding ， Xudong Jiang ， Bing Shuai ， Ai QunLiu，and Gang Wang.语义相关性促进了形状变化的上下文分割。在CVPR中，第88852[17] Lijuan Duan ， Chunpeng Wu ， Jun Miao ， and LaiyunQing.基于空间加权相异度的视觉显著性检测在CVPR，第473-480页，2011年。2[18] Deng-Ping Fan ， Ming-Ming Cheng， Jiang-Jiang Liu ，Shang- Hua Gao，Qibin Hou，and Ali Borji.突出的物体-ter：将显著对象检测带到前景。在ECCV，第186-202页，2018年。1[19] Deng-Ping Fan，Ming-Ming Cheng，Yun Liu，Tao Li，and Ali Borji.Structure-measure：一种评估前景图的新方法在ICCV，第4548-4557页，2017年。7[20] Deng-Ping Fan ， Cheng Gong ， Yang Cao ， Bo Ren ，Ming-Ming Cheng，and Ali Borji.二进制前景图评估的增强对准措施。arXiv，2018年。7[21] Deng-Ping Fan，Zheng Lin，Jia-Xing Zhao，Yun Liu，Zhao Zhang ， Qibin Hou ， Menglong Zhu ， and Ming-Ming Cheng.重新思考r

下载后可阅读完整内容，剩余1页未读，立即下载