具有双重局部图学习和互相引导的光场显著性检测

41 浏览量更新于2023-10-13 收藏 13.2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

{liunian228, wangbo.zhao96, zhangdingwen2006yyy, junweihan2010}@gmail.com,47120具有双重局部图学习和互相引导的光场显著性检测0Nian Liu 1 * Wangbo Zhao 2 * Dingwen Zhang 2 Junwei Han 2 † Ling Shao 101 Inception Institute of Arti�cial Intelligence 2 Northwestern Polytechnical University0ling.shao@ieee.org0摘要0最近在显著目标检测中越来越流行地应用光场数据。困难在于如何有效地融合焦点堆叠内的特征，并将它们与全焦点图像的特征协同工作。以前的方法通常通过卷积或ConvLSTM融合焦点堆叠特征，这两种方法都不够有效且不适用。在本文中，我们通过图网络对焦点堆叠内的信息融合进行建模。它们引入了强大的上下文传播，避免了不适用的实现。一方面，我们构建局部图连接，从而避免了传统图网络的计算成本。另一方面，我们建立了一种新颖的双图模型，通过全焦点模式指导焦点堆叠融合过程。为了解决第二个困难，以前的方法通常对焦点堆叠和全焦点特征进行一次性融合，因此缺乏对它们的补充的彻底探索。我们引入了一种互相引导的方案，并在多个步骤中使这两种信息相互引导。因此，这两种特征都可以进行迭代增强，最终有助于显著性预测。广泛的实验结果表明，所提出的模型都是有益的，我们取得了比最先进方法显著更好的结果。01. 引言0显著目标检测（SOD）方法可以分为基于RGB的方法，基于RGB-D的方法和最近提出的基于光场的方法。仅基于静态图像，尽管RGB SOD方法[18, 26, 24,54]在许多基准数据集上取得了出色的性能，但它们仍然无法处理具有挑战性和复杂性的问题。0* 平等贡献。†通讯作者。0R0R0(a) 稠密图连接 (b) 局部图连接0(c) 我们提出的模型框架0焦点堆叠0全焦点图像0DLG0图1.(a)和(b)显示了传统稠密图模型和我们提出的局部图模型的比较。(c)说明了我们模型的框架。 R � 表示互相引导单元。0场景。这是因为RGB图像中传达的外观显著性线索受到严格限制，特别是当前景和背景外观复杂或相似时。为了解决这个问题，引入了深度信息，在RGB-DSOD方法中提供补充线索[3, 52, 31,27]。然而，获得高质量的深度图并不容易，许多当前的RGB-DSOD基准数据集只有噪声深度图。相反，光场数据因此，光场SOD问题有很大的探索潜力。0除了焦点堆叠图像，光场数据还有一个提供上下文信息的全焦点图像。因此，光场SOD有两个关键点，即如何有效地融合多个焦点堆叠特征以及如何将焦点堆叠线索与全焦点信息协同工作。解决第一个问题的一种直接方法是连接焦点堆叠特征并使用卷积层进行融合。这种简单的方法无法充分探索不同焦点切片之间的复杂交互，因此可能限制模型的性能。这也是一个不适用的解决方案，因为卷积需要固定的输入数量，因此许多方法在输入图像时不得不随机填充。47130它们小于预定义的数量。采用ConvL-STM[43]是另一种常见的解决方案，其中焦点堆栈图像按照预定义的顺序使用内存机制逐个处理。这也涉及到一个不适定的问题设置，因为焦点堆栈图像之间没有有意义的顺序。此外，顺序使用可能导致ConvLSTM忽略较早输入的焦点切片的信息。对于第二个问题，大多数先前的工作 [38]只是简单地将焦点堆栈特征与全焦点特征连接或求和，然后仅进行一次卷积融合。这种直接的融合方法严重限制了对这两种信息之间复杂补充关系的探索。为了解决第一个问题，采用强大的图神经网络（GNNs）[14, 35]是一种可能的方法。GNNs从相邻节点聚合上下文信息并将其传播到目标节点，从而可以实现有效的特征融合。同时，它避免了不适定的实现问题，因为图连接可以灵活地构建，不依赖于顺序。一种直接的方法是将焦点堆栈的特征图中的每个像素位置视为一个节点，并在所有位置之间构建密集的边连接，如图1(a)所示。然而，这是不切实际的，因为光场SOD需要大的特征图来获得细粒度的分割。因此，构建一个密集连接的图涉及到巨大的计算成本。为此，我们提出了在不同焦点切片中高效聚合上下文的局部图构建方法，如图1(b)所示。我们将焦点堆栈中的每个图像像素位置视为节点，并仅在局部相邻节点之间构建图，如图1(b)所示。这样，焦点切片内的上下文传播可以通过大大减少的边连接进行高效执行。可以进一步引入多尺度的局部邻居，从而以可接受的计算成本融合更大的上下文信息。除了在焦点堆栈内构建图之外，我们还构建了一个焦点-全焦点图，以引入来自全焦点特征的外部指导，用于焦点特征的融合，从而得到一种新颖的双局部图（DLG）网络。为了解决光场SOD中的第二个关键点，我们提出了一种新颖的互相指导架构，如图1(c)所示。它在全焦点图像特征和焦点堆栈特征之间引入了多步指导。在每一步中，首先使用前者指导后者的融合，然后使用融合特征来更新前者。我们以互相指导的方式进行这样的过程，可以进行互相指导。最后，这两种特征可以通过更高的可辨识性得到改进，从而有益于最终的SOD决策。我们的主要贡献可以总结如下：0• 我们提出了一种名为双局部图的新型GNN模型0为了在全焦点特征的指导下实现对焦点堆栈特征中上下文的有效传播，并避免高计算成本。0•我们提出了一种新颖的互相指导方案，使焦点堆栈和全焦点特征在多个步骤中相互指导和促进，从而逐渐提高显著性检测性能。0•大量实验证明了我们方法的有效性。它在很大程度上超越了其他光场方法。此外，我们的方法在训练数据较少的情况下，与基于RGB-D或基于RGB的SOD模型相比，也显示出竞争力或更好的性能。02. 相关工作02.1. 光场SOD0尽管CNN的使用大大改善了RGB SOD和RGB-DSOD的性能[39,56]，但在SOD任务中仍然存在许多挑战，特别是当视觉场景复杂时。因此，一些工作尝试利用光场数据中的焦点线索进行SOD。[21]是第一个探索使用光场数据进行SOD的工作，并构建了第一个基准数据集。此后，背景先验[46]、加权稀疏编码[20]和光场流[47]被广泛用于这个新任务。关于传统方法的更多细节可以在[12]中找到。当进入深度学习时代时，几种深度学习方法显著提升了光场SOD的性能。张等人[50]将焦点切片的特征图和全焦点图像输入到ConvL-STM[43]中逐个融合它们。这种方案存在不适定的实现问题。另一方面，他们的方法只在焦点堆栈和全焦点特征之间进行一次融合。王等人[38]和朴等人[33]都使用不同的注意权重融合来自不同焦点切片的特征，在ConvLSTM中的多个时间步骤中推断这些权重。因此，他们在焦点切片内进行了多次特征融合。然而，[38]只进行了焦点堆栈和全焦点特征的融合一次，而[33]则没有进行这样的融合。他们采用了知识蒸馏[16]来提高全焦点分支的表示能力。与先前的工作不同，我们提出的DLG网络实现了所有焦点切片图像之间的高效上下文融合。我们还将全焦点特征引入到焦点堆栈融合过程中，并且我们提出的互相指导架构在两种特征之间引入了多次互相指导。这两个关键点以前从未被先前的工作探索过。02.2. 图神经网络0图神经网络（GNN）由[14]提出，并由[35]发展用于建模图中的数据结构…𝐹𝑓10𝐹𝑓20𝐹𝑓𝑁0𝐹𝑓11𝐹𝑓𝑁1𝐹𝑓12𝐹𝑓𝑁2𝐹𝑓13𝐹𝑓𝑁3…47140D0G �0�0�0�0� 10FSFA0M0A0D0G �0�0�0�0� 20M0A0D0G �0�0�0�0� 30M0A0� � 10� � 20� � �0� �0VGG-190VGG-190VGG-190VGG-19 �0图2.我们提出的模型概述。DLG：提出的双重局部图；FSFA：焦点堆叠特征聚合；AM：用于生成注意力矩阵A（11）；�：逐元素乘法；⊕：逐元素加法；GRU：ConvGRU [5]。由于空间限制，我们只展示了三个时间步骤的互补指导过程。0领域。由于GNN能够建模节点之间的关系，因此它们已经应用于许多领域，例如分子生物学[13]、自然语言处理[2]、知识图谱[15]和疾病分类[34]。最近，GNN在计算机视觉领域也得到了广泛的探索。Wang等人[41]采用图卷积网络构建时空关系以进行动作识别。对于密集预测任务，Luo等人[28]使用GNN在特征图之间构建图并同时学习跨模态和跨尺度推理以进行RGB-DSOD。在[40]中，Wang等人提出了一种注意力GNN，用于学习几个视频帧之间的语义和外观关系以进行视频目标分割。Zhang等人[48]采用图卷积网络来同时实现内部显著性检测和图像间对应关系以进行共显性检测。后两个工作都构建了密集连接的像素-像素图，这在计算上是昂贵的且缺乏可扩展性，特别是对于具有超过10个焦点堆叠图像的光场数据。相反，我们提出了一种新颖的图结构，具有局部像素-像素连接，用于光场SOD。我们还引入了扩张的邻域连接以提高计算效率。此外，我们构建了两个图，同时传播焦点堆叠图像之间的上下文交互并融合全焦点图像的指导。02.3. 互补模型0互补或循环模型，包括RNN、LSTM [17]和GRU[6]，使用内部状态或记忆处理时间序列，并逐步更新其状态。还有许多其他使用互补模型的显著性检测工作或其他相关任务。AGNN [40]和CAS-GNN[28]将互补模型用作GNN中的节点更新函数，以更新图节点嵌入。DMRA [31]、DLSD [38]、ERNet [33]和MoLF[50]将注意力模型与互补模型相结合，以改进给定的特征或一组特征。R3Net [7]和RFCN[37]反复融合显著性图与CNN特征或输入图像以改进显著性图。不同的0从中，我们使用互补模型来迭代更新两种特征，即焦点堆叠特征和全焦点特征，考虑它们之间的相互作用以引入相互指导。03. 提出的模型0在图2中，我们展示了所提出模型的概述。首先，我们使用两个编码器从全焦点图像和相应的焦点切片中提取特征。然后，我们将它们输入到提出的DLG模型中，在焦点切片之间传播上下文特征，这些特征由焦点堆叠特征聚合模型进一步聚合。通过提出的互相引导方案，焦点堆叠特征和全焦点特征可以多次融合，从而逐步改进。最后，将融合特征与低层特征融合，预测最终的显著性图。03.1. 通用GNN0GNN具有将上下文从相邻节点传播到图结构数据的强大能力。给定一个特定的GNN模型G=(V, E)，V={v1, v2, ...,vN}表示节点集合，ei,j∈E表示从vj到vi的边。每个节点vi都有一个相应的节点嵌入作为其初始状态h0i。我们用Ni表示vi的相邻节点集合。GNN首先从Ni聚合上下文信息到vi的状态，使用学习的消息传递函数M来更新vi的状态，不同种类的GNN具有特定的M函数形式。对于第k步的vi的消息传递过程的一般公式可以写为：0mk i = M([h k-1 1, h k-1 2, ...h k-1 j], [ei,1, ei,2, ...ei,j]), (1)0其中每个vj∈Ni。在消息传递之后，可以学习一个状态更新函数U来根据聚合的消息更新vi的状态，可以定义为：0h k+1 i = U(h ki, mk i). (2)0最后，在K步更新之后，可以应用读出函数对hKi进行最终输出。…𝐹�𝐹�Focal-Focal GraphFocal-All Graph471503.2. 特征编码器0对于光场SOD问题，我们有一个全焦点图像Ia和其对应的焦点堆叠图If，其中包含N个焦点切片{If1，If2，...IfN}，它们具有不同的焦点区域。在定义图中的节点和它们的嵌入之前，我们首先使用编码器网络提取图像特征。如图2所示，Ia和If首先被输入到两个不共享的编码器中提取全焦点图像特征和焦点堆叠特征。与之前的工作[33,50]类似，我们采用VGG-19[36]网络作为编码器的骨干网络，去掉最后的池化层和全连接层。我们从最后三个卷积阶段获取高级特征。然后，我们以自上而下的方式[23]融合它们，并在1/4的尺度上获得融合的多尺度特征Fa∈R1×C×H×W和Ff∈RN×C×H×W，其中Ff={Ff1，Ff2，...FfN}表示N个焦点切片的特征集，W、H和C分别表示特征图的宽度、高度和通道数。03.3. 双重局部图0我们使用图模型来融合焦点堆叠特征Ff，通过在焦点切片内传播上下文，并在全焦点特征Fa的指导下进行特征更新。后者可以为Ff的特征更新提供外部指导。在Ff和Fa之间直接构建密集连接的图，即[40,48]中的情况，需要(N+1)WH×(N+1)WH个边连接。当特征图具有较大的空间尺寸时，这种方案在消息传递过程中的计算代价是禁止的。[40,48]之所以使用密集连接图的原因是视频对象分割和共同显著性检测中的目标对象通常位于不同的空间位置。因此，需要全局上下文。然而，对于光场SOD，每个全焦点图像及其对应的焦点堆叠图像都是空间对齐的。因此，仅使用局部上下文就足够了。因此，在本文中，我们提出了一种新颖的DLG模型，仅在光场SOD中的局部邻近节点之间构建边连接。我们设计了两个子图，分别命名为焦点-焦点图和焦点-全图，用于从焦点切片传播上下文信息到焦点切片和从全焦点图像传播上下文信息到焦点切片。整个过程可以定义为：F'f =DLG(Ff, Fa)，(3)0其中F'f ∈ R N × C × H ×W表示上下文聚合后的更新特征。0周围区域的定义:在引入所提出的图网络之前，我们首先定义特征图中位置的周围区域。给定特征图中的像素位置(w, h)，我们有一个大小为k ×k且膨胀为d的采样窗口，以(w,h)为中心。然后，我们可以将除了中心位置(w,h)之外的所有采样位置视为其周围区域，如图3中的蓝色点所示。周围区域定义了局部区域的上下文，并可用于构建局部图连接。0� � � � 焦点-焦点图焦点-全焦点图0图3.焦点-焦点图和焦点-全焦点图的结构。对于焦点特征中的每个空间位置(w, h)，我们有N个目标节点(橙色)。对于它们对应的周围区域，我们有N× (k × k - 1)个节点(蓝色)。在全焦点特征中，我们将相同的位置(w,h)及其周围区域视为指导上下文，并获得k ×k个节点(绿色)。两个图中一个目标节点与其邻居之间的连接如右图所示。0中心位置(w,h)本身，作为其周围区域，如图3中的蓝色点所示。周围区域定义了局部区域的上下文，并可用于构建局部图连接。0Focal-Focal Graph: 首先，我们在每个空间位置(w,0(V_f_w,h, E_f_w,h)对于每个空间位置(w,h)仅在焦点特征中存在。为了简化表示，我们省略了下标。给定提取的焦点堆叠特征图F_f，我们可以将其视为每个空间位置具有N个来自N个焦点切片的C通道的点。具体而言，对于位置(w,h)，我们有N个目标节点，具有C维嵌入，可以定义为V_T。在(w, h)的周围区域，我们还有N × (k × k -1)个具有C维嵌入的节点，其中我们使用V_S表示这些节点的集合。这里我们有V_T ∪ V_S =V_f。然后，我们定义边来连接这些节点。我们遵循两个规则：1)V_T中的节点是我们的建模目标。因此，它们彼此之间以及自身之间相互连接。2)V_S中的节点作为目标节点的局部上下文。因此，它们与V_T中的每个节点相连。除了这些边之外，图中没有其他连接。这两种类型的边构成了E_f。现在，我们需要定义边的嵌入。为了简化起见，我们使用u和v分别表示目标节点和其邻居，即u ∈ V_T且v ∈V_f。它们的状态（特征）可以写为h_u和h_v。边的嵌入e_f_u,v表示从v到u的关系。由于这两个节点都来自焦点堆叠特征图，我们使用内积来计算边的嵌入，如下所示：0e f u,v = θ f (h u) � φ f (h v), (4)0其中θ_f(*)和φ_f(*)是具有可学习参数的两个线性变换函数。它们具有相同的输出维度，并可以通过全连接层来实现。因此，计算得到的e_f_u,v是一个标量。0Focal-All Graph:为了使用全焦点特征来指导焦点特征的更新，我们还在每个空间位置(w, h)上同时构建了一个焦点和全焦点图G_a =(V_a, E_a)。再次，我们eau,q = ψ([θa(hu), φa(hq)]),(5)mfu =�v∈Vfαfu,vgf(hv),(6)mau =�q∈V′Sαau,qga(hq),(7)αfu,v =exp(efu,v)�j∈Vf exp(efu,j),(8)αau,q =exp(eau,q)j∈V′S exp(eau,j).(9)O = FSFA(F ′f),=N�i=1Ai ⊙ F ′fi,(11)47160为了简化表示，我们省略了下标(w,h)。对于焦点特征中的位置(w,h)，我们有相同的目标节点集合V_T。然后，我们将全焦点特征中的相同位置(w,h)及其周围区域视为指导上下文，并获得一组k ×k个节点V'_S。这里V_T ∪ V'_S =V_a。我们将V'_S中的所有节点连接到V_T中的每个节点，以将指导上下文纳入所有目标节点。这里我们使用u和q分别表示目标节点和其邻居，即u ∈ V_T且q ∈V'_S。类似地，它们的状态由h_u和h_q表示。由于这两个节点来自两个不同的特征空间，我们使用线性变换来构建从q到u的边的嵌入，可以定义为：0其中 [ , ] 表示连接操作， θ a ( � ) 和 φ a ( � )分别表示两个线性变换函数。最后一个线性函数 ψ将输入投影到一个标量。0消息传递：在获取每个节点和边的嵌入之后，我们现在可以定义消息传递过程的公式。对于目标节点 u，我们分别定义在焦点-焦点图和焦点-全图中的消息传递为：0其中 g f ( � ) 和 g a ( � ) 是两个图中的线性变换函数， α � �可以通过 Softmax 归一化计算得到：0根据（6）和（7），我们可以通过考虑（4）和（5）中推断出的关系来聚合邻居节点的上下文和引导信息。0节点更新：在两个子图中获取邻居节点的信息后，我们可以通过以下方式更新节点 u 的状态：h ′ u = ϕ f ( m f u ) +ϕ a ( m a u ) + h u (10)0其中 ϕ f ( � ) 和 ϕ a ( � )分别是焦点-焦点图和焦点-全图中的两个线性变换函数，用于将消息转换为原始节点嵌入空间。通过采用提出的局部图模型，建模上下文传播的计算复杂度在0光场图像的计算复杂度从 O ((( N + 1)( HW )) 2 C ) 降低到O ( NHWC ( N + 1) k 2 ) 。考虑到 k 2 � HW，我们的模型显示出显著的效率。0多尺度周围区域：引入周围区域后，提出的两个图网络可以在局部区域聚合信息，从而大大降低计算成本。然而，仅使用一个采样窗口对尺度变化敏感。受ASPP[4]的启发，我们结合了具有不同膨胀率的多个采样窗口，以融合多尺度和更大的上下文，如图3所示，其中我们使用两个膨胀率分别为1和3的 3 × 3 采样窗口。03.4. 焦点堆叠特征聚合0在 DLG 模型中更新每个节点嵌入 h ′ u后，我们可以在（3）中获得最终的输出焦点堆叠特征 F ′ f。不同焦点切片的特征已经相互通信，并从全焦点特征中获得引导。现在我们可以确定其中有用和无用的特征，并将N 个特征图聚合成一个。首先，我们使用一个 1 × 1卷积层将 F ′ f 的通道数从 C 减少到 1。然后，沿着第一个维度使用 Softmax归一化函数获得一个注意力矩阵 A ∈ R N × 1 × H × W，其中每个位置的 N维注意力权重编码了该位置上每个焦点切片的有用性。最终聚合的焦点堆叠特征可以通过以下方式获得：0其中 O ∈ R C × H × W ， ⊙ 表示逐元素乘法， A i 和 F ′ f i 分别表示第 i 个焦点切片的注意力图和特征图。03.5. 互逆引导0尽管聚合的焦点堆叠特征 O 可以直接与全焦点特征 F a融合以预测显著图，但我们认为单相位融合方案无法有效地挖掘两种特征之间的复杂相互作用和补充关系，这对于光场SOD至关重要。因此，我们提出了一种互逆引导方案，使两种特征相互促进多个步骤。在这里，为了避免混淆，我们重新定义编码器的输出为 F 0 f = { F 0 f 1 , F 0 f 2 , ...F 0 fN }和 F 0 a，其中上标表示初始互逆步骤。然后，我们将提出的互逆引导过程定义为：47170F t +1 f = DLG ( F t f , F t a )，(12)0O t +1 = FSFA ( F t +1 f )，(13)0F t +1 a = ConvGRU ( O t +1 , F t a )，(14)0其中t∈[0，T−1]，ConvGRU是卷积门控循环单元模型[5]。在每一步中，首先使用全焦点特征F t a来引导焦距特征F tf的特征融合。在图模型和特征聚合之后，进一步使用聚合的焦距堆叠特征O t +1通过ConvGRU增强F ta进行显著性检测。最后，ConvGRU可以使用记忆机制在所有互补步骤中有效地融合两种特征，即O t +1和F ta。随着互补过程的进行，两种特征可以在彼此的引导下逐步改进，从而有利于最终的显著性检测。另一方面，随着互补过程的进行，焦距-焦距图中的上下文传播可以多次执行，从而增强了F t f内的特征融合。03.6. 显著性预测和损失函数0由于已经证明低层特征可以有益于恢复物体细节，因此我们还利用低层全焦点特征在互补引导过程后执行显著性图细化。具体而言，我们使用跳跃连接将来自编码器VGG网络的第一阶段的全焦点特征与上采样的F Ta相结合，并通过三个带有ReLU激活函数的3×3卷积层在1/2尺度上进行特征融合。之后，使用带有Sigmoid激活函数的另一个3×3卷积层用于获取最终的显著性图，如图2所示。每个互补过程之后，我们可以获得增强的特征F ta。为了引导我们的模型逐渐增强图像特征，我们在F ta上添加了一个带有Sigmoid激活函数的1×1卷积层来预测显著性图。然后，我们使用二元交叉熵损失来监督第t个互补步骤的训练。最后，总体损失是每个步骤的损失之和。04. 实验04.1. 数据集0我们的实验在三个公共光场基准数据集上进行：LFSD[21]、HFUT [47]和DUTLF-FS[38]。DUTLF-FS是最大的数据集，包含1462个光场图像，分为1000个训练图像和462个测试图像。HFUT和LFSD相对较小，分别只包含255个和100个样本。每个样本包括一个全焦点图像、若干焦距切片和相应的真实显著性图。04.2. 评估指标0我们遵循许多先前的工作，采用最大F-度量（Fβ）[1]、S-度量（S α）[8]、最大E-度量（Eφ）[9]和平均绝对误差（MAE）来全面评估不同模型的性能。04.3. 实现细节0我们在DLG中设计了两个采样窗口，大小为k=3，扩张率为d=1，3，并根据实验将互补步数T设置为5。为了公平比较，我们使用与[33]相同的训练集，其中包括DUTLF-FS的训练集和从HFUT选择的100个样本。我们还通过随机翻转、裁剪和旋转来增强训练数据。我们使用Adam[19]作为优化算法，并将学习率设置为1e-4。小批量大小设置为1，我们的网络训练200,000步。学习率在第150,000步和180,000步时分别乘以0.1。在训练和测试中，我们将图像调整为256×256以便实现。所提出的方法使用Pytorch工具包[30]实现，所有实验都在一台RTX 2080TiGPU上进行。我们的模型在所有三个数据集上的推理时间平均为每张图像0.07秒。我们的代码公开可用于:https://github.com/wangbo-zhao/2021ICCV-DLGLRG。04.4. 与最先进方法的比较0定量比较：为了全面比较，我们将我们的方法与19种最先进的模型进行比较，包括六种RGB SOD方法：LDF[42]，ITSD [55]，MINet [29]，EGNet [53]，PoolNet[24]和PiCANet [25]，六种RGB-D SOD模型：BBS[10]，SSF [51]，S2MA [27]，ATSA [49]，JLDCF[11]和UCNet [44]，以及七种光场SOD方法：ERNet[33]，MAC [45]，MoLF [50]，DLSD [32]，LFS[22]，WSC [20]和DILF[46]。如表1所示，我们的方法在DUTLF-FS和LFSD上相对于所有RGB、RGB-D和光场方法都能取得最佳性能。当涉及到HFUT时，我们的方法在MAE方面超过其他方法，但在其他三个指标方面表现较差。我们认为这是因为HFUT中的许多图像具有不常见的SOD注释，例如数字和文本，这些注释很少与焦点信息相关。因此，我们的模型不擅长处理它们。值得注意的是，在DUTLF-FS和LFSD上，我们的方法在性能上明显优于使用ConvLSTM模型的ERNet [33]，MoLF[50]和DLSD[32]。这个结果证明了我们提出的互补方案的优越性。我们还注意到，仅使用1100个训练样本，我们的方法在DUTLF-FS和LFSD上的性能比大多数深度RGB-D和RGBERNet [33]20200.7780.7220.8410.0820.8990.9080.9490.0390.8320.8500.8860.082MAC [45]20200.7310.6670.7970.1070.8040.7920.8630.1020.7820.7760.8320.127MoLF [50]20190.7420.6620.8120.0940.8870.9030.9390.0510.8350.8340.8880.089DLSD [32]20190.7110.6240.7840.111****0.7860.7840.8590.117LFS [22]20170.5650.4270.6370.2210.5850.5330.7110.2270.6810.7440.8090.205WSC [20]20150.6130.5080.6950.1540.6570.6210.7890.1490.7000.7430.7870.151DILF [46]20150.6750.5950.7500.1440.6540.5850.7570.1650.8110.8110.8610.136RGB-DBBS [10]20200.7510.6760.8010.0730.8650.8520.9000.0660.8640.8580.9000.072SSF [51]20200.7250.6470.8160.0900.8790.8870.9220.0500.8590.8680.9010.067S2MA [27]20200.7290.6500.7770.1120.7870.7540.8390.1020.8370.8350.8730.094ATSA [49]20200.7720.7290.8330.0840.9010.9150.9410.0410.8580.8660.9020.068JLDCF [11]20200.7890.7270.8440.0750.8770.8780.9250.0580.8620.8670.9020.070UCNet [44]20200.7480.6770.8040.0900.8310.8160.8760.0810.8580.8590.8980.072RGBLDF [42]20200.7800.7080.8040.0930.8730.8610.8980.0610.8210.8030.8430.096MINet [29]20200.7920.7200.8160.0860.8900.8820.9160.0500.8340.8280.8610.091EGNet [53]20190.7690.6760.7960.0920.8860.8680.9100.0530.8430.8210.8720.083PoolNet [24]20190.7690.6760.7940.0910.8830.8590.9110.0510.8580.8480.8940.074PiCANet [25]20180.7830.7150.8160.1070.8760.8650.9070.0720.8320.8340.8660.103βφMAE ↓Enc-concat0.8910.8980.9340.062Enc-lstm0.9000.9090.9400.047Enc-DLG0.9070.9110.9440.044Enc-DLG-R0.9230.9320.9570.035Enc-DLG-R-r0.9280.9360.9590.03147180表1. 基准测试结果。↑和↓分别表示较大和较小更好。每组中的最佳分数以蓝色表示，所有组中的最佳分数以红色表示。*表示由于不兼容的训练/测试划分，我们不与该模型进行比较。0HFUT [47] DUTLF-FS [38] LFSD [21] 方法年份 S α ↑ F β ↑ E φ ↑ MAE ↓ S α ↑ F β ↑ E φ ↑ MAE ↓ S α ↑ F β ↑ E φ ↑ MAE ↓0光场0我们的 - 0.766 0.697 0.839 0.071 0.928 0.936 0.959 0.031 0.867 0.870 0.906 0.0690图像 GT 我们的 S2MA EGNet PoolNet PiCANet ERNet MoLF SSF JLDCF UCNet LDF0图像 GT 我们的 S2MA EGNet PoolNet PiCANet ERNet MoLF SSF JLDCF UCNet LDF0图4. 我们的模型与最先进方法之间显著性图的视觉比较。0SOD方法通常在更多的图像上进行训练。这表明我们的方法可以有效地探索光场数据中传达的信息。定性比较：在图4中，我们展示了一些代表性的显著图比较案例。我们可以发现，与其他SOTA方法相比，我们的模型不仅可以更准确地定位显著对象，还可以更精确地恢复对象细节。04.5. 消融研究0在本节中，我们在最大的DUTLF-FS数据集上进行消融实验，以彻底分析我们提出的模型。不同模型组件的有效性。我们首先在表2中验证了我们不同模型组件的有效性。为了公平比较，我们保持第3.2节中的特征编码器不变，并尝试不同的解码器架构来融合焦点堆叠特征Ff和全焦点特征Fa。我们首先报告了两个基线模型的结果，分别使用简单的连接和LSTM来融合Ff和Fa。对于第一个模型，我们遵循许多先前的方法0表2.使用不同特征融合策略的定量结果。“Enc”表示第3.2节中的我们的特征编码器，“R”表示我们提出的互逆引导方案，“r”表示使用低层全焦点特征来细化显著图。蓝色表示最佳性能。0设置DUTLF-FS0ods以随机复制每个焦点堆叠中的焦点切片到12个图像，然后Ff∈R12×C×H×W。接下来，我们将Ff与Fa连接起来，并使用卷积来融合这13个特征图。我们将这种策略称为“Enc-concat”。对于第二个模型，我们使用ConvLSTM直接融合Ff和Fa中的N+1个特征图，这被称为“Enc-lstm”。我们发现使用LSTM来融合这两种特征效果更好。0接下来，我们逐步采用我们提出的DLG模型，互逆引导方案和使用低层全焦点特征的细化解码器。这三个(a)(b)(c)(e)(d)kdGfGaSα ↑Fβ ↑Eφ ↑MAE ↓110.9140.9190.9460.042310.9150.9190.9500.03831,30.9230.9320.9570.03531,3,50.9240.9330.9600.03531,30.9170.9290.9530.03831,30.9190.9270.9520.037βφMAE ↓10.9070.9110.9440.04430.9170.9240.9520.04050.9230.9320.9570.03547190图5.在特征图和显著图方面，比较使用和不使用提出的DLG模型的模型。(a): 图像。(b): 不使用DLG的特征图。(c):使用DLG的特征图。(d): 不使用DLG的显著图。(e):使用DLG的显著图。0模型分别表示为“Enc-DLG”，“Enc-DLG-R”和“Enc-DLG-R-r”。从表2中可以看出，这三个模型可以逐步改善光场SOD性能，最终大幅超过两个基线模型。使用DLG模型比使用简单连接和LSTM获得更好的结果，也避免了它们的不适用实现问题。我们还尝试使用密集连接的图网络来融合N+1个特征图，但只得到了内存错误。这个结果证明了我们DLG模型的效率。此外，我们发现互逆引导方案带来了最大的模型改进，明确展示了其强大的能力。我们相信这个策略也可以对未来的光场SOD研究有很大的益处。我们还展示了使用和不使用DLG模型的特征图和显著图的比较，如图5所示。我们可以看到，通过使用DLG，特征图可以过滤掉背景中的干扰，更加关注显著对象，从而得到更好的SOD结果。DLG设置。由于我们在DLG中构建了多尺度的局部邻居，以引入更大的上下文，并具有可接受的计算成本，我们还在表3中探索了不同的多尺度设置。具体来说，我们测试了采样窗口大小k和膨胀率d在“Enc-DLG-R”模型中的不同设置。我们从1×1的采样窗口的简单设置开始。从表3中可以看出，当我们使用更多和更大的窗口时，我们的模型的性能可以逐渐提高。然而，当使用两个3×3的采样窗口和膨胀率为1和3时，性能饱和。再使用一个窗口，d=5，只带来了很小的改进。考虑到计算成本，我们选择k=3和d=1,3作为我们的最终设置。为了验证同时使用焦点-焦点图Gf和焦点-全焦点图Ga的有效性，我们尝试分别使用它们，并在表3的最后两行报告结果。我们发现分别使用它们会降低模型的性能，从而验证了我们提出的双图方案的必要性。互逆步骤。我们在表4中进行实验，选择最佳的互逆步骤数T。注意0表3. 使用不同DLG设置的比较。0设置DUTLF-FS0表4. 使用不同互补步骤数的比较。0T DUTLF-FS0图像 GT t=1 t=2 t=3 t=4 t=50图6. 不同互补步骤的显著性图可视化。0当 T = 1时，模型降级为“Enc-DLG”模型。我们发现，随着 T从1增加到5，性能逐步提高。当 T > 5时，我们观察到性能已经饱和，并且模型将超出GPU内存。因此，我们将 T = 5作为我们互补引导方案的最终设置。我们还通过图6可视化了两个代表性样本，展示了在不同互补步骤中获得的显著性图的改进。我们可以发现，随着互补引导学习的进行，逐渐抑制了误报高亮，并且SOD结果稳步改善。05. 结论0在本文中，我们提出了一种新颖的双重局部图神经网络和互补引导架构，用于光场SOD。我们的DLG模型在全焦点图像的引导下，高效地聚合了焦点堆栈图像中的上下文信息。互补引导方案在两种特征之间引入了迭代引导，使它们在多个步骤中相互促进。实验结果表明，我们的方法在大多数数据集上比最先进的RGB、RGB-D和光场SOD方法具有更好的性能。0致谢：本工作部分支持来自中国国家重点研发计划（编号2020AAA0105701），中国国家自然科学基金（编号62027813，62036005，U20B2065，U20B2068）。47200参考文献0[1] Radhakrishna Achanta, Sheila Hemami, Francisco Estrada,和Sabine Susstrunk. 频率调谐显著区域检测.在CVPR上，页码1597-1604. IEEE，2009年。0[2] Daniel Beck, Gholamreza Haffari, 和Trevor Cohn.使用门控图神经网络进行图到序列学习.arXiv预印本arXiv:1806.09835，2018年。0[3] 陈浩和李有福.逐步互补感知融合网络用于RGB-D显著目标检测.在CV

下载后可阅读完整内容，剩余1页未读，立即下载