从像素级噪声标签中学习的光场显著性检测方法

154 浏览量更新于2023-10-25 收藏 1.11MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1756从像素级噪声标签中学习：一种新的光场显著性检测冯明涛1* 刘建东1张良1 <$于洪山2王耀南2阿杰马勉31西安电子科技大学2湖南大学3西澳大学摘要考虑到可用的丰富线索，利用光场图像的显著性检测正变得在本文中，我们提出了从无监督手工制作的基于特征的显着性方法获得的像素级噪声标签来学习光场显着性。鉴于这一目标，一个自然的问题是：我们是否可以有效地将光场线索之间的关系，同时在一个统一的框架中识别干净的标签？我们通过将学习公式化为内部光场特征融合流和场景间相关流的联合优化来解决这个问题，以生成预测。特别地，我们首先引入像素遗忘引导融合模块来相互增强光场特征，并利用跨它的像素一致性来识别噪声像素。接下来，我们引入了跨场景噪声惩罚损失，以更好地反映训练数据的潜在结构，并使学习对噪声具有不变性。在多个基准数据集上的广泛实验证明了我们的框架的优越性我们的代码可以在 https://github.com/OLobbCode/NoiseLF上找到。1. 介绍显著性检测模仿了人类的注意机制，使我们能够从大量的信息中聚焦于视觉上最明显的区域。鉴于计算机视觉的广泛应用，如图像和视频分割，视觉跟踪和机器人导航[7，13，51]，这个问题引起了人们的广泛关注。现有的显著性检测方法可以基于2D（RGB）、3D（RGB-D）和4D（光场）输入图像大致分为三类。与前两者不同，光场通过小透镜阵列提供场景的多视图图像，并产生包含丰富空间视差的焦点切片堆叠*同等贡献†通讯作者图1.挑战性光场场景中的显著性检测。(a)全聚焦图像;（b）像素级噪声标签;（c）-（e）我们的方法的结果，完全监督的光场方法Mo-LF [57]和RGB方法F3 Net [44];（f）地面真实显着图，仅用于说明目的，未用于我们的训练。信息以及深度信息[11，12，24]。此外，光场数据由全焦点中心视图和焦点堆栈组成，其中焦点切片堆栈（类似于人类视觉感知）通过眼睛运动和视觉注意力转移的组合按顺序观察[33]。这种全面的4D数据为挑战性场景中的显著性检测提供了丰富的线索，例如相似的前景和背景、小的显著对象和复杂背景，如图1（a）所示。早期的光场显著性检测工作已经被完全监督的方法所控制，这些方法需要大量与全聚焦中心视图对齐的精确像素级注释以进行训练[31，40，56这种昂贵且耗时的标记过程阻碍了完全监督方法对大规模问题的适用性。如果可以以某种方式避免繁琐的像素级注释过程，我们可以利用手持式相机（如Lytro Illum [1]和Raytrix [2]）的光场图像在本文中，我们感兴趣的是从单个每像素噪声标签学习光场显著性预测，其中每像素噪声标签由现有的低成本现成的常规无监督显著性检测方法产生与地面真实人类注释相比，这些标签是嘈杂的，并且在预测显着性图时可能具有方法特定的偏差。在我们的配置中，对于每个1757在训练数据中的光场图像中，仅单个噪声显著性图可用。直接在像素级噪声标签上训练光场显著性检测网络可能会引导网络过拟合损坏的标签[49]。此外，复杂的光场显著性检测方法缺乏全局视角来探索整个数据集之间的关系中的模式。为了有效地利用这些嘈杂的，但信息的显着性地图，我们提出了一个新的视角，光场显着性检测问题：如何有效地将光场线索之间的关系，同时确定干净的标签在一个统一的框架？为此，我们做了两个主要的贡献，内部光场特征融合和跨场景相关。首先，我们引入了一个像素遗忘引导的融合模块，以探索全聚焦中心视图图像和焦点切片之间的特别地，我们以往复的方式执行交互过程，其中相互指导首先强调有用的特征，并使用全焦点中心视图从焦点切片中抑制不必要的特征。然后，使用加权焦点堆栈特征来逐步细化全聚焦中心视图的空间信息，以准确地识别显著对象。对于更新的焦点堆栈特征和全焦点中心视图特征的初始噪声估计，我们引入像素遗忘事件以在训练迭代中进化，并定义遗忘矩阵以识别噪声像素。最终预测包括来自初始噪声估计的具有高确定性的像素因此，我们可以同时探索丰富的光场线索并识别我们模型的内点其次，我们提出了跨场景噪声惩罚损失来捕获噪声空间的全局相关性，以更好地反映整个训练数据的内在结构，从而实现更鲁棒的显著性预测。我们的跨场景噪声惩罚损失的第一项评估网络这两个术语都隐式地编码了噪声率的知识，并允许我们的光场显着性预测模型对像素级噪声保持不变。据我们所知，这是第一个提出将光场显着性检测视为从像素级噪声标签学习的想法的工作，与现有的完全监督的方法完全不同的方向。我们的主要贡献是：（1）将显著性预测公式化为帧内光场特征融合流和场景间特征融合流的联合优化。(2)我们引入了一个像素遗忘引导的融合模块来相互增强光场特征，并利用迭代过程中的像素一致性来识别噪声像素标签。(3)为了更好地反映训练数据的潜在结构，并使学习对标签噪声具有不变性，我们提出了一种跨场景噪声惩罚损失。我们进行了彻底的实验评估，提出的模型，实现了与国家的最先进的完全监督的光场显着性预测方法的性能2. 相关作品光场显著性检测：用于光场显著对象检测的常规方法通常扩展各种手工制作的特征（例如，全局/局部颜色对比度、背景先验和对象位置线索）和自适应调整光场特征（例如，聚焦度和深度）到光场数据的情况[12]。Li等人。[18]提出了关于光场显著性检测的第一个和最早的工作DILF（光场深度研究）[52]基于焦点堆栈中嵌入的聚焦度测量计算背景先验，并将其用作权重以消除背景干扰并增强显着性估计。Piao等人。[32]介绍了一种用于光场显着性对象检测的深度诱导细胞自动机，然后采用贝叶斯融合策略和CRF [43]来改进预测。由于其强大的学习能力，一些深度学习方法显着提高了光场显着性检测性能。Zhang等人。[57]提出了一个面向内存的空间融合模块，用于遍历焦点堆栈的所有部分和所有焦点特征。然而，他们的方法只融合了焦点堆栈和全焦点特征一次。Wang et al. [40]和Piao etal. [33]都使用不同的注意力权重融合了来自不同焦点切片的特征，这些注意力权重是在ConvLSTM中的多个时间步长推断出来的。因此，他们多次在焦点切片内进行特征融合。然而，[40]仅进行了一次焦点堆栈和全焦点特征融合，而[33]未进行此类融合[24]。他们采用知识蒸馏来提高全焦点分支的表示能力。与现有的方法相比，我们提出了一个强大的技术来学习从噪声注释的光场数据的显着性检测。据我们所知，我们是第一个将像素级噪声标签学习制定为内部光场图像融合和内部光场图像相关流的联合优化以生成预测的人。从噪声标签中学习：关于噪声标签学习的大部分为了处理噪声标签，已经探索了三个主要方向：1）开发正则化技术[46]; 2）估计噪声分布[14，38]; 3）在选定的样本上训练[16，25，29，35]。所有这些方法处理图像分类。借鉴已有作品1758我⊙∈·····∗·i=1·∗⊗M--MMMMi=1∈×M ∈密集的噪声标签需要针对每个输入图像的多个噪声版本的逐像素标记[28，48，55]。Zhang等人[48]在深度学习框架内，将来自无监督手工制作的基于特征的方法的显着性图[55]中的递归优化依赖于用于细化伪标签和显著性检测网络的两阶段机制。Nguyen等人。[28]定义了图像级损失函数，使用噪声标签进行训练，以生成粗略的显着性图，然后使用移动平均和完全连接的CRF对其进行迭代细化与[28，48，55]不同，[49，54]以更有效的方式处理从单个噪声标签中学习。[49]学习显著性预测和鲁棒拟合模型来识别内点。[54]建议通过潜在变量从单个噪声标签学习干净的显着性预测器m= 2，3，4，5表示来自VGG-19的最后4个卷积块的高级特征的索引。在此基础上，提出了一种全聚焦中心视图图像特征与焦点堆栈特征相互融合的策略，而不是将两类特征分别处理。在每一步中，前者首先用于指导后者的更新，然后使用细化特征来更新前者。我们从融合焦点堆叠特征Fm开始，通过在焦点切片内传播上下文，并且还在全焦点特征Rm的指导下，这为Fm的特征更新提供了外部指导。我们使用注意机制来强调有用的特征，并从聚焦和模糊的信息中抑制不必要的特征该过程可以定义为：Attm=σ （ wm×Avg （ C[Rm;f1 ， f2 ， ··· ， fk] ）+bm），称为噪声感知编码器-解码器的模型。人们会用一MMm（一）提出了一种全新的方法，为了处理显着性去的密集预测任务f<$i=fi 第1002章：（二）在具有挑战性的4D光场场景中进行保护。我们的方法有效地结合了光场线索之间的关系，以纠正像素级的噪声标签。3. 该方法在本文中，我们专注于学习光场显着性从一个单一的像素级噪声地图。具体来说，我们的目标是学习光场图像xi的精确显着图Giv en其由一个其中C[ ]表示级联操作，并且i= 1，2，.，k。..Avg（）表示全局平均池化操作，σ（）表示softmax函数。AttmR1×1×（k+1）表示第m层中的按通道的注意力图，并表示按特征的乘法.i加权光场特征F<$={f <$}k arere-现成的低成本手工制作的特征为基础的方法。一个简单而直接的解决方案是使用嘈杂的显着图作为“代理”人类注释来训练深度模型。然而，这种方法是不够的，因为网络学习非常容易受到监督标签中的噪声的影响[47]。我们提出了一个统一的框架，以纳入光场线索之间的关系，同时在统一的框架中识别训练期间的干净标签-作为一个输入序列，对应于连续的时间步长它们被输入到ConvLSTM [45]结构中，以逐渐完善它们的空间信息，从而准确识别显著对象。用Fm ′表示精细焦层特征。对于所有焦斑切片特征Fm′，以引导更新，对于全聚焦中心视图图像特征Rm，我们采用一种强调或抑制每个像素的注意机制工作我们完整的管道如图所示2和单位为Rm。Fm′ =σ（w<$Fm′+b）（3）各组成部分的技术细节详述如下。′我们从训练集T={（xi，y∈i）}N开始，其中Rm=RmAttFm′ +Rm（4）每个xi是具有空间大小uv和yvi[0，1]u×v是它的噪声二进制salien c y映射。我们使用y_i（而不是y_i）来区分is和干净的标签，如在人类注释的标签设置中。对于每个x i，我们具有全聚焦中心视图图像Ir及其对应的具有k个焦点切片I f1，I f2，. - 是的-是的我fk，有不同的聚焦区域。光线的深层模型场显著性学习映射函数fΘ：{Ir，If}→其中σ（）是softmax函数，w和b分别表示第m层的卷积算子和卷积参数AttF′ Ru×v表示第m层中的逐像素注意力图，并表示逐像素乘法。此外，所有m个分层更新特征的有效整合可以提高区分度，并且对于显著性预测任务是重要的更新后的特征Fm′Rm′被分别馈送到Co n vLSTM单元中以进行fur。[0，1]u×v，其中Θ是一组网络参数。在那里-因此，fΘ（xi）=si表示预测的显著性图。3.1. 像素遗忘引导融合模块相互特征融合：我们采用VGG-19 [37]作为骨干架构，生成全聚焦中心视图图像特征Rm和光场焦点堆栈特征Fm=Att1759M i=1从而总结出空间信息。ConvLSTM的输出之后是过渡卷积层和上采样操作，以分别获得焦点切片和全焦点中心视图图像分支的初始噪声预测sf和sr像素一致性：我们通过分析初始噪声{fi}k有丰富的空间信息，其中学习过程中的sf和sr预测及其影响1760.0，|s-y|>δRFR图2.概述了我们提出的网络的完整架构，将学习制定为内部光场特征融合流和场景间相关流的联合优化，以生成预测。在显著图中的最终预测上。我们观察到，噪声像素表现出不同于干净像素的特性。我们希望噪声标记的像素会不断学习，因为在迭代过程中与主导决策不一致，这将在后面的接下来，我们引入遗忘矩阵G来计算初始预测的噪声显著性映射sf和sr的每个像素的遗忘事件统计。.Gf（u，v）+1，Tf（u，v）t+1Tf（u，v）t实验噪声像素的这些非典型特征支持初始噪声预测中的干净像素的识别。受[39]的启发，我们进一步定义了对于Sf的像素Gf（u，v）=Gr（u，v）=Gf（u，v），Tf（u，v）t+1<$Tf（u，v）t（七）Gr（u，v）+1，Tr（u，v）t+1δF其中我们将G初始化为全零矩阵。当变换矩阵中的相应元素在两次连续更新之间减少时，图像中的像素（u，v）换句话说，像素（u，v）在第（t）次迭代中被正确识别之后，在第（t+ 1）当一个像素在训练过程中频繁发生遗忘事件cess，其在G中的对应元素的值将累积地增加，指示像素是动态的，Tf（u，v）=Tr（u，v）=F1、|s（u，v）−y（u，v）|⩽δ（u，v）（u，v）R1、|s（u，v）−y（u，v）|⩽δ（五）（六）吵了.配备有遗忘矩阵G，我们进一步使用置信度重新加权策略，以将软权重分配给初始预测的噪声显著性映射Sf和SR。其中，y∈（u，v）表示pi x el（u，v）的噪声标签。的裕度δ被定义为初始噪声预测和噪声标签的logit之间的偏差，其进一步在实验中讨论这两个转变，2Mf（u，v）=1 +ea·G2（u，v）2M（u，v）=（九）.1761（十）三进制是二进制的，指示像素在每个时期是否被正确识别，并且通过初始预测和监督信息之间的偏差在迭代中被更新。r1+ea·G2（u，v）其中α用于根据遗忘事件的数量来控制置信度权重我们设置a = 0。04在我们的实验中软权重矩阵1762···∗··−联系我们我·我我i=1i=1我我我我I1I2我我∈M鼓励具有一致行为的像素比具有动态行为的像素贡献更多。最终的预测显著性图si可以通过在像素遗忘的指导下融合初始预测的有噪显著性图sf和sr来si=Up（w<$C[Mf<$sf;Mr<$sr]+b）（11）其中C[ ]表示级联操作，并且i=1，2，，N. ，w和b表示卷积算子和卷积参数。上表示上采样操作，以获得最终的显着图si。3.2. 跨场景噪声惩罚损失先前的光场显著性检测方法缺乏对显著性的检测。哪里a、b=一、二表示的条目，J1=+ 1，J2= 1表示像素（u，v）的显著对象和背景类标签，p（）表示分布。定义1中的a，b捕获初始预测显著性图中的像素与噪声标签之间此外，我们还描述了一个二进制评分矩阵，以指示初始预测的显着性图和噪声标签中的像素之间的特定相关性。定义2评分矩阵R2计算为：（s（u，v），y我我从全球视角探索在整个数据集之间。现代方法通常将显著性检测公式化为逐像素分类任务。特别地，fΘ（xi）=si表示来自像素遗忘引导融合模块的预测显著性图，并且当直接从噪声标签学习时的经验风险可以定义如下：L（si，yi）=l（s（u，v），y（u，v）），（12）（u，v）其中，Sgn（a，b）= 1，当a，b>0时，Sgn（a，b）=0，否则。CA要求预测图中的每个像素执行多个任务：计算与其对应的噪声标签的相关性，并利用其他场景的预测与未配对的噪声标签之间的相关性作为对当前场景的惩罚。最终，评分函数对于每个任务，定义如下：其中X={xi}N，Y={yi}N，并且（u，v）表示S（s（u，v），y（u，v））=（s（u，v），y（u，v））−（s（u，v），y（u，v）），光场图像中的像素空间坐标，并且l：[0，1]×[0，1]→R是交叉熵损失，其被定义为：（十六）F或每个样本（s（u，v），y∈（u，v）），随机地相互拖动tw o样本（s（u，v），y∈（u，v）），（s（u，v），y∈（u，v））使得i1l（s，y）=−（ylog（s）+（1−y）log（1−s）），（13）i1i1我2我2i2. 我们将把（s（u，v），y∈（u，v））和（s（u，v），y∈（u，v））命名为i对于逐像素预测任务，通过以下方式训练网络：i1i1我2我2相关样本在将s（u，v）与y∈（u，v）（tw o）最小化每像素定义的损失函数。最优网络模型是通过最小化Eq.（12）使用随机梯度下降。然而，直接用单一噪声标记训练网络将无法正常工作众所周知，网络训练非常容易受到噪声的影响，我1我2独立场景i1和i2），我们定义得分函数，对于每个采样场景s（u，v），上述评分函数中的第一项评估显着性预测s（u，v）使用噪声La belsy（u，v），第二项定义在我我在监督标签中，这可能会引导网络过拟合到损坏的标签[47]。受相关一致性（CA）机制[36][8]的启发，为了保证通过噪声标签进行网络训练的有效学习，我们从对其他数据样本进行的预测中获取信息，并对当前预测进行评分。我们试图利用当前预测与其他场景两个独立的场景i1，i2惩罚预测器，与噪声标签过度一致，这是当前像素的惩罚分数。我们知道每个标签中的噪声是不对称的。因此，我们使用一个新的评分函数来调整惩罚的程度：<$（s（u，v），y<$（u，v））=<$（s（u，v），y<$（u，v））−α <$（s（u，v），y<$（u，v）），我我我将激励措施与正确的信息相结合，我们将其命名为我1我2（十七）作为我们方法中的跨场景评估。定义1R2×2是一个正方形矩阵，其条目定义在预测的显着性图si和噪声标签yi之间，并描述了它们之间的主要相关性a，b=p（s（u，v）=Ja，y<$（u，v）=Jb）1763此外，在[26]之后，我们通过交叉熵损失来计算显着性图和噪声标签之间的相关性，以取代等式中（12），由于其在显著对象检测中的适应性。针对像素级任务的特点，每个光场图像中的像素数量庞大，显著性预测结果需要更细致的评估。我我（u，v）（u，v）然而，仅基于a来评估随机相关性，-p（si=Ja）·p（yi=Jb），（14）一对跨场景样本将导致较大的方差，1764LΣ×不够稳定。因此，我们基于ml对跨场景样本尽可能地消除方差，以稳定训练过程：4.2.与最新技术方法的为了进行全面的评估，我们将我们的方法与23种最先进的显着性检测模型进行了比较，包括（u，v）（u，v）（u，v）（u，v）ing 5 fully supervised RGB methods（PoolNet [22]，Pi-Lt（si，yi）= L（si ，yi）αml−（l（s（u，v），y∈（u，v），CANet [23]，R3Net [9]，NLDF [27]，F3Net [44]），7super-改进的RGB-D方法（TANet [5]，PCA [4]，MMCI [6]，ml−1Inn，n′=2一个（十八）UCNet[50]，DF[34]，DMRA[30]，D3Net[10]），2种监督光场方法（DLLF [41]， Mo-LF [57]），4种传统的无监督方法（RBD [59]，LFS [19]，DSR [21]，MC [15]），4种多噪声标签su-noise这里我们设α= 0。2和ml= 4。我们的跨场景噪声惩罚损失的第一项评估了网络对使用噪声标签的训练数据的预测，第二项定义在几个独立随机选择的这两个术语都对噪声率的知识进行了直接编码，并允许我们的光场显著性预测模型对像素级噪声保持不变4. 实验结果我们的实验在三个公共光场基准数据集上进行：DUT-LF [42]，HFUT [53]和LFSD [20]。DUT-LF被提出用于包含1462个具有挑战性的场景的全监督显著性检测，这些场景在显著对象与背景、小尺度显著对象和各种光照条件之间具有高度相似性。DUT-LF被分成1000个训练样本和462个测试样本。HFUT和LFSD相对较小，分别仅包含255和HFUT，LFSD和DUT-LF的测试划分被用来评估我们的方法的性能。所有三个数据集都是用Lytro摄像机[1]捕获的请注意，GT图在本文中仅用于说明目的，而不是在我们的训练过程中使用。4.1. 实现细节我们的模型在PyTorch中实现，并使用单个GeForceGTX TI- TAN X GPU进行最多30个epoch的训练。我们以端到端的方式训练模型，使用0.9的动量和1的学习率。010-5我们使用Adam [17]优化器和“逆”衰减策略。我们使用经过图像分类训练的VGG-19 [37]初始化RGB和焦点堆栈流，并使其适应我们的任务。我们还增加了随机翻转，裁剪和旋转的训练数据。对于手工制作的方法，我们使用RBD方法[59]生成像素级噪声显着性图与以前的工作类似，我们使用F-测度[3]和平均绝对误差（MAE）作为我们算法全面基准的评估指标。监督方法（SBF [48]，DUSPS [28]，MNL [55]，NAED[54]）和1个单噪声标签监督方法SNL [49]。竞争方法的结果由授权代码生成或由作者直接提供。定量结果见表1。与大多数完全监督的RGB显着性检测方法相比，我们的模型在两个评估指标上的所有数据集上始终获得更高的分数。一个重要的观察应该注意：虽然我们的模型是由像素级噪声标签监督的与一些全监督RGB-D方法相比，光场数据的有效性得到了进一步的支持。与RGB-D数据中的粗略深度图相比，光场包含更准确的深度线索。更重要的是，当与一些完全监督的光场方法相比，我们的方法仍然取得了竞争的性能。这些性能是合理的，因为有效的遗忘像素引导的特征融合和跨场景的相关性的正确处理。此外，我们可以看到，我们的方法优于传统的RGB方法RBD [59]，DUT-LF数据集上的F-测量值的显著幅度为0.18，该数据集用于为我们的模型生成噪声标签。这主要是因为我们的方法探索了内部光场特征融合和场景间相关性，以生成鲁棒的预测。我们还将我们的方法与最先进的噪声标签监督RGB模型进行了比较，我们可以看到，我们的方法在DUT-LF数据集上的F-measure度量提高了0.23，证明了丰富的光场线索的优越性，以及我们提出的特征融合和噪声惩罚策略。定性比较如图3所示，其中我们可视化了三个代表性的显着图比较案例。我们看到，我们的方法能够处理广泛的具有挑战性的场景，包括类似的前景和背景（第一行），杂乱的背景（第二行）和小物体（第三行）。我们的方法可以预测的显着对象与相对完整的边界信息，即使提供的噪声标签是不完整的显着对象，这是一个令人兴奋的突破。与噪声标签监督的RGB显着性方法DUSPS [28]相比，1765数据集度量充分监督模型修道院离子模型Multi noisy labels型号单个noisy label模型[22]第二十二话RGBPiCANet[23]R3Net[9]NLDF[27]TANet[5]RGB-DPCAMMCI[4][6]UCNet[50]光场DLLF[57]第四十七话：我的世界RGBRBD[59]光场LFS[19]SBF[48]RGBDUSPS[55]第28话NAED[54]RGBSNL[49]光野我们DUT-LFF↑M↓0.8680.0510.8210.0830.7830.1130.7780.1030.7710.0960.7620.1000.7500.1160.8190.0870.8680.0700.8430.0520.6310.2120.4840.2400.5830.1350.7360.0620.7160.0860.7010.0700.6790.0720.8130.091合肥工业F↑M↓0.6830.0920.6180.1150.6250.1510.6360.0910.6050.1110.6190.1040.6450.1040.7240.1050.8630.0930.6270.0950.6010.2410.4300.205--0.705-0.087---0.6330.1650.6520.108LFSDF↑M↓0.7690.1180.6710.1580.7810.1280.7480.1380.8040.1120.8010.1120.7960.1280.8350.108--0.8190.0890.7110.1820.7150.147--0.795-0.105---0.7140.0970.8040.111表1.三个光场数据集的定量比较↑↓分别表示越大越好，越小越好&图3.显着性图与竞争方法的视觉比较，其中蓝框中的显着性图是从噪声标签监督RGB方法预测的，红框中的显着性图分别从完全监督光场、RGB-D和RGB显着性方法预测的，绿框中的显着性图是从传统模型预测的。设置基线+ MFFO+ PFM+ Ploss我们度量F↑M↓F↑M↓F↑M↓F↑M↓F↑M↓DUT-LF HUFTLFSD 0.6410.553 0.6830.279 0.253 0.1910.689 0.611 0.7370.214 0.195 0.1650.634 0.7600.181 0.163 0.1790.730 0.620 0.7490.147 0.151 0.1320.813 0.652 0.8040.108 0.111表2.广泛消融研究的结果分析了不同组件对我们管道的重要性。电话：+86-021 - 8888888传真：+86-021 - 8888888粤ICP备05011888号-1电话：+86-021 - 8888888传真：+86-021 - 8888888表3.比较等式中δ的不同数目的影响（6）在显著性检测性能上，保持我们框架的其他设置不变。我们的模型不仅更精确地定位了显著物体，而且更精确地恢复了物体细节，这受到光场数据和我们提出的模块的积极影响。与完全监督的光场方法Mo-LF [57]相比，我们的方法还实现了竞争性的检测结果。更多的定性比较可以在补充材料中找到。4.3. 消融研究我们在DUT-LF [42]数据集上进行消融实验，以彻底分析我们提出的模块的有效性。为了简化实验并得到更直观的结果，我们建立了一个简洁的基线，该基线只包含焦斑切片的单独特征提取分支图4.在不同步骤中显着图的可视化。(a)-(b)（c）-（d）分别表示来自细化的焦点切片和所有焦点特征的结果，（c）-（d）表示来自用于获得引导特征融合和跨场景噪声惩罚损失的像素的结果。和全聚焦中心视图图像。通过直接连接这两种特征来预测显著图。1) 多特征融合操作（MFFO）：如表2所示，所提出的相互特征融合操作导致改进的性能，这意味着全聚焦中心视图图像和聚焦切片之间的交互探索了光场数据的丰富空间信息，这是预测显著对象所必需的。2) 像素遗忘矩阵（PFM）：为了评估训练迭代期间来自全聚焦中心视图图像和焦点切片的初始预测噪声显著性图的像素一致性，我们提出像素遗忘矩阵并分析是否存在在后续训练呈现中一致遗忘的噪声像素，以及相反地，很少被遗忘的像素从表2可以看出，像素遗忘矩阵提高了显著性检测的准确性。此外，我们将δ定义为a1766图5.遗忘事件和首次学习的分布噪声监督中的遗忘，其中显著对象区域内的噪声的遗忘更明显。我们还研究了噪声标签和地面真理的第一次学习事件的发生时间。图5（c）中示出了第一学习事件跨噪声标签和地面实况的采样像素（超过5个种子）发生的平均发生时间的分布。请注意，噪声标签和地面真值的大多数像素都是在前4个epoch期间学习的，而噪声像素包含在训练的后期部分学习的大量像素。噪声像素表现出不同于consis的特性图6. DUT-LF数据集中标签中噪声像素之间的特征相关性[42]。用于识别像素的阈值被学习或忘记。为了解释最佳阈值，我们用δ在（0，1）的范围内进行实验，并在表3中报告性能。当δ = 0时，我们的评价达到最高分。3 .第三章。3) 跨场景噪声惩罚损失（Ploss）。如表2所示，我们展示了所提出的跨场景噪声惩罚损失的效果。与基线相比，我们观察到它可以大幅提高我们的性能（MAE指标提高了30%），这进一步说明了损失有效地惩罚了网络过度同意像素级噪声标签。4) 中间结果的可视化。在图4中，我们显示了一个示例显着性检测结果，以说明我们提出的模块的性能。从噪声标签监督开始，我们的方法不断提高显著性检测的性能与建议的模块的累积更新。4.4. 进一步分析像素遗忘：为了验证我们的假设，即与一致像素相比，噪声像素经常经历遗忘事件，我们使用像素级噪声标签训练我们的模型一次，然后使用地面真值标签再次训练图5（a）中示出了遗忘事件在噪声像素和一致像素的分数上的具体地说，我们从数据集中采样像素，并描述在训练期间经历超过3个for- getting事件的像素的相对分数。我们进一步对显著对象的粗略边界框中的像素进行采样，并在图5（b）中报告结果。我们观察到相对较高程度的在训练过程中帐篷像素，这对我们的模型识别噪声很重要跨场景潜在噪声相关性：我们研究噪声标签特征是否在不同场景中有规律地分布。图6中的每个点表示数据集中的一个噪声标签，即，平均像素值对平均距离。噪声像素的强度值和它们到显著目标中心的距离是在不同场景中隐含相关的特征。考虑到噪声数据集中潜在的噪声相关性，我们的跨场景惩罚损失的有效性是合理的。5. 结论在本文中，我们代表，第一次，光场显着性检测作为一个学习像素级噪声标签的问题。这使我们能够使用有效的传统无监督显着性检测方法。为了利用光场线索之间的关系，同时在统一的框架中识别干净的标签，我们提出了像素遗忘引导融合，以相互增强光场特征，并利用迭代过程中的像素一致性来识别噪声像素标签。我们还提出了跨场景噪声惩罚损失，以更好地反映训练数据的潜在结构扩展的实验表明，我们的方法的优越性，它不仅优于大多数RGB和RGB-D显着性方法，但也达到了最先进的全监督光场显着性检测方法的性能相当。6. 致谢Ajmal Mian教授是澳大利亚政府资助的澳大利亚研究理事会未来奖学金奖（项目编号FT210100268）的获得者。1767引用[1] http://lightfield-forum.com/lytro/lytro-illum-professional-light-field-camera/.1、6[2] https://raytrix.de/. 1[3] Radhakrishna Achanta ， Sheila Hemami ， FranciscoEstrada，and Sabine Susstrunk.频率调谐显著区域检测。2009年IEEE计算机视觉和模式识别会议，第1597-1604页。IEEE，2009年。6[4] 陈昊和李有福。渐进互补感知融合网络用于rgb-d显著目标检测。在IEEE计算机视觉和模式识别会议论文集，第3051-3060页，2018年。六、七[5] 陈昊和李有福。用于rgb-d显著对象检测的三流注意感知网络。 IEEE Transactions on Image Processing ， 28（6）：2825-2835，2019。六、七[6] 陈昊、李又甫、苏丹。rgb-d显著目标检测的多尺度、多路径和跨模态交互的多模态融合网络。模式识别，86：376-385，2019。六、七[7] Runmin Cong ， Jianjun Lei ， Huazhu Fu ， Ming-MingCheng，Weisi Lin，and Qingming Huang.综合信息的视觉显著性检测综述。IEEE Trans- actions on Circuits andSystems for Video Technology，29（10）：2941-2959，2018。1[8] Anirban Dasgupta和Arpita Ghosh。具有内生熟练度的众包判断启发。第22届万维网国际会议论文集，第319-330页，2013年。5[9] Zijun Deng，Xiaowei Hu，Lei Zhu，Xuemiao Xu，JingQin，Guoqiang Han，and Pheng-Ann Heng. R3net：用于显著性检测的循环残差细化网络。在第27届国际人工智能上，第684-690页，2018年。六、七[10] 范登平，郑林，张昭，朱梦龙，程明明。重新思考rgb-d显着对象检测：模型，数据集和大规模基准测试。IEEE Transactions on Neural Networks and LearningSystems，32（5）：2075-2089，2020。6[11] Mingtao Feng，Yaonan Wang，Jian Liu，Liang Zhang，Hasan FM Zaki，and Ajmal Mian.用于从光场图像进行深度估计的基准数据集和方法。IEEE Transactions onImage Processing，27（7）：35861[12] Keren Fu，Yao Jiang，Ge-Peng Ji，Tao Zhou，QijunZhao，and Deng-Ping Fan.光场显着对象检测：回顾和基准。arXiv预印本arXiv：2010.04968，2020。一、二[13] Stas Goferman、Lihi Zelnik-Manor和Ayellet Tal。上下文感知显著性检测。IEEE transactions on pattern analysisand machine intelligence ， 34 （ 10 ）： 1915-1926 ，2011。1[14] 雅各布·戈德伯格和埃胡德·本·鲁文。使用噪声适应层训练深度神经网络。在2016年国际学习表征会议上。2[15] Bowen Jiang，Lihe Zhang，Huchuan Lu，Chuan Yang，and Ming-Hsuan Yang.基于吸收马尔可夫的显著性检测链在IEEE计算机视觉国际会议论文集，第1665-1672页，2013年。6[16] Lu Jiang，Zhengyuan Zhou，Thomas Leung，Li-Jia Li，and Li Fei-Fei. Mentornet：在损坏的标签上学习数据驱动的深度神经网络课程。国际机器学习会议，第2304-2313页，2018年。2[17] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[18] Nianyi Li，Jinwei Ye，Yu Ji，Haibin Ling，and JingyiYu.光场显著性检测IEEE计算机视觉和模式识别会议论文集，第2806-2813页，2014年2[19] Nianyi Li，Jinwei Ye，Yu Ji，Haibin Ling，and JingyiYu.光场显著性检测IEEE计算机视觉和模式识别会议论文集，第2806-2813页，2014年六、七[20] Nianyi Li，Jinwei Ye，Yu Ji，Haibin Ling，and JingyiYu.光场显著性检测IEEE计算机视觉和模式识别会议论文集，第2806-2813页，2014年6[21] Xiaohui Li，Huchuan Lu，Lihe Zhang，Xiang Ruan，and Ming-Hsuan Yang.通过密集和稀疏重建的显著性检测。在IEEE计算机视觉国际会议论文集，第2976-2983页，2013年。6[22] Jiang-Jiang Liu，Qibin Hou，Ming-Ming Cheng，JiashiFeng，and Jianmin Jiang.一个简单的基于池的实时显著目标检测设计。在IEEE/CVF计算机视觉和模式识别会议论文集，第3917-3926页，2019年。六、七[23] 刘念，韩俊伟，杨明轩。Picanet：Learning pixel-wisecontextual attention for saliency detection.在IEEE计算机视觉和模式识别会议论文集，第3089-3098页，2018年。六、七[24] 刘念，赵王波，张鼎文，韩俊伟，凌少。利用双局部图学习和交互引导的光场显著性检测。在IEEE/CVF计算机视觉国际会议论文集，第4712-4721

下载后可阅读完整内容，剩余1页未读，立即下载