UC-Net：基于条件变分自编码器的RGB-D显著性检测

133 浏览量更新于2023-10-23 收藏 1.81MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8582UC-Net：通过条件变分自动编码器张静1，4，5范登平2，6，戴玉超3赛义德安瓦尔1，5FatemehSadat Saleh1，4张彤1NickBarnes11澳大利亚国立大学2南开大学CS 3西北工业大学4ACRV5 Data616 Inception Institute of Artificial Intelligence（IIAI），阿布扎比，阿联酋摘要在本文中，我们提出了第一个框架（UC- Net），通过从数据标记过程中学习，采用不确定性进行RGB-D显著性检测。现有的RGB-D显著性检测方法将显著性检测任务视为点估计问题，并在确定性学习管道之后产生单个显著性图。受显著性数据标记过程的启发，我们提出了通过条件变分自编码器的概率RGB-D显著性检测网络，以模拟人类注释的不确定性，并通过在潜在空间中采样为每个输入图像生成多个显著性图。与建议的显着性共识过程中，我们能够生成一个准确的显着性地图的基础上，这些多个预测。对六个具有挑战性的基准数据集进行的定量和定性评估与18个竞争性算法的对比表明，我们的方法在学习显着性图分布方面是有效的，从而在RGB-D显着性检测中实现了新的最先进技术。1. 介绍对象级视觉显着性检测涉及将吸引人类的最显眼的对象从背景中分离出来[27，2，55，63，38，29，62]。最近，由于深度信息在人类视觉系统中的重要性和深度感测技术的普及，来自RGB-D图像的视觉显著性检测吸引了大量兴趣[61，64]。给定一对RGB-D图像，RGB-D显著性检测的任务旨在通过探索彩色图像和深度数据之间的互补信息来预测RGB-D显著性检测的事实标准是使用地面实况（GT）训练深度神经网络。* 通讯作者：范登平（dengpfan@gmail.com）1我们的代码可在以下网址公开获取：https://github.com/JingZhang617/UCNet.图像深度GT Ours（1）我们的（2）图1.提供GT与UC-Net（我们的）预测显着图相比。对于具有单个显著对象（第一行）的图像，我们可以产生一致的预测。当存在多个显著观测值时（第二行），我们可以做出不同的预测.由相应的基准数据集提供的显著性图，其中GT显著性图是通过人类共识或数据集创建者获得的[18]。基于大规模RGB-D数据集，基于深度卷积神经网络的模型[21，61，6，24]在学习从RGB-D图像对到相应GT显著性图的映射方面取得了深刻的进展。考虑到RGB-D显着性检测在此流水线下的进展，在本文中，我们认为此流水线未能捕获标记GT显着性图的不确定性根据人类视觉感知的研究[33]，视觉显著性检测在一定程度上是主观的。每个人在标记显着性图时都有特定的偏好（这在之前的用户特定显着性检测中已经讨论过[26]）。RGB-D显著性检测的现有方法将显著性检测视为点估计问题，并且在确定性学习流水线之后为每个输入图像对产生单个显著性图，这无法捕获显著性的随机特性，并且可能导致如图2的第二行所示的党派显著性模型。1.一、我们感兴趣的不是仅获得单个显著性预测（点估计），而是网络如何产生多个预测（分布估计），然后进一步处理这些预测以生成单个预测，其方式与GT显著性图的创建方式类似。本文受人类感知不确定性的启发，8583i=1我们提出了一种基于条件变分自动编码器 [50]（CVAE）的RGB-D显著性检测模型UC-Net，通过将输出空间的分布建模为基于输入RGB-D图像的生成模型来产生多个显著性预测，以说明注释中的人类不确定性。然而，在我们可以应用概率框架之前仍然存在一个障碍，即现有的RGB-D基准数据集通常仅为每个RGB-D图像对提供单个GT显著性图。为了产生多样化和准确的预测2，我们采用了通过这种迭代隐藏策略，我们为每个输入RGB-D图像对获得多个显著图，这反映了人类标记的多样性/不确定性。此外，RGB-D显著性数据集中的深度数据可能是有噪声的，并且RGB和深度信息的直接融合可能压倒网络以适应噪声。针对深度图像中的噪声问题，提出了一种深度校正网络作为辅助组件，我们还引入了一个显着性共识模块来模拟多数投票机制，用于显着性GT生成。我们的主要贡献概括为：1）我们提出了一个条件概率RGB-D显著性预测模型，它可以产生不同的显著性预测，而不是单一的显著性图; 2）我们通过显著性共识提供了一种机制，以更好地模拟显著性检测的工作原理; 3）我们提出了一种深度校正网络，以减少深度数据中固有的噪声; 4）在六个RGB-D显著性检测基准数据集上的大量实验结果证明了我们的UC-Net的有效性。2. 相关工作2.1. RGB D显著性检测根据RGB图像和深度图像之间的互补信息如何融合，现有的RGB-D显著性检测模型可以大致分为三类：早期融合模型[43]，后期融合模型[54，24]和跨级别融合模型[61，5，7，6，64]。Qu等人[43]提出了一种早期融合模型来为RGB-D对的每个超像素生成特征，然后将其馈送到CNN以产生每个超像素的显着性。最近，Wanget al.[54]引入了后期融合网络（即，AFNet）以自适应地融合来自RGB和深度分支的预测。在类似的管道中，Hanet al.[24日]2预测的多样性与图像的内容有关。具有清晰内容的图像可能会导致一致的预测（图1中的第1行），而复杂图像可能会产生不同的预测（图2中的第1）。通过完全连接的层融合RGB和深度信息。Chen等人[7]使用多尺度多路径网络进行不同模态的信息融合。Chen等人[5]提出了一种互补感知的RGB-D显著性检测模型，通过使用互补感知的融合块融合来自每个模态的同一阶段的特征。Chen等人[6]提出了用于多模态融合的注意力感知跨级别组合块。Zhao等人[64]在增强深度线索之前集成对比度，并采用流体金字塔集成框架来实现多尺度跨模态特征融合。为了有效地将几何信息和语义信息结合到一个循环学习框架中，Li等人。[61]介绍了深度诱导的多尺度RGB-D显著性检测网络。2.2. 基于VAE或CVAE的深度概率模型自从金玛等人的开创性工作以来。[31]和Rezelandetal. [45]、变分自编码器（VAE）及其条件自编码器（CVAE）[50]在各种计算机视觉问题中得到了广泛的应用。为了训练VAE，需要重建损失和正则化器来惩罚潜在表示的先验分布和后验分布的不一致。CVAE不是将潜在表示的先验在低级视觉中，VAE和CVAE已被应用于诸如图像背景建模[34]、具有尖锐样本的潜在表示[25]、运动模式差异[57]、医学图像分割模型[3]和图像固有模糊性建模[32]等任务同时，VAE和CVAE已在更复杂的视觉任务中进行了探索，例如不确定的未来预测[1，53]，人类运动预测[47]和形状引导图像生成[12]。最近，VAE算法已扩展到3D域目标应用，如3D网格变形[52]和点云实例分割[59]。据我们所知，CVAE还没有被利用在显着性检测。虽然Liet al.[34]在他们的显著性预测框架中采用了VAE，他们使用VAE对图像背景进行建模，并通过反射残差将显著对象从背景中分离出来相比之下，我们使用CVAE来建模标签变体，表明人类对标签的不确定性。我们是第一个在显着性预测网络中使用CVAE的人，考虑到注释中人的不确定性。3. 我们的模型在本节中，我们提出了基于条件变分自编码器的概率RGB-D显著性检测模型，该模型学习显著性图的分布，而不是单个预测。设n={X i，Y i}N是训练数据集，其中Xi={Ii，Di}表示RGB-D8584||∈||||||我我|我|||||图2.网络培训管道。包括四个主要模块，即LatentNet（PriorNet（µprior，σprior）和PosteriorNet（µpost，σpost）），Salien cyNet，DepthCorrectionNet和PredictionNet。LatentNet将RGB-D图像对X（或与后验Net的GT Y一起）映射到低维高斯潜变量z。DepthCorrectionNet使用语义引导损失SaliencyNet将RGB图像和细化的深度作为输入，以生成显著性特征图。PredictionNet采用随机特征和确定性特征来生成最终的显着性图。我们在测试阶段执行显著性共识，如图所示3.根据GT显著图生成机制生成最终显著图以输入数据X为条件。在条件生成模型中有三种类型的变量：条件变量X（在我们的设置中为RGB-D图像对）、潜在变量z和输出变量Y。对于潜在变量z图3.测试期间的拟议框架概述我们对PriorNet进行多次采样，以生成多样化和准确的预测。显着性共识模块，然后用于获得最终预测的多数投票。输入（由RGB图像Ii和深度图像Ii从高斯分布P θ（z）中得出|X），输出变量Y由P ω（Y）生成|X，z），则z的后验表示为Q φ（zX，Y）。CVAE丧失定义为：LCVAE=Ez<$Q（z|X，Y）[−logPω（Y|X，z）]Di），Yi表示地面实况显著性图。整个我们的模型在训练和测试过程中的管道是illustrated-φ+D KL（Q φ（z|X、Y）||P θ（z|（X）），（一）图中2和图3所示。我们的网络由五个主要模块组成：1）La- tentNet（PriorNet和PosteriorNet），其将RGB-D输入Xi（对于PriorNet）或Xi和Yi（对于PosteriorNet）映射到低维潜变量 ziRK （ K 是潜空间的维度） ;2 ）DepthCorrectionNet，其将Ii和Di作为输入以生成细化的深度图像D′;3) 映射RGB图像Ii和细化的图像Ii的显著性网深度图像D′到显著性特征图Sd; 4）预测-其中Pω（Y X，z）是给定潜变量z和条件变量X的P（Y）的似然，Kullback-Leibler散度DKL（Qφ（z X，Y）Pθ（z X））作为正则化损失来减小先验Pθ（zX）和辅助后验Qφ（z X，Y）之间的差距。以这种方式，CVAE旨在对编码误差DKL（Qφ（z X，Y）Pθ（z X））下的对数似然P（Y）进行建模。遵循常规CVAE [50] 的标准实践，我们设计了一个基于CVAE的RGB-D显著性检测网络，我我Net ，其采用来自LatentNet的随机特征 S s 和来自SaliencyNet的确定性特征S d来产生我们的显着性图预测Pi; 5）测试阶段中的显着性一致性模块，其模仿显着性GT生成的机制，以利用所提供的单个GT显着性图Y i来评估性能。我们将介绍每个模块如下。3.1. 基于CVAE的概率RGB D显著性模型条件变分自动编码器（CVAE）将先验信息调制为具有参数并在下面描述我们模型的每个组件LatentNet：我们将Pθ（z X）定义为将输入RGB-D图像对X映射到低维潜在特征空间的PriorNet，其中θ是PriorNet的参数集在相同的网络结构和GT显著图Y的情况下，我们将Qφ（z X，Y）定义为后验网络，其中φ是后验网络参数集。在 LatentNet （ Prior-Net 和 PosteriorNet ）中，我们使用五个卷积层将输入RGB-D图像X（或PosteriorNet的X和Y的级联）映射到潜在高斯变量zN（µ，diag（σ2）），其中µ，σ∈RK，表示KL散度交叉熵损失CCC深度校正网络C级联PriorNet后验网显着性网络PredictionNet特征扩大PriorNet采样…RGB-DDepthCorrectionNet显著性数据&显着性网络C显著性……PredictionNet语义引导损失8585||∈||××N∈N⊙S1 S2 S3 S4S5daspp daspp daspp dasppCc1_Mc1_4K c1_3K c1_2K间隙间隙c1_Kc1_K图4. LatentNet的详细结构，其中K是潜在空间的维度，潜在高斯变量的平均值和标准差4.第一章让我们分别将先验网络和后验网络的参数集定义为（µprior，σprior）和（µpostt，σpostt）。KL-方程中的发散（1）用于度量先验网络P θ（z）与先验网络P θ（z）之间的分布失配|X）和后网Q φ（z|X，Y），或者使用时丢失了多少信息Q φ（z X，Y）表示P θ（z X）。CVAE的典型应用涉及多个版本的地面真理Y[32]，以支持产生信息zRK，其中z中的每个位置表示可能导致不同显著性注释的可能的标记变体或因子。由于我们只有一个版本的GT，因此直接使用所提供的单个GT进行训练可能无法产生不同的预测，因为网络将简单地拟合所提供的注释Y。生成多个预测：为了产生多样化和准确的预测，我们提出了一种迭代隐藏技术，该技术受到[49]的启发，遵循方向移动理论[26]如图所示，生成更多注释。五、我们迭代地隐藏RGB图像中的显著区域与训练数据集的平均值。RGB图像及其对应的GT被设定为“新标签生成”技术的起点。我们首先在RGB图像中隐藏真实显着对象，并将修改后的图像馈送到现有的RGB显着性检测模型[42]以生成显着性图并将其视为一个候选注释。我们对每个训练图像3重复显著对象隐藏技术三次，以总共获得四个不同的符号集（包括所提供的GT），并且我们将该数据集称为在训练过程中，不同的注释（如图所示）。Q φ（zX，Y）中的5）可以迫使先验网络P θ（z X）对给定输入X的标记变体进行编码。由于我们已经获得了不同的注释与建议的隐藏技术，我们希望网络产生不同的预测具有复杂背景的图像。在测试过程中，我们可以获得一个随机特征Ss（“PredictionNet”的输入3 .第三章。显着性网络：我们设计SaliencyNet以从输入RGB-D数据中产生确定性显著性特征图Sd，其中精细的深度数据来自深度-矫正网。我们使用VGG16 [48]作为我们的编码器，并删除第五个池化层之后的层为了扩大接收场，我们遵循DenseASPP [58]来获得特征3.我们发现，通常在隐藏三次之后，隐藏图像中不存在图5.新标签生成。第一行：我们迭代隐藏预测的显著区域，其中第一幅图像中没有区域被隐藏。第2行：隐藏图像对应的GT.图6.SaliencyNet，其中在VGG16网络的每一级上与整个图像的感受野映射。然后，我们将这些特征图连接起来，并将其馈送到另一个卷积层以获得Sd。图1中示出了显着性网络的细节。其中，功能扩展：统计量（z（µ，diag（σ2）），特别是）从LatentNet（PriorNet在测试期间，示于图 3“采样”，或图中训练期间的后验网。2）形成特征扩展模块的输入给定K维向量的每个位置上的一对（μ k，σ k），我们得到潜在向量z k=σ k+μ k，其中（0，1）。为了与确定性特征Sd相融合，通过将zk定义为二维高斯噪声图，将zk扩展为与Sd相同空间大小的特征图. 其中k=1，...，K，我们可以获得表示标记变体的K（潜在空间的大小）通道随机特征S s。PredictionNet：LatentNet产生表示标记变量的随机特征S s，而SaliencyNet输出输入X的确定性显著特征Sd。我们提出了预测网络，如图所示 2融合所述分支的特征。 Ss和S d的朴素级联可能导致网络仅从确定性特征学习，因此无法对标记变体进行建模。受[47]的启发，我们混合了S s和S d通道;因此，网络无法区分确定性分支和概率性分支的特征。我们将Sd和Ss连接起来形成一个K + M通道特征图Ssd。我们定义K + M维变量r（一个可学习的参数），表示1，2，.， K + M，然后根据r对Ssd进行通道混合，得到混合特征 Smsd。其中包括输出信道大小为K 、K/2、1的三个11卷积层。8586之前BMJVLLLL|∩|Ilr=0PredictionNet将Smsd映射到单个通道显著性图P。在测试期间，具有多个随机特征Ss，我们可以通过从显着性预测P. 为了获得C个不同的预测P1，...，我们对PriorNet C进行了多次采样。我们将这些多个预测同时输入显著性LatentNetN（µprior，diag（σ2））多次。共识模块，以获得预测的共识。给定多个预测{Pc}C，其中Pc∈[0，1]，3.2. DepthCorrectionNet我们首先计算二进制4c=1预测的Pc版本采用两种主要方法来获取用于RGB-D显著性检测的深度数据：通过诸如微软Kinect的深度传感器，例如，DES [8]和NLPR [41]数据集;或者从立体相机计算深度，这样的数据集的示例是 SSB [40]和 NJU 2K[28]。再-通过对Pc执行自适应阈值[4]。对于每个像素（u，v），我们得到一个C维特征向量Pu，v∈{0，1}。我们定义Pb∈ {0，1}为代表Pu，v的多数投票的单通道显著图。我们定义一个-指示符1c（u，v）=1（Pc（u，v）=Pmv（u，v））表示B b不考虑捕获技术，噪声是固有的，深度数据我们提出了一个语义引导的深度校正-二进制预测是否与多数一致投票预测。如果Pc（u，v）=Pmv（u，v），则B b网络，以产生如图所示的细化的深度信息在图2中，称为“深度校正网”。DepthCorrectionNet的编码器部分与“Salian-cyNet”相同1c（u，v）=1.否则，1c（u，v）=0。在显著性共识之后，我们获得一个灰度显著性图，如下：C1c（u，v）CP_c（ u，v）=c=1（Pc（ u，v）}×1c（ u，v））.G我们假设深度图的边缘应该与RGB图像的边缘我们采用边界欠条Cbc=1（四）loss [39]作为DepthCorrectionNet的正则化器，以实现由RGB图像的强度指导的精细深度。DepthCorrectionNet的全部损失定义为：L深度=Lsl+LIoub，（2）其中sl是精细深度D′和原始深度D之间的平滑IOU在RGB的精细深度D′和强度Ig3.4.目标函数在这个阶段，我们的损失函数由两部分I. e.CVAE和Depth. 此外，我们建议使用平滑损失[9]作为正则化器，以基于类间区分和类内相似性的假设来实现边缘感知的显著性检测。在[56]之后，我们将平滑项中显着图的一阶导数定义为意象岛给定预测的深度图D′和强度对于RGB图像Ig，我们遵循[39]来计算D′和Ig的一阶导数。随后，我们计算D′和Ig的梯度的大小gD′和gI，并且L平滑=Σu，vΣd∈→−x，→−y（|Pu，v|e−α|dIg（u，v）|），（5）√定义边界欠条损失为：其中，定义为（s）=s2+ 1e−6，Pu，v是gD′gILIoub= 1 − 2 |gD′|+的|GI|-是的（三）3.3.显著性共识模块显著性检测在一定程度上是主观的，并且通常有多个注释器来标记一个图像，并且通过多数投票策略获得最终的地面真实显著性图[18]。尽管在显著性检测社区中关于如何获取地面实况是众所周知的;然而，没有关于将该机制嵌入深度显著性框架的研究。当前模式-Ig（u，v）是在位置（u，v）处的预测显著性图，并且Ig（u，v）是在i v e上在→ − x和→ − y方向上的图像强度y， dind ex esovererpartialder iv。我们设α=10，然后[5 6]。平滑度损失（Eq.（5）边界IOU损失（等式（3）需要强度Ig。我们将RGB图像I转换为灰度强度图像Ig，如[60]：Ig= 0。2126× I lr+0. 7152× I lg+0. 0722×Ilb，（6）其中Ilr、Ilg和Ilb表示从原始颜色空间中去除Gamma函数之后的线性颜色空间Ilr通过以下方式实现：ELS将显著性检测定义为点估计问题而不是分布估计问题。相反，我们使用CVAE来获得显着性分布。接下来，我们将显着性共识嵌入我们的概率框架，r12个。92Ir+0。055，2。41 .一、055、Ir≤ 0。04045、Ir> 0。040458587（七）计算不同预测的多数投票，测试阶段如图所示。3 .第三章。在测试过程中，我们使用固定的µprior和σprior对PriorNet进行采样，以获得随机特征Ss。利用每个Ss和来自SaliencyNet的确定性特征Sd，我们获得一个其中Ir是图像I的原始红色通道，并且我们以与等式2相同的方式计算Ig和Ib。（七）、4当GT映射Y∈ {0，1}时，我们产生一系列二元预测，每个预测代表来自一个显着性注释器的注释。8588N||利用平滑度损失LSmotth、深度损失LDepth和CVAE损失LCVAE，我们的最终损失函数被定义为：Lsal=LCVAE+λ1L深度+ λ2L光滑。（8）在我们的实验中，我们设置λ1= λ2= 0。3 .第三章。培训详情：我们设置S d的通道大小为M=32，潜空间的尺度为K=8。我们使用Pytorch训练了我们的模型，并初始化了Salian的编码器CyNet和DepthCorrectionNet，VGG16参数在ImageNet上预训练。新层的权重初始化为（0，0。01），并将偏倚设为常数。我们使用了Adam方法，动量为0.9，并且在每个epoch之后将学习率降低了10%。基础学习率初始化为1 e-4。整个训练耗时13小时，训练批次大小为6，最大epoch为30，在配备NVIDIA GeForce RTXGPU的PC上进行针对输入图像大小为352×352，推理时间平均为0.06s。4. 实验结果4.1. 设置数据集：我们在六个数据集上进行实验，包括五个广泛使用的RGB-D显着性检测数据集（即NJU 2K [28]，NLPR [41]，SSB [40]，LFSD [35]，[8]和一个新发布的数据集（SIP [18]）。竞争方法：我们将我们的方法与18种方法进行了比较，其中包括10种手工制作的传统方法和8种深度RGB-D显着性检测模型。评估指标：使用了四个评价指标，包括两个广泛使用的指标：1）平均绝对误差（MAE M）; 2）平均F-测量（F β）和最近提出的两个：3）增强的对齐度量（平均E度量，E）[15]4）结构测度（S-测度，Sα）[14]。4.2. 性能比较定量比较：我们在表1中报告了我们的方法和竞争方法的性能。它表明，我们的方法在所有数据集上始终达到最佳性能，特别是在SSB [40]和SIP [18]上，我们的方法实现了显着的S-测量，E-测量和F-测量性能提升，并且MAE大幅下降。我们在图中给出了竞争方法和我们的方法7 .第一次会议。我们观察到，我们的方法不仅产生稳定的E-措施和F-措施，而且最好的性能。定性比较：在图8中，我们显示了五幅图像，将我们的方法与一种新发布的RGB-D显著性检测方法（DMRA[61]）的结果进行了比较，以及两种广泛使用的产生结构化输出的方法，即M-head [46]和MC-dropout [30]（我们将在消融研究部分详细讨论这两种方法）。通过用M-head代替CVAE，设计了基于M-head和MC-dropout的结构化显著性检测模型和MC-dropout。结果见图。8表明，我们的方法不仅可以产生高精度的预测（与DMRA [61]相比），而且可以为具有复杂背景的图像（第一行和最后一行的图像）产生不同的预测（与基于M头和基于MC丢弃的模型相比）。4.3. 消融研究我们进行了8个实验（如表2所示）详细分析了该框架的网络结构（比我们的数字好的时候我们就用粗体潜在空间的规模：我们研究了高斯潜在空间K的规模对网络的影响。在本文中，经过参数调整，我们发现K=8的效果最好。我们将K=32的性能表示为“M1”。“M1”的性能我们进一步对K∈[2，12]进行了更多的实验，并发现了相对稳定的预测，K∈[6，10].DepthCorrectionNet 的效果：为了说明所提出的DepthCorrectionNet的有效性，我们删除了分支并将 RGB 图像和深度数据的级联馈送到SaliencyNet，如“M2”所示，这比我们的方法更差。在DES [8]数据集上，我们观察到所提出的解决方案在S-measure，E-measure和F-measure上实现了约4%的改进，这证明了深度校正网络的有效性。显著性分析模块：为了模拟显着性标记过程，我们在测试期间在我们的框架中嵌入了显着性共识模块（如图所示）。3）获得多个预测的多数投票我们将其从我们的框架中删除，并通过从潜在的PriorNetPθ（z X）中随机采样来测试网络性能，性能显示在“M3”中，与竞争方法相比，同时，通过嵌入显著性共识模块，我们实现了更好的性能，这说明了显著性共识模块的有效性。VAEvs.CVAE：我们使用CVAE对标签变量进行建模，使用后验网络来估计先验网络的参数。为了测试我们的模型如何将z的先验作为标准正态分布，将z的后验作为 Pθ（z X）。VAE性能显示为 “M4”，与 SOTARGB-D型号相当。关于CVAE[50]提出的模型，进一步提高了“M4”的性能，证明了该方案的有效性。多头与CVAE：多头模型[46]使用不同的解码器和共享的编码器，并且损失函数总是被定义为多个预测中的我们移除潜网8589NJU2KSSBDES表1.在六个RGBD显着性数据集上对十个领先的手工制作的基于特征的模型和八个深度模型进行基准测试↑↓分别表示越大越好，越小越好。&这里，我们采用平均Fβ和平均Eξ[15]。度量基于手工特征的模型LHM CDB DESM GP CDCP ACSD LBE DCMC 马里国防 [ 41 ]第四十一话[36][8][44][28]第二十六话[10]第二十届世界卫生大会[22日]DF[43]AFNet[54]CTMF[24]深度模型[5]第七届全国政协副主席TANet[6]CPFP[64]DMRA[61]UC-Net我们Sα ↑.514.632.665.527.669.699.695.686.748.664 .763.822.849.858.877.879.878.886.897NJU2K[28]FβE↑↑.328.447.498.572.550.590.357.466.595.706.512.594.606.655.556.619.628.677.583.624.653.700.827.867.779.846.793.851.840.895.841.895.850.910.873.920.886.930M ↓.205.199.283.211.180.202.153.172.157.169 .140.077.085.079.059.061.053.051.043Sα ↑.562.615.642.588.713.692.660.731.728.708 .757.825.848.873.875.871.879.835.903[40]第四十话FβE↑↑.378.484.489.561.519.579.405.508.638.751.478.592.501.601.590.655.527.614.611.664.617.692.806.872.758.841.813.873.818.887.828.893.841.911.837.879.884.938M ↓.172.166.295.182.149.200.250.148.176.143 .141.075.086.068.064.060.051.066.039Sα ↑.578.645.622.636.709.728.703.707.741.741 .752.770.863.848.842.858.872.900.934DES[8]FβE↑↑.345.477.502.572.483.566.412.503.585.748.513.613.576.650.542.631.523.621.618.706.604.684.713.809.756.826.735.825.765.838.790.863.824.888.873.933.919.967M ↓.114.100.299.168.115.169.208.111.122.090 .093.068.055.065.049.046.038.030.019Sα ↑.630.632.572.655.727.673.762.724.805.756 .806.799.860.856.874.886.888.899.920NLPR[41]FβE↑↑.427.560.421.567.430.542.451.571.609.782.429.579.636.719.542.684.649.745.624.742.664.757.755.851.740.840.737.841.802.887.819.902.840.918.865.940.891.951M ↓.108.108.312.146.112.179.081.117.095.091 .079.058.056.059.044.041.036.031.025Sα ↑.557.520.722.640.717.734.736.753.700.698 .791.738.796.787.794.801.828.847.864LFSD[35]FβE↑↑.396.491.376.465.612.638.519.584.680.754.566.625.612.670.655.682.521.588.640.653.679.725.736.796.756.810.722.775.761.818.771.821.811.863.845.893.855.901M ↓.211.218.248.183.167.188.208.155.190.167 .138.134.119.132.112.111.088.075.066Sα ↑.511.557.616.588.595.732.727.683.717.628 .653.720.716.833.842.835.850.806.875高级督察〔18〕FβE↑↑.287.437.341.455.496.564.411.511.482.683.542.614.572.651.500.598.568.645.515.592.465.565.702.793.608.704.771.845.814.878.803.870.821.893.811.844.867.914M ↓.184.192.298.173.224.172.200.186.167.164 .185.118.139.086.071.075.064.085.0511 1 110.80.80.80.80.60.60.60.60.40.40.40.40.20.20 100 2560 1002560.200 1002560.20 100 2560.80.60.80.610.80.610.80.60.40.40.40.40.20.20.20.200 10025600 10025600 10025600 100 256图7.四个测试数据集上的E-measure（第1行）和F-measure（第多次复制显着网络的解码器以实现多个预测（本文中的“M5”）。我们在“M5”中报告性能作为多个预测的平均值。“M5” is better than SOTA models ( DMRA），而基于M头的方法（“M5”）和我们的基于CVAE的模型（UC-Net）之间仍然存在差距蒙特卡罗辍学与CVAE：蒙特卡罗辍学[30]在测试阶段使用dropout来引入对网络来说是随机的我们遵循[30]删除La- tentNet，并在编码器和解码器中使用dropout。SaliencyNet处于测试阶段。我们重复五次随机脱落（脱落率= 0.1），并将平均表现报告为与“M5”类似CPFP和DMRA），而提出的CVAE为基础的模型实现了更好的性能。HHA与深度：HHA [23]是一种广泛使用的技术，将深度数据编码到三个通道：h为重力视差，h为地面上的8个像素，以及像素局部表面法线与推断的重力方向的夹角。NJU2KSSBDESNLPRNLPR8590图像深度GT DMRA MH1 MH2 DP1 DP2我们的（1）我们的（2）UC-Net图8.显着图的比较。“MH 1”和“MH 2”是M-head的两个预测。“DP 1”和“DP 2”是测试期间两个随机MC-脱落的预测。“我们的（1）”和“我们的（2）”是从我们的基于CVAE的模型中采样的两个预测。与对模糊图像（第5行）产生一致预测的M-head和MC-dropout不同，UC-Net可以产生不同的预测。表2.RGB-D显著性数据集上的消融研究HHA广泛用于RGB-D相关的密集预测模型[11，24]，以获得更好的特征表示。为了测试HHA是否也适用于我们的场景，我们将深度替换为HHA，性能如“M7”所示我们观察到类似的性能实现HHA而不是原始的深度数据。新标签生成：为了产生不同的预测，我们遵循[49]并为训练数据集生成不同的注释。为了说明这种策略的有效性，我们仅使用SaliencyNet进行训练，以RGB-D图像作为简单性的输入来生成单通道显着图。“M8”and “M9” represent using the provided分别对数据集和增强的训练数据进行训练。我们观察到“M9”与“M8”相比的性能改善5. 结论受人类对地面真实值（GT）表示法的不确定性的启发，我们提出了第一个基于连续变分自编码器的RGB-D显著性检测不确定性网络UC-Net。不同于现有的方法，一般把显着性检测作为一个点估计问题，我们建议学习显着性图的分布。根据我们的公式，我们的模型能够生成多个标签，这些标签在GT注释生成过程中通过显着性共识被丢弃。六个标准和具有挑战性的基准数据集的定量和定性评估表明，我们的方法在学习显着性图的分布的优越性。在未来，我们希望将我们的方法扩展到其他显著性检测问题（例如，VSOD[19]，RGB SOD [13，65]，Co-SOD [17]）。此外─此外，我们计划捕获具有多个人类注释的新数据集，以进一步在交互式图像分割[37]、隐藏对象检测[16]等中对人类不确定性的统计进行建模。致谢。这研究是支持在部分由中国自然科学基金资助（61871325，61420106007，61671387），澳大利亚研究理事会机器人视觉卓越中心（CE140100016）和中国国家重点研发计划资助2018AAA0102803。我们感谢所有评审员和地区主席的建设性意见。度量UC网络Sα↑.897Fβ↑.886E↑.930M↓.043Sα↑.903Fβ↑.884E↑.938M↓.039Sα↑.934Fβ↑.919E↑.967M↓.019Sα↑.920Fβ↑.891E↑.951M ↓.025Sα↑.864Fβ↑.855E↑.901M↓.066Sα↑.875Fβ↑.867E↑.914M↓.051M1M2M3M4M5M6M7M8M9.866.893.905 .871.885.881.8930.838.866.858.887 .884.851.878.878.8840.787.812.905.930.927.910.923.927.932 0.840.866060.046.045.059.047.046.044.084.0750.854.893.900.867.891.893.898.855.872电话：+86-10 - 88888888传真：+86-10 - 888888880.894.911.922.907.921.931.934.854.870060.043.047.057.047.043.040.073.0680.876.896.928.897.911.896.918.811.9110.844.868.902.867.897.868.904.724.8430.906.928.947.930.945.928.953.794.910035.026.024.033.024.026.023.065.0360.878.919.918.890.899.910.915.850.883.846.897 .878.845.875.867.889点七五九点七九五.9

下载后可阅读完整内容，剩余1页未读，立即下载