交互式图像分割中基于反向传播的细化方案

25 浏览量更新于2023-10-19 收藏 12.5MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

wdjang@g.harvard.educhangsukim@korea.ac.kr52970通过反向传播细化方案的交互式图像分割0Won-Dong Jang哈佛大学麻省剑桥市0Chang-Su Kim韩国高丽大学韩国0摘要0本文提出了一种交互式图像分割算法，该算法接受用户对目标对象和背景的注释。我们通过测量每个像素到注释位置的距离将用户注释转换为交互地图。然后，我们在卷积神经网络中进行前向传递，输出初始分割图。然而，初始结果中的用户注释位置可能被错误标记。因此，我们开发了反向传播细化方案（BRS），用于纠正错误标记的像素。实验结果表明，所提出的算法在四个具有挑战性的数据集上优于传统算法。此外，我们通过将现有的卷积神经网络转换为用户交互式网络，展示了BRS在其他计算机视觉任务中的普遍性和适用性。01. 引言0交互式图像分割是将目标对象（或前景）与背景分离的任务。用户可以使用边界框[51, 24, 42]或涂鸦[52, 11, 10,25]来注释目标对象。对于边界框注释，应该将框围绕目标对象。相反，在基于涂鸦的界面中，前景和背景涂鸦分别绘制在前景和背景区域上。一般来说，基于涂鸦的算法比基于边界框的算法产生更详细的对象掩码。在基于涂鸦的算法中，使用更少的涂鸦来提取目标的准确掩码非常重要。由于大型图像数据集[23]的发布和卷积层的使用，基于深度学习的算法在分割问题中表现出了显著的性能：语义分割[13, 30,35, 6]，显著性检测[29, 36]和目标提议[39,38]。大多数基于深度学习的分割算法利用卷积神经网络（CNN）。在[35, 30, 29]中，0使用编码器-解码器架构[40]：从编码器中提取深度特征，并用于在解码器中预测像素级分割或显著性标签。编码器-解码器架构可以提供可靠的性能，因为它可以采用经过良好训练的编码器，包括AlexNet [23]，VGGNet[44]，GoogLeNet [48]，ResNet [15]和DenseNet[17]。在分割任务中，实现具有准确和详细边界的分割是很重要的。然而，编码器的深度特征丢失了大部分低级细节，只保留了高级（或语义）信息[56]。为了解决这个问题，[29,39]采用了跳跃连接，利用编码器的中间输出响应来改善分割质量。激活的反向传播是一种将数据通过网络层向后传递的过程。在[43, 46, 56,58]中，已经开发了反向传播方案来可视化神经网络的特征。此外，纹理合成[8]和图像风格转换[9]也是通过反向传播来执行的。它们在网络中冻结参数的同时向后更新激活响应。在这项工作中，基于反向传播方案，我们提出了一种新颖的交互式图像分割算法，该算法接受用户的涂鸦。为了分割目标对象，我们训练了一个完全卷积神经网络。在测试阶段，我们使用输入图像和用户注释在提出的网络中进行前向传递。我们还开发了反向传播细化方案（BRS），该方案将用户指定的位置约束为具有正确标签，并改进了前向传递的分割结果。为此，我们定义了两个能量函数：校正能量和惯性能量。我们通过反向传播最小化两个能量的加权和。实验结果表明，所提出的BRS算法在GrabCut [42]，Berkeley[34]，DAVIS [37]和SBD [12]数据集上优于传统算法[11,10, 3, 52, 50, 2, 27,26]。此外，我们将BRS推广到各种基于CNN的视觉技术，使它们能够与用户注释进行交互。总结起来，本文有三个主要贡献。01 这与用于训练神经网络的典型反向传播不同。52980交互地图生成0CNN的前向传递0反向传播细化0分割掩码0图1. 所提算法的概述：当用户提供新的注释时，我们再次执行此分割过程。0� 开发了一种用于交互式图像分割的卷积神经网络，完全卷积。0� 引入反向传播细化策略，纠正错误标记的位置。0� BRS的泛化，可以使现有的CNN在没有额外训练的情况下与用户交互。02. 相关工作02.1. 交互式图像分割0在交互式图像分割中，目标对象由用户粗略注释，然后提取为二进制掩码。交互式分割算法可以分为基于框界面和基于涂鸦界面的算法。基于框界面的算法在给定边界框内获取目标对象的掩码。另一方面，基于涂鸦界面的算法接受用户提供的前景和背景注释。虽然基于框界面的算法通常试图获得一次性的分割结果，但基于涂鸦界面的算法允许用户多次提供涂鸦，直到获得满意的结果。0基于框的算法：Rother等人[42]分别构建前景和背景的高斯混合模型，然后在图割优化中使用这些模型来获得前景掩码。这些过程迭代地执行，直到收敛。为了避免这些迭代，Tang等人[49]定义了一个成本函数，可以在单次图割优化中最小化。假设用户提供的边界框不太宽松，Lempitsky等人[24]使用框紧密度的概念来防止目标段落过度收缩。Wu等人[51]将图像超像素分割成超像素，并为多实例学习生成前景和背景包。前景包包含边界框内的超像素，背景包含其他超像素。0基于涂鸦界面的算法：Li等人[25]通过RGB颜色计算每个像素到前景和背景种子的距离，并使用图割算法将目标对象与背景分离。0Grady[10]让一个随机行走者从每个像素开始，并找到行走者到达的第一个前景或背景种子。Kim等人[21]通过重新启动随机行走模拟来计算像素之间的亲和力。Gulshan等人[11]提出了一种用于交互式图像分割的形状约束，并使用从用户涂鸦到像素的测地距离进行能量最小化。Kim等人[22]通过使用不同的参数生成图像的各种分割图，然后鼓励段内的像素在最终结果中具有相同的标签。为了减轻用户的工作量，[47,1]开发了容错交互式图像分割算法。最近，Xu等人[52]提出了一种基于深度学习的交互式分割算法。他们从用户注释中生成前景和背景图，并将它们与输入图像连接起来输入到CNN中。网络预测每个像素属于前景的概率。Liew等人[27]通过组合包含前景和背景点击对的补丁上的局部预测来改进全局预测。Li等人[26]生成多个假设分割，并使用选择网络选择一个。Maninis等人[31]引入了一种需要在紧密对象边界上进行人工注释的交互式分割算法。Song等人[45]通过自动定位前景和背景种子来进行乘法注释。02.2. 激活的反向传播0在本节中，我们讨论了在神经网络中仅更新激活响应而固定参数的反向传播方案。Zeiler和Fergus[56]使用DeconvNet[57]可视化每个卷积滤波器的特征，DeconvNet执行卷积、修正线性函数和最大池化的逆过程。他们发现，浅层提取低级特征，深层产生高级特征。Springenberg等人[46]提出了引导反向传播策略，其产生的重建图像比[56]更清晰。Simonyan等人[43]在图像分类任务中生成每个对象类的外观模型。他们通过更新图像分类中的激活响应来找到最大化分类得分的正则化图像。52990交互地图0输入图像0池化0池化0Conv00稠密块10编码器粗解码器0精细解码器0跳跃连接0解码器块10反卷积0解码器块20反卷积0解码器块30反卷积0解码器块40反卷积0空洞块30空洞块20空洞块10精细ConvP0真值0真值0粗ConvP0稠密块20Conv20池化0稠密块30Conv30池化0稠密块40Conv40Conv10图2. 用于交互式图像分割的网络架构。0网络。Yosinski等人[55]开发了卷积滤波器重建和类外观模型生成的可视化工具。此外，Zhang等人[58]通过在CNN中执行概率性胜者全择反向传播策略来估计注意力图，用于图像分类。给定一个类别，他们发现图像中相应对象的大致位置和形状。Gatys等人[8]通过反向传播合成纹理，通过鼓励新合成的纹理具有与原始纹理相同的Gram矩阵。在[9]中，他们还使用反向传播进行图像风格转移。03. 提出的算法0所提出的交互式图像分割算法输出用户标注对象的二进制掩模。它是一种涂鸦界面方法，需要前景和背景点击作为注释，这些注释指示相应像素处的期望标签。0图1是所提算法的概述。给定用户标注，我们首先生成前景和背景交互地图。然后，我们将输入图像和交互地图输入到CNN中，得到用户指定对象的概率图。尽管交互地图清楚地表示了点击位置的注释标签，但概率图可能在这些点击位置传达错误信息。因此，我们通过使用提出的BRS来强制点击位置具有用户指定的标签。最后，我们通过再次进行前向传递来获得目标对象的分割掩模。0当用户在目标对象上提供第一个点击时，我们启动此过程。然后，通过考虑分割结果，用户可以在对象或背景上点击新位置。然后，再次执行所提出的算法以实现更准确的分割。请注意，这两个步骤是递归进行的，直到用户停止点击为止。03.1. 用于交互式图像分割的CNN0我们使用CNN进行交互式图像分割，接受用户注释。用户注释被转换为交互图，与[52]中的方法相同。具体而言，通过计算每个像素到最近的用户注释前景和背景像素的距离，分别获得前景和背景交互图。我们将最大距离限制为255。图1包含了交互图的示例。0网络架构：所提出的CNN采用图2中的编码器-解码器架构[40]。作为输入，该网络接收一张图像和两个前景和背景的交互图。我们采用DenseNet[17]作为编码器，提取高级特征和低级特征。我们使用了许多图像到图像转换任务中使用的跳跃连接来使用提取的特征[39, 41,19]。此外，我们在每个密集块的末尾添加了一个压缩和激励模块[16]。我们有一个粗糙解码器和一个精细解码器。这两个解码器生成概率图，其元素在目标对象区域具有较高的概率。粗糙解码器由四个解码块组成。每个解码块包括三个卷积层。在获得粗糙分割后，我们将其与网络的输入连接起来，并将它们馈送到精细解码器中。在精细解码器中，我们使用扩张卷积[4]来扩大高分辨率张量的感受野。每个卷积层后面跟着一个参数化的修正线性单元[14]和批归一化[18]，除了预测层'Coarse ConvP'和'FineConvP'。我们使用反卷积层将下采样特征的空间分辨率恢复到原始输入图像的大小。所提出网络的输出通过sigmoid层归一化到[0,1]。我们在卷积层中使用3×3和1×1的卷积核。由于所提出的网络是完全卷积的，因此不需要修改输入图像的空间分辨率或长宽比进行分割。yr = f r(yr−1, zr−1, θr, φr).(1)E(z0) = EC(z0) + λEI(z0)(2)ˆz0 = arg minz0 E(z0).(3)53000(a) 3个前景 / 0个背景0(b) 2个前景 / 2个背景0(c) 5个前景 / 3个背景0图3.训练过程中生成的用户注释示例。前景和背景注释分别用红色和蓝色圆圈表示。同时，地面实况对象掩码用黄色突出显示。0不需要修改输入图像的空间分辨率或长宽比进行分割。0训练阶段：我们使用SBD数据集[12]来训练所提出的CNN。它包括8,498个训练图像。在每个对象实例周围，我们随机裁剪一个360×360的补丁，得到图像补丁和其对象掩码的成对数据。我们声明裁剪补丁的中心像素属于对象掩码中的前景。我们进一步通过水平翻转来增加数据。由于SBD数据集中没有用户注释，我们通过简单的聚类策略模拟它们。首先，在[1, 10]和[0,10]范围内随机确定前景和背景点击的数量。然后，我们将地面实况对象掩码中的像素设置为前景候选。另一方面，我们将背景候选设置为距离地面实况对象边界至少5个像素且最多40个像素的位置。通过在每组候选集上应用k-medoids算法[20]，我们找到前景和背景中心点，并将它们分别用作前景和背景注释。图3是生成的用户注释示例。我们使用地面实况掩码和推断的概率图之间的交叉熵损失。编码器的初始参数来自[17]，解码器的参数则使用随机值初始化。我们通过随机梯度下降训练网络。在编码器中，我们将学习率设置为10的-9次方，而在解码器中，我们将学习率设置为10的-7次方。0对于解码器，每个小批次由四个训练数据组成。我们首先在没有细解码器的情况下训练所提出的网络20个时期。然后，我们在细解码器的情况下进行另外15个时期的学习。0推理阶段：所提出的网络接受图像和前景、背景交互图作为输入。给定用户点击，我们首先通过计算每个像素到最近点击的距离来更新前景和背景交互图。然后，我们将它们输入到所提出的网络中，得到目标对象的概率图。我们确定概率大于0.5的位置作为前景。0图4. 所提出网络的符号表示。连接的 z k ( r ) − 1 和 y r − 1被输入到卷积层 f r 中。03.2. 反向传播细化方案0所提出算法的前向传递产生了相当好的分割质量。然而，它的缺点是无法保证点击像素具有用户注释的标签。换句话说，即使点击的像素在分割结果中可能有错误的标签。因此，我们通过反向传播迭代来强制它们被正确标记，以实现更准确的分割。所提出的BRS在所有点击像素都具有正确标签之前进行反向传播迭代。让我们首先定义所提出网络的符号。在图4中，张量 y r − 1 和 z r − 1 被连接起来，参数 θ r 和φ r 被用来获得 y r ，它表示网络中第 r 层的响应。因此，y0 、y R 和 z 0分别成为输入图像、网络输出和交互图，其中 R是细解码器中的最后一层的索引。因此，y r 可以表示为0注意，这个公式可以表示所提出网络中的所有卷积层，包括第一层和具有跳跃连接的层。从用户注释转换而来的初始交互图可能对使网络在用户注释的位置产生正确标签而言并不完美。可以通过修改初始交互图或微调网络来进行修正。然而，重新训练的网络可能会丢失在训练阶段学到的知识。因此，我们选择修改交互图，而不是微调网络。BRS的目标是通过优化交互图 z 0为用户注释的位置分配正确的标签。通过结合修正能量 E C和惯性能量 E I ，交互图 z 0 的能量函数 E ( z 0 ) 定义为0其中 λ 匹配两种能量之间的尺度差异，固定为 10^-3 。然后，我们找到最优的 z 00通过最小化 E ( z 0 ) ，0最小化修正能量迫使所提出的网络在用户注释的位置产生正确的标签(d) Ground-truthEC(z0) =�u∈U�l(u) − yR(u)�2(4)where U is the set of annotated pixels. Also, l(u) denotesa user-annotated label, which is 1 for foreground and 0 forbackground, and yR(u) is the output of the proposed net-work. The derivative of the corrective energy can be com-puted through a backpropagation technique. By employingthese backward recursive equations, we obtain the partialEI(z0) =�x∈N�z0(x) − z0i (x)�2(5)∂EI∂z0 = 2 ×�x∈N�z0(x) − z0i (x)�,(6)∂E∂z0 = ∂EC∂z0 + λ ∂EI∂z0 .(7)53010(a) 用户点击0(b) 初始0(c) BRS之前0(e) 5次迭代0(f) 10次迭代0(g) 收敛0(h) BRS之后0图5.前景和背景用户注释分别以红色和蓝色点表示在(a)中。初始FG交互图在(b)中更新为(e)、(f)和(g)。BRS之前和之后的分割结果分别在(c)和(h)中。由于空间有限，未显示BG交互图。0位置。我们将修正能量定义为0∂z 0，关于交互图的修正能量。惯性能量防止交互图的过度扰动，其定义为0其中N是交互图中的坐标集，z 0i表示在前向传递中使用的初始交互图。当交互图与其初始值不同时，惯性能量产生较高的代价。我们通过以下方式计算惯性能量对交互图的偏导数0这在网络的输入层很容易获得。我们使用参数λ在(2)中混合校正能量和惯性能量的导数，如下所示0最后，我们通过使用L-BFGS算法[28]最小化能量函数，并获得最佳交互结果0核0输入图像0(a) 基线架构0输入图像0交互图0核0(b) 交互式架构0图6.网络架构在第一卷积层的重新配置。基线架构在(a)中通过无需训练的转换方案转换为交互式架构(b)。0图。请注意，前向传递和反向传播是交替进行的。图5显示了BRS如何更新前景交互图以纠正错误标记的像素。请注意，BRS在修改前景交互图时考虑了背景用户点击。03.3. 泛化性0我们将提出的BRS应用于训练有交互图的网络。然而，我们也可以将BRS应用于没有使用交互图进行训练的一般网络。请注意，即使网络的架构（例如卷积层的数量和编码器与解码器之间的跳跃连接）与所提出的网络不同，(4)中的递归反向传播计算仍然适用。基于这种普遍性，我们展示了BRS如何将现有的CNN转换为用户交互式CNN，而无需额外的训练。交互式算法的开发需要时间和专业知识，涉及训练数据的组成、网络架构和超参数。此外，即使成功训练交互式算法，当没有给定用户交互时，它们通常产生比非交互式算法更差的结果。我们开发了一种无需训练的转换方案来克服这些问题。给定一个基线网络，我们在第一个卷积层重新配置其架构，如图6所示。除了输入图像，我们还使用交互图。作为输入，我们在第一个卷积层中共享相同的权重参数来连接图像和交互图。然后，我们可以在重新配置的网络中执行BRS以实现交互。请注意，网络不需要额外的训练。而且，当交互图填充为零时，它产生与原始算法相同的输出。无需训练的转换方案的应用将在第4节中展示。04. 实验结果0我们在四个数据集上评估所提出的交互式图像分割算法的性能：GrabCut [42]，Berkeley [34]，DAVIS [37]和SBD[12]。GrabCut数据集[42]有50张图像，用于评估交互式2468101214161820Number of clicks00.10.20.30.40.50.60.70.80.91IoU scoreRW [0.748]GC [0.764]GM [0.722]ESC [0.833]GSC [0.820]GRC [0.699]DOS [0.895]RIS [0.910]LD [0.911]BRS-VGG [0.914]BRS-DenseNet [0.919](a) GrabCut2468101214161820Number of clicks00.10.20.30.40.50.60.70.80.91IoU scoreRW [0.733]GC [0.667]GM [0.677]ESC [0.768]GSC [0.739]GRC [0.677]DOS [0.873]RIS [0.902]BRS-VGG [0.903]BRS-DenseNet [0.912](b) Berkeley2468101214161820Number of clicks00.10.20.30.40.50.60.70.80.91IoU scoreRW [0.624]GC [0.645]GM [0.473]ESC [0.661]GSC [0.648]DOS [0.824]LD [0.871]BRS-DenseNet [0.867](c) DAVIS2468101214161820Number of clicks00.10.20.30.40.50.60.70.80.91IoU scoreRW [0.713]GC [0.654]GM [0.640]ESC [0.692]GSC [0.673]DOS [0.825]LD [0.852]BRS-DenseNet [0.842](d) SBD2468101214161820Number of clicks00.10.20.30.40.50.60.70.80.91IoU score53020FD [0.868] 无FD [0.621]无FD + BRS [0.821] FD +BRS [0.914]0(e) 消融研究0图7. 根据点击次数对GrabCut [42]，Berkeley [34]，DAVIS [37]和SBD[12]数据集的平均IoU得分进行比较。图例中包含每个算法的AuC得分。提出算法的消融研究也在(e)中。0图像分割算法。它为每个图像提供单个对象掩码。Berkeley数据集[32]包含200个训练图像和100个测试图像。我们使用96个测试图像上的100个对象掩码，由[34]提供。因此，一些图像有多个对象掩码。DAVIS数据集[37]用于基准测试视频对象分割算法。尽管它们由视频序列组成，但我们可以使用它们的单个帧来评估交互式图像分割方法。该数据集有50个具有高质量分割掩码的视频。我们按照[26]的方法随机采样了10%的标注帧。总共使用345个图像进行评估。SBD数据集[7]用于评估对象分割技术，分为8498个图像的训练集和2820个图像的验证集。请注意，我们使用训练集来训练第3.1节中的网络。因此，我们使用验证集进行性能评估，其中包括6671个实例级别的对象掩码。0我们使用两个性能指标，与[29]中一样。首先，我们根据点击次数计算平均交并比（IoU）得分，并计算其曲线下面积（AuC）。在计算AuC时，我们将面积归一化为[0,1]。其次，我们采用NoC指标，即实现特定IoU所需的平均点击次数。我们将目标IoU得分设定为90%。0为了公平比较交互式分割算法，我们采用与[26,52]相同的点击策略。一般来说，用户首先通过找到主要的预测错误类型（即前景或背景）来确定注释的类型。因此，点击策略分别计算假前景和假背景的数量。如果假前景更多，则选择背景注释；否则选择前景注释。此外，用户倾向于在错误预测的中心附近点击位置。因此，点击策略确定要点击的像素，该像素远离错误预测的边界。所有实验中，最大点击次数限制为20次。0图7(a) �(d)将提出的算法与八种传统算法进行比较：图割（GC）[3]，测地线抠图（GM）[2]，随机游走（RW）[10]，欧几里得星凸性（ESC）[11]，测地线星凸性（GSC）[11]，Growcut（GRC）[50]，深度目标选择（DOS）[52]，区域图像分割（RIS）[27]和具有潜在多样性的分割（LD）[26]。注意，得分来自[26,27]。我们报告了使用不同骨干网络（BRS-VGG和BRS-DenseNet）的提出算法的两个版本。提出的BRS在四个数据集上优于所有传统算法，只有在GrabCut数据集上的LD[26]除外。GrabCutBerkeleyDAVISSBDGC [3]7.9810.0014.3315.1317.4113.6015.96GM [2]13.3214.5715.9618.5919.5015.3617.60RW [10]11.3613.7714.0216.7118.3112.2215.04ESC [11]7.249.2012.1115.4117.7012.2114.86GSC [11]7.109.1212.5715.3517.5212.6915.31GRC [50]-16.7418.25----DOS [52]5.086.088.659.0312.589.2212.80RIS [27]-5.006.03----LD [26]3.204.79-5.959.577.4110.78BRS-VGG2.903.845.74----BRS-DenseNet2.603.605.085.588.246.599.78GrabCutBerkeleyFD4.126.125.337.65w/o FD14.3417.417.8019.63w/o FD + BRS6.6010.2810.0915.30FD+BRS2.603.603.165.0853030表1. GrabCut [42]，Berkeley [34]，DAVIS [37]和SBD [12]数据集上NoC85%和90%指标的比较。最佳结果和次佳结果分别用粗体和下划线表示。0算法 85% 90% 90% 85% 90% 85% 90%0图8.所提出算法的分割结果。分割的目标掩码用黄色掩码突出显示。前景和背景用户注释分别用红色和蓝色点表示。0表1报告了NoC 85%和90%指标，分别表示达到85%和90%IoU得分所需的平均点击次数。所提出的算法所需的点击次数比传统算法少得多，这表明所提出的算法能够以更少的用户努力产生准确的目标掩码。虽然所提出的算法在AuC方面与LD [26]相当，但在NoC 85%和NoC90%指标上明显优于LD。这意味着尽管LD能够输出精确的分割结果，但其失败案例比BRS多。图8显示了所提出算法的分割结果。可以观察到所提出的算法能够精确而稳定地描绘目标对象，甚至能够很好地分割出小的对象。此外，即使目标对象的颜色与其背景相似，所提出的算法也能够产生具有准确边界的目标掩码。我们在补充材料中提供了更多的分割结果。0消融研究：我们通过在GrabCut和Berkeley数据集上进行三次消融研究，分析了所提出算法中每个组件的有效性。首先，我们测量了所提出算法在0表2. 不同设置下所提出算法的NoC 85%和90%指标。0设置 NoC 85% NoC 90% NoC 85% NoC 90%0仅执行前向传递。第二，我们不使用精细解码器。第三，我们应用不带精细解码器的BRS。让我们将第一、第二和第三个设置分别称为'FD'、'w/o FD'和'w/o FD +BRS'。表2列出了NoC85%和90%指标。在所有结果中，性能都严重下降，这表明所提出的BRS和精细解码器对于准确的交互式图像分割是必不可少的。图7(e)还显示了所提出的BRS的性能远远优于其他消融设置。此外，我们通过计算在GrabCut和Berkeley数据集上用户注释位置上正确标记的像素的平均比例来报告每个消融设置的准确性。图9以点击次数为单位绘制了准确性。可以观察到BRS使网络在用户注释位置上产生正确的标签。此外，与'w/o FD'的准确性相比，'w/o FD +BRS'设置的准确性有显著提高。这意味着所提出的BRS可以在用户注释位置纠正标签，而不受网络性能的影响。运行时间分析：我们测量了所提出算法的平均计算时间，以每次点击的秒数（SPC）为单位。我们使用一台配备Inteli7-5820K 3.30 GHz CPU和Titan XGPU的PC在DAVIS数据集[37]上进行测试。所提出的算法运行时间为0.81SPC，足够快以供实际使用。所提出算法的实时演示视频可在补充材料中找到。图10以点击次数增加时的计算时间变化。我们可以看到复杂度是可以接受的。00.10.20.30.40.50.60.70.80.9100.511.50.20.30.40.50.60.70.80.91Recall0.20.30.40.50.60.70.80.91Precision530402 4 6 8 10 12 14 16 18 20 点击次数0准确性0FD w/o FD w/oFD + BRSFD+BRS0图9.准确性曲线的比较。准确性定义为用户标注位置上正确标记的像素的平均比率。00 2 4 6 8 10 12 14 16 18 20 点击次数0计算时间(s)0图10. 根据点击次数的计算时间。0表3. 根据点击次数的交互式FCN的平均准确性。0点击次数基准线 1 2 3 4 50平均准确率 (%) 65.4 70.9 72.5 73.5 74.0 74.40即使给出大量点击，性能仍然很好。0无训练转换的应用：为了展示BRS的普适性和多功能性，我们将无训练转换方案应用于三个视觉任务：语义分割、显著性检测和医学图像分割。首先，我们使用FCN[30]作为基准语义分割算法。用户在单个像素上标注一个标签，表示其类别，如飞机、自行车和鸟类。我们在PASCALVOC2012数据集的验证集上评估这个交互式FCN。表3列出了根据点击次数的平均准确率。即使只有少量用户标注，性能也有显著提高。其次，对于显著性检测，我们使用DHSNet[29]作为基准网络。作为标注，使用二进制标签来纠正错误标记的位置。我们使用了三个数据集：ECSSD[53]、DUT-OMRON [54]和MSRA10K[5]。图11显示了在ECSSD数据集上根据点击位置数量的交互式DHSNet的精确率-召回率曲线。可以观察到，使用BRS，DHSNet通过接受用户标注提供了更好的显著性检测性能。由于页面限制，我们在补充文档中报告了交互式DHSNet在另外两个数据集上的性能。0基准线 [0.905] 1个注释[0.909] 2个注释 [0.928]3个注释 [0.938] 4个注释[0.941] 5个注释 [0.945]0图11. 在ECSSD[53]数据集上根据注释数量比较交互式DHSNet的精确率-召回率曲线。图例包括每个算法的最大F-score。0表4. 根据点击次数的平均IoU得分和增益。IoU增益仅在标注的单元格上进行测量。0点击次数基准线 1 2 3 4 50平均IoU (%) 88.2 88.9 89.1 89.4 89.5 89.6 平均增益 (%) - 3.61.8 0.8 1.3 0.30补充文档中报告了其他两个数据集上交互式DHSNet的性能。第三，U-Net[41]是最著名的医学图像分割算法之一。它将细胞从背景中分割出来。我们在PhC-U373数据集的两个测试序列上评估了交互式U-Net的性能。由于没有可用的真值分割图，我们手动提取它们。表4报告了根据注释数量的平均IoU得分。为了进行重点分析，我们还测量了仅包括标注位置的细胞的平均IoU增益。当给出更多点击时，交互式U-Net提供更好的分割质量。总之，基于提出的BRS的无训练转换可以有效而轻松地将各种基于CNN的视觉算法转换为交互式算法。05. 结论0在这项工作中，我们提出了一种新颖的交互式图像分割算法。首先，将用户标注转换为交互地图。然后，提出的网络生成概率图，即初始分割结果。我们执行BRS，以确保用户指定的位置具有正确的标签。实验结果表明，所提出的算法在GrabCut [42]、Berkeley [34]、DAVIS [37]和SBD[12]数据集上优于传统算法[11, 10, 3, 52, 50, 2, 27,26]。此外，我们将BRS推广为使基于CNN的技术能够与用户标注交互。具体而言，我们展示了无训练转换方案可以成功应用于语义分割、显著性检测和医学图像分割。53050参考文献0[1] Junjie Bai和Xiaodong Wu. 基于容错草图的交互式图像分割.在CVPR上, 页码392-399, 2014. [2] Xue Bai和Guillermo Sapiro.测地线抠图: 快速交互式图像和视频分割和抠图的框架. Int. J.Comput. Vis., 82(2):113-132, 2009. [3] Yuri Boykov和M-P Jolly.用于ND图像中对象的最优边界和区域分割的交互式图割.在ICCV上, 页码105-112, 2001. [4] Liang-Chieh Chen, GeorgePapandreou, Iasonas Kokkinos, Kevin Murphy和Alan L Yuille.Deeplab: 使用深度卷积网络,膨胀卷积和全连接CRFs的语义图像分割. IEEE Trans. Pattern Anal.Mach. Intell., 40(4):834-848, 2018. [5] Ming-Ming Cheng,Niloy J Mitra, Xiaolei Huang, Philip HS Torr和Shi-Min Hu.基于全局对比度的显著区域检测. IEEE Trans. Pattern Anal. Mach.Intell., 37(3):569-582, 2015. [6] Jifeng Dai, Kaiming He和JianSun. 通过多任务网络级联实例感知的语义分割. 在CVPR上,页码3150-3158, 2016. [7] Mark Everingham, Luc Van Gool,Christopher KI Williams, John Winn和Andrew Zisserman.PASCAL视觉对象类别(VOC)挑战. Int. J. Comput. Vis.,88(2):303-338, 2010. [8] Leon A Gatys, Alexander SEcker和Matthias Bethge. 使用卷积神经网络的纹理合成.在NIPS上, 页码262-270, 2015. [9] Leon A Gatys, Alexander SEcker和Matthias Bethge. 使用卷积神经网络的图像风格转移.在CVPR上, 页码2414-2423, 2016. [10] L. Grady.用于图像分割的随机游走. IEEE Trans. Pattern Anal. Mach. Intell.,28(11):1768-1783, 2006. [11] V. Gulshan, C. Rother, A.Criminisi, A. Blake和A. Zisserman.用于交互式图像分割的测地线星凸性. 在CVPR上, 页码3129-3136,2010. [12] Bharath Hariharan, Pablo Arbel´aez, LubomirBourdev, Subhransu Maji和Jitendra Malik.从逆探测器中提取语义轮廓. 在ICCV上, 页码991-998, 2011. [13]Bharath Hariharan, Pablo Arbel´aez, Ross Girshick和JitendraMalik. 同时检测和分割. 在ECCV上, 页码297-312, 2014. [14]Kaiming He, Xiangyu Zhang, Shaoqing Ren和Jian Sun.深入研究整流器: 在ImageNet分类上超越人类水平的性能.在ICCV上, 页码1026-1034, 2015. [15] Kaiming He, XiangyuZhang, Shaoqing Ren和Jian Sun. 深度残差学习用于图像识别.在CVPR上, 页码770-778, 2016. [16] Jie Hu, Li Shen和Gang Sun.挤压激励网络. 在CVPR上, 2018. [17] Gao Huang, Zhuang Liu,Laurens Van Der Maaten和Kilian Q Weinberger.密集连接的卷积网络. 在CVPR上, 2017.0[18] Sergey Ioffe和Christian Szegedy. 批归一化:通过减少内部协变量偏移加速深度网络训练. 在ICML上,页码448-456, 2015. [19] Phillip Isola, Jun-Yan Zhu, TinghuiZhou和Alexei A Efros. 条件对抗网络的图像到图像翻译.在CVPR上, 页码1125-1134, 2017. [20] L Kaufman和PJRousseeuw. 数据中的群组发现: 聚类分析导论.Wiley-Interscience, 2005. [21] Tae Hoon Kim, Kyoung MuLee和Sang Uk Lee. 使用重启随机游走的生成图像分割. 在ECCV上,页码264-275, 2008. [22] Tae Hoon Kim, Kyoung MuLee和Sang Uk Lee. 交互分割的非参数高阶学习. 在CVPR上,页码3201-3208, 2010. [23] Alex Krizhevsky, IlyaSutskever和Geoffrey E Hinton.使用深度卷积神经网络的ImageNet分类. 在NIPS上,页码1097-1105, 2012. [24] Victor Lempitsky, Pushmeet Kohli,Carsten Rother和Toby Sharp. 带有边界框先验的图像分割.在ICCV上, 页码

下载后可阅读完整内容，剩余1页未读，立即下载