稠密预测网络的广义交互式反向传播精化

31 浏览量更新于2023-10-26 收藏 1.82MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

773稠密预测网络的广义交互式反向传播精化杨百翰大学fanqinglin@byu.eduAdobe Researchbprice@adobe.com杨百翰大学martinez@cs.byu.edu摘要随着深度神经网络成为计算机视觉领域中用于密集预测任务的最先进的方法，已经开发了许多方法用于在给定视觉输入的情况下自动尽管所提出的自动方法的估计精度不断提高，但交互式细化对于进一步校正是十分必要的。最近，针对交互式分割任务提出了特征反向传播细化方案[25]（f-BRS），该方案能够有效优化插入到预训练网络中的一小组辅助变量，以产生更好地与用户输入对齐的对象分割。然而，所提出的辅助变量仅包含通道尺度和偏差，从而将优化仅限于全局细化在这项工作中，为了将反向传播细化推广到广泛的密集预测任务中，我们引入了一组G-BRS（广义反向传播细化方案）层，该层能够实现以下任务的全局和局部细化：交互式分割，语义分割，图像抠图和单眼深度估计。在 SBD ， Cityscapes ， MapillaryVista ， Composition-1 k 和 NYU-Depth-V2 上的实验表明，我们的方法可以成功地生成并显着提高现有预训练的最先进模型的性能，只需点击几下。1. 介绍深度学习彻底改变了密集预测的任务，允许突破像素分类问题，如语义分割[2，17，18，36]和像素回归问题，如深度估计[3，4，7，13]。虽然这些自动方法在性能上不断改进，但是除了使用不利用任何学习特征的外部工具之外，用户没有资源来对估计的输出进行校正。为了实现用户交互，密集的预测任务，如交互分割[9，14，16，21，30]和图像矩阵-ting [1，5，20，29，35]分别使用距离图和三重图形式的用户输入作为网络输入。尽管附加信息在前向传播期间可能是有帮助的，但深度网络仍然可以自由地生成与用户提供的输入不一致的预测。在这项工作中，我们调查是否可以有效地将一个预先训练的稠密预测方法转化为一个有效的交互式方法，而无需任何额外的再训练。这是一项重要的任务，因为深度网络通常以交互方式应用于摄影[11，32，34，37，38]，录像[22，23，31]，特效[6，8，28]等。两个先前的作品，都主要集中在交互式分割，启发了我们的方法。反向传播细化方案（BRS）[12]使用给定输入图像的初始前向传递和从一组点击生成的距离图执行交互式分割，如[30]所示。为了进一步细化预测并鼓励与输入点击的一致性，它将输入距离图设置为可训练参数，并使用从预测和点击的标签计算的损失来执行反向传播。BRS还简要地将这一思想扩展到其他一些应用：语义分割，显着性检测和医学图像分割，显示了BRS在CNN中的潜在用途。后续工作，f-BRS [25]后来认为，由于需要通过整个网络进行在线为此，f-BRS不是使用输入距离图作为可训练参数，而是在中间网络层之后插入一对辅助参数，其充当通道方向的尺度和偏差，需要通过网络的子部分进行反向传播，同时实现几乎等同的性能。尽管f-BRS的效率提高了，但它具有一个主要缺点：所提出的辅助通道方式的尺度和偏置仅能够进行全局修改。这不仅忽略了在许多视觉应用中对局部细化的需要，而且还使得修改后的输出在校正现有点击的同时易受不期望的全局变化的影响。进行高效和有效的细化7742C∈∈H WC∈Gi=1联系我们n2∈∈.Σ--×推广到密集预测模型，我们建议扩展辅助通道尺度和偏差的概念，一组具有更高级层架构的G-BRS（广义反向传播细化方案）层。我们的方法可以在各种设置中使用通道加权偏差图进行全局和局部细化。此外，我们提出了一种新的一致性损失与atten- tion机制，稳定的细化过程，使更多的用户控制。为了证明我们的方法的通用性，我们实现了G-BRS四个国家的最先进的模型，广泛的密集预测任务，包括互动分割，语义分割，图像抠图和深度估计。我们进行全面评估-在点击的位置。特征反向传播精化方案。尽管准确性有所提高，但BRS在计算上是昂贵的，因为它需要通过整个网络进行梯度计算。因此，Sofiiuket al. [25]建议f-BRS修改一小部分插入的辅助参数，而不是输入的交互映射，从而产生一种更快的算法，只需通过网络的一小部分进行梯度计算。它将f（x，p）定义为接受额外插入的辅助参数p的函数。然后，优化问题如下所示在五个基准数据集上进行测试：SBD，Cityscapes，Map- illary Vista，Composition-1 k和NYU-Depth-V2。结果表明，我们的方法使现有的模型，以实现E（x）=min∆xλp2+i=1（f∈（x，p+p）ui，vi-l i）（二）通过交互式点击和打开，为自动化方法配备一般的交互功能提供了有前途的方向。2. 方法2.1. 背景反向传播精化方案。 BRS最初为了避免点击位置附近的局部细化，并鼓励全局细化，Sofiiuket al.建议使用通道尺度RC 偏置BRC作为辅助参数，其中表示网络的让我们将插入的辅助参数定义为G-BRS层。然后可以将利用信道方式的尺度和偏置的所提出的层公式化为，由Janget al. [12]对于交互式分割，这是一个分割前景对象和背景对象的任务Gsb（m）=m×stecs+stecb（3）在给定用户输入的背景下首先，使用输入点击来使用距离变换生成前景和背景交互图。在推理时，与交互图连接的输入图像在CNN中向前传播以产生输出分割。尽管点击位置的信息被编码在输入交互图中，但是在输出分割中注释的位置仍然可能被错误标记。为了解决这个问题，BRS建议使用反向传播来细化输入交互映射，以加强输入点击和输出分割之间的一致性。微调整个模型的替代方法并不理想，因为它在计算上是低效的，并且模型将丢失智能细化所需的预训练知识。在网络被定义为f的情况下，给定一组输入点击（ui，vi，li） n，其中（u，v）和l0，1分别表示点击的位置和标签，BRS通过在以下优化问题中求解λx来细化初始交互图x其中mRH×W×C是中间特征图，分别表示通道的高度、宽度和数量。逐行乘法和加法表示为stecand+stec。由于插入的G-BRS层不应干扰初始网络预测，因此其初始参数需要执行身份操作，使得0（m）=m。这可以通过初始化s0=1和b0=0来实现。我们将该G-BRS层称为G-BRS-sb层。2.2. 全局和局部优化由于G-BRS-sb层支持原始特征图的通道级缩放和移位，因此它只关注全局细化，因为s和b在所选特征中的位置不变。此限制可能会导致不稳定和不希望的效果，因为尝试修复局部错误可能会导致整个映像发生不可预测的全局更改。为了另外实现对所选特征图的位置修改以用于精确的局部细化，E（x）=min∆x.λx2+Σi=1（f（x+<$x）ui，vi-l i）我们提出了三种新颖的G-BRS层体系结构，在下面的许多应用中具有更好的性能。首先，我们介绍了G-BRS-bmsb层，该层包含：（一）第一项表示用于防止过度修改的惯性能量，其中λ是调节权衡的缩放常数第二项表示用于执行正确输出分割的校正能量得到附加的偏置映射B mRH×W 之前通道尺度和偏差。为了使特征图的所有通道能够在不同的方向上自由移动，我们还引入了通道权重变量wcRC来执行偏置图的通道缩放我们制定的n775EM∈∈∈GCC×G-BRS-bmsb层如下：Gbmsb（m）=（m+（bm×stecwc））×stecs+stecb（4）其中（bm×stecwc）∈RH× W× C. 与s和b类似，我们在下面的部分中，我们将每个输入点击定义为（u，v，r，l），其中r和l分别表示以（u，v）为中心的注意力半径和目标标签。我们引入具有以下一般公式的一致性损失：将bm初始化为0，将wc初始化为1。由于bm的大小取决于所选特征图的分辨率，因此我们应用Lc=λE（（f∈（x，pprev）−f（x，p））M）（7）在特征分辨率是输出分辨率的一部分的更深特征空间中的G-BRS插入。该设置还防止了导致琐碎的局部细化的上述缺点。由于通道加权偏置图和通道尺度和偏置分别应用局部和全局变化，因此G-BRS-bmsb层通过两个变量顺序地修改输入特征。为了探索其中G-BRS层合并来自全局分支和局部分支的特征映射的特征融合，我们引入如下公式化的G-BRS-bmsb-m层：g1（m）=m×stecs+stecb其中，是使用当前预测f（x，p）和初始预测f（x，pprev）计算逐像素误差的函数，其中pprev表示来自先前点击的辅助变量。表示逐像素缩放掩码使用最新点击生成，它选择r之外的区域进行误差计算。在我们所有的实验中，我们对I= 20次迭代执行反向传播。2.4. 泛化在这项工作中，我们使用现有的预训练的最先进的架构，用于广泛的密集预测问题。选定的应用程序包括二进制标签（交互分割）和多标签（语义分割）。g2（m）=m+（bm×stecwc）Gbmsb−m（m）=w·g1（m）+（1−w）·g2（m）（五）站）逐像素分割任务，有界（交互式图像抠图）和无界（深度估计）像素-其中w[0，1]是一个可学习的参数（初始化为0.5），用于调节输入特征中全局和局部变化之间的权衡。除了通道尺度和偏差之外，我们还通过用卷积层替换s和b来探索更强大的表示，我们将其称为G-BRS- bmconv层。对于内核大小k= 1，卷积层基本上学习为每个输出通道组合来自不同输入通道的特征在in=out的情况下，我们将核权重wconvRC×C×1×1初始化为单位矩阵，将偏差bconvRC初始化为0。最初，每个输出通道精确地表示对应的输入通道，并且 bmconv（m）=m。我们将G-BRS-bmconv层公式化如下：智能回归任务我们的目标是展示我们的方法在密集预测模型的交互式和自动设置中的通用性。我们为每个架构介绍了相应的G-BRS层配置。探索用于多个G-BRS层插入的选项，以利用不同级别的特征修改的组合由于不同任务的架构也有很大的不同，值得一提的是，设计一个有效的G-BRS布局需要思考和实验，以获得最佳性能。2.4.1交互式分割交互式分割是一个二进制分割任务，分离任何目标前景对象和背景Gbmconv（m）=（m+β（bm×stecwc））·wconv +stecbconv（六）使用用户输入。由于先前的方法[12，25]主要集中在这项任务上，我们与其中11卷积运算被表示为矩阵乘法和信道偏置。β= 10被用作用于放大偏置图的梯度的标量2.3. 注意机制对于使用反向传播精化的优化，智能精化没有不准确的过度模型，f-BRS[25]（相当于G-BRS-sb）层，并使用带有ResNet-101的标准DeepLabV 3+和提出的距离地图融合模块作为架构。G-BRS层也插入在图1a所示的位置，其中最佳性能由[25]报告我们-将优化模拟为点击细化损失Lr和一致性损失Lc的最小化问题：化是重要的。以前的方法[12，25]建议依赖于惯性能λp的最小化。Lr=0max（1−f<$（x，p）max（1+ f）=（ x，p）ui，vi，0）2Li，0）2l= 1=−1而不是简单地执行一个小22002年2月2日，我们建议i=11ˆn .776ui，viˆi（8）2为了惩罚输出估计在用户定义的关注区域之外，这可以通过所提出的能够进行全局和局部特征图修改的G-BRS层来实现。在Lc=λisHW<$（f（x，pprev）−f（x，p））M<$2由于所选架构产生无界输出值，因此Lr仅在正点击时启用反向传播777nΣeΣLLLLLLLT ∈{}L(a) 交互式分割。（b）语义分割。（c）图像遮片。（d）深度估计。图1.基于四种最先进架构的G-BRS配置，适用于各种计算机视觉应用。值小于1，负点击值大于-1，允许正预测值超过1，反之亦然和冲程模式。首先，我们将点击模式的优化问题公式化如下：亦然Lc使用均方误差（MSE）和双关语-1ef（x，p）ui，vi，cl消除过度的输出偏差以外的注意力，gion。 M∈{0，1}H×W定义了一个二元注意掩码Lr= ni=1日志Cc=1f（x，p）ui，vi，c（九）在圆形关注区域内的值为0。我们HWf<$（x，p）h，w，c使用λ= 1×102作为该项的权重。L=λ1Σ Σ日志 ep是对于每一次点击，网络都会对我们做出推断-c ss硬件h=1w=1Cc=1 ef<$（x，p）h，w，c检查更新的交互映射并执行反向传播。请注意，所有提供的点击都用于r，而只有最近的点击用于C. 使用在r的计算中的所有点击允许校正新提供的点击而不丢失从先前点击获得的知识。由于二进制分割的阈值为0，因此为了避免过拟合并实现更快的响应时间，在以下情况下，细化会提前停止max（l i− f（x，p） ui ， vi <$1：i = 1，.， n）<0。8.2.4.2语义分割我们计算r和c的交叉熵损失，其中r仅使用点击的位置。C、cl和cp分别表示类别、点击的目标类别和先前预测的类别的数量。将CP设置为用于计算C的圆形关注区域内的忽略标签。在笔画模式中，我们使用户能够以任意半径为不同的目标类绘制笔画，并创建微调遮罩0 ， ... ， CH×W，其中C的值用作初始化时忽略的标签。在这种模式下，我们将等式9中的Lr更新为：语义分割是一个多标签的分割任务1小时Wef（x，p）h，w，cT预定义的类。启用交互式细化Lr=HW日本语中文（简体）ef（x，p）h、w、c .（十）在输出分段上，我们配置多个G-h=1w=1c=1在Tao等人提出的架构上插入BRS层。[27]，一个以HRNet-OCR [33]为骨干的多尺度注意力网络。如图1b所示，我们在HRNet主干的第4阶段[26]中为每个尺度分支插入三个插入，其中特征分辨率为1，1对于c的权重，我们对点击模式使用λss= 10，对笔画模式使用λss= 12.4.3图像抠图12 4和8的输入分辨率。为了用户应用的实用性，阳离子使用单个GPU，我们省略了具有2.0x规模的分支，并使用具有1.0x和0.5x规模的两个分支。此外，我们还介绍了两种细化模式：点击模式图像抠图是一个预测密集的alpha抠图的任务对于给定输入图像和用户定义的三重图的目标前景。尽管可以通过修改三元图来执行交互式细化，但是这种修改不限于此。778∈nL×LmtHW2LL×L LLM∈联系我们LC∈CLr=<$（li−f（x，p）u，v）（13）×n不保证输出蒙版与三重图一致。更重要的是，输入trimap缺乏alpha值的必要精度，因为它只包含三个标签，分别表示前景，背景和不确定区域。为了实现反向传播细化，选择具有 MobileNetv2 [24] 主干的IndexNet [19] 作为架构。我们观察到 IndexNet 模块（IM）为解码器层生成的索引映射包含最佳特征并插入G-BRS层，如图1c所示。优化问题公式化如下：1ΣG-BRS的平均激活。所得到的所选特征映射mRH×W×K用作G-BRS层的输入，并且m中的双声道不被修改。我们将优化问题公式化如下：ˆ2我我i=1我们计算r的平方误差和（SSE），并使用λ de=110−1，用与公式11相同的公式计算c。推模式也由公式12表示。3. 实验Lr=（li−f<$（x，p）u，v）2Lc=λni=11（f（x，pprev我我（十一））−f<$（x，p））M<$2我们在五个基准数据集上进行实验，并在测试/验证集上进行评估，这些测试/验证集具有公开的地面实况，可以自动生成点击。我们其中L i[0，1]表示单击的目标alpha值I.对于r和c计算MSE损失，其中r仅使用点击的位置。c使用逐元素加权掩码来惩罚远离关注区域的扰动这是在最新点击位置处使用逆高斯核定义的，其中σ=r。 λ mt= 1 103用作c的权重。我们将这种细化模式称为点击模式。由于用户确定目标像素的确切alpha值是一个挑战我们为左/右点击定义l0，1，并将优化问题公式化如下：.（（f<$（x，pprev）u，v+v）−f<$（x，p）u，v）2l=1比较了四种类型G-BRS层的定量结果。对于具有多个G-BRS插入的架构，我们逐步包括具有更高分辨率的特征的插入。除了完整测试/验证集的结果外，我们还报告了初始得分最低的10%实例的结果，原因有两个：首先，由于所选的最先进模型已经可以达到较高的平均初始准确度，因此单独评估可以更好地证明G-BRS在具有更突出错误的实例上的有效性。其次，对于现实世界的应用程序，作为细化的高优先级目标的实例是具有最差初始估计的实例。对于额外的分析，我们对所提出的一致性损失的有效性进行了消融研究由于[25]建议反向传播细化也可以使用RGB输入作为参数而不是特征来应用，Lr=哪里（（f∈（x，pprev）u，v- f（x，p）−f（x，p）u，v）2 l= 0（十二）我们包括使用RGB-BRS的结果。所有应用程序的交互式细化的定性示例显示在图4. 不同类型的产品之间的其他定性比较=0。1表示推进距离。推模式不包含以前点击的记忆，并省略了c。反向传播仅应用于1次迭代，因为所需的修改是边际的。2.4.4深度估计深度估计是从单个图像产生精确深度图的任务。为了实现交互式细化，我们选择具有DenseNet- 161[10]骨干的BTSNet [15我们将G-BRS层插入编码器的最后DenseNet块之后，如图1d所示。由于该位置处的特征图m具有大量通道= 2208，因此对过多数量的参数应用G-BRS可能导致对目标点击的过拟合。另外，对于具有参数wconvRC×C×1×1的G-BRS-bmconv层，大的是低效的。为此，我们执行前k通道选择（TCS）其选择具有最高补充文件中包含了各种设置3.1. 评价方案我们计算所有四个任务的标准指标在每个提供的点击。为了进行全面分析，我们还计算了以下指标：（1）所选指标的曲线下面积（AUC），以说明收敛时间，（2）在点击总数中获得的最佳分数。我们首先报告使用一致性损失获得的结果，并在后面的章节中提供消融研究为了找到每个G-BRS设置的最佳学习率，我们选择每个测试集的一个子集，使用10个学习率进行评估，范围从0.1 至010的情况。五点九我们报告每个项目的最高得分类型的G-BRS层，并包括所有的实验结果，使用的学习率和运行时分析，由于空间的限制，在文档中。为了能够对我们的精炼工艺进行定量评估，779联系我们DDLLLLL(a) 交互式分割（b）语义分割-城市景观（c）语义分割- Mapillary Vista图2.使用具有一致性损失的各种G-BRS设置的交互式分割和语义分割的定量结果对于每种类型的层，报告达到最佳分数的层的数量（例如，L3表示3个活动层）。当然，我们使用两种不同的自动点击生成策略。对于需要逐像素分类的交互式分割和语义分割，让我们定义二进制错误掩码0，1H×W，表示c类的误分类区域。我们生成下一个在下面定义的位置单击目标标签c= arg max（ max（D（c）表1.使用输入的细化设置之间的比较点击20次各种设置。我们计算AUC，C（u，v）= arg max（c）u，v（十四）用于分段任务的mIoU。结果表明，基线方法（表示为NA）具有有限的细化能力相比，利用反向传播细化的方法，其中，表示距离变换函数，并且所选的班级。请注意，具有忽略标签的区域将从错误掩码计算中排除。为了实现自动半径生成，我们从包含（u，v）的Ckc中选择连通分量Cke，并计算（u，v）与Cke的边界之间的最大欧几里得距离。对于需要逐像素回归的图像抠图和深度估计，我们使用类似的点击生成策略，该策略首先使用Otsu阈值将回归错误掩码转换为分割错误掩码。其次，由于可以为分割任务中的每个类计算出fcc，因此我们将具有正误差和负误差的误差掩码fcc分为fcc+和fcc-。点击位置（u，v）然后可以通过遵循与等式14相同的策略来生成。对于半径生成，我们观察到，半径不足是适得其反的，因为它阻止了小注意区域之外的精确细化为此，我们将核大小为15的膨胀应用于所选的π+/-，并按照上述分割策略计算半径。3.2. 评估-交互式细分我们在语义边界数据集（SBD）上进行评估，该数据集是目前最大的交互式分割数据集，由于生成交互作用图的输入点击也在没有反向传播细化的情况下实现了改进，因此我们在没有G-BRS的情况下运行实验作为基线比较。图2a显示了在所有对象实例是的。注意，本任务中的G-BRS-sb层等同于f-BRS [25]中使用的辅助变量由于f-BRS没有在我们处理的其他应用程序上实现，因此我们在实验中将该层架构称为G-BRS-sb。结果表明，在这项工作中提出的所有三个G-BRS 层都优于G-BRS-sb 层（ f-BRS ），其中 G-BRS-bmconv层对于测试集和底部10%实例实现了0.859和0.694的顶部AUCmIoUG-BRS-bmconv层还实现了在点击总数中获得的最佳峰值mIoU，得分为0.918。为了与使用输入作为参数的反向传播细化设置进行比较，我们首先执行DistMap- BRS [12]，它使用输入距离图作为参数。还执行使用RGB输入的RGB-BRS，这应该是[25]建议的等效解决方案。由于[12]提出的原始DistMap-BRS使用L-BFGS优化器的相关能量和惯性能量，我们将这种损失最小化方法称为brs，并与我们使用Adam优化器的一致性损失c表1显示RGB-BRS优于DistMap-BRS，并且具有略高的AUC 0。第853章当你用枪的时候然而，由于L-BFGS优化器存储器非常密集，因此不适用于许多应用。因此，在后面的部分中，我们展示了使用RGB-BRS与c针对所有应用获得的结果，以在使用输入和特征的反向传播细化之间进行比较。对于交互式分段，图2a示出了所有四种类型的G-BRS层都优于RGB-BRS。方法AUCLbrs[12]AUCLc（Ours）mIoUmaxmIoUmaxDistMap-BRS0.8320.8940.8450.891RGB-BRS0.8530.9080.8510.905780××××(a) 图像抠图（b）深度估计图3.图像抠图和一致性损失的深度估计的定量结果3.3. 评估-语义分割由于测试集的地面实况不能公开用于自动点击生成，因此我们选择Cityscapes和Mapillary Vista的验证集用于评估此任务。Cityscapes提供了500个测试图像，有19个类别，而Mapillary Vista提供了一个更好的-有2,000个实例和65个类的任务。我们调整MapillaryVista的输入分辨率以匹配1920年的区域960由于GPU内存限制。图图2b示出了我们的G-BRS层优于G-BRS- sb层，其中G-BRS-bmconv层实现了0的最高AUCmIoU。897和0。Cityscapes上的863个实例及其最低的10%实例。图2c示出了G-BRS-bmconv层还实现了0的最高AUC mIoU。779和0。Mapillary Vista上有720个，最低10%的实例。我们强调，我们的方法能够将现有的最先进的模型转化为交互式方法，从而进一步实现显着的改进。在Cityscapes上，由于多尺度HRNet-OCR [ 33 ]的初始估计已经达到了0的高mIoU。866，所提出的G-BRS-bmconv层能够将mIoU提高到0。9在只有10个点击。对于Mapillary Vista数据集，尽管mIoU低得多，为0。582从初始估计，G-BRS-bmconv层实现为0的mIoU。20次点击822次，提高初始得分41.2%。表2.使用每个G-BRS层类型的顶部AUC，无一致性损失。超过使用L c的设置的分数以粗体显示。和11. 713 10−3在Composition-1 k及其底部10%实例上。它还将MSE从初始评分14降低了36.6%。420 10- 3到914620次点击后10 −3。我们提出的G-BRS层显示出即使在20次点击后也会继续改善的趋势，而G-BRS-sb层由于无法进行局部细化而在10次点击后难以改善3.5.评估-深度估计我们在由654幅RGB-D室内图像组成的NYU-Depth-V2数据集的测试集上进行评估。我们计算δ1−3、AbsRel、Sq Rel、RMSE和RMSElog的标准度量，并将所有结果包含在补充文档中。为了简单起见，我们报告δ1的结果，定义为δ t=平均值（max（dgt， d）<1. 25t），其中dgt和dde-d dgt此外，对于具有更大由于需要细化，我们从0的mIoU实现了77.1%的改进。445比0 788在20个点击。3.4.评估-图像遮片我们在Composition-1 k上进行评估，该测试由1,000张测试图像组成，使用50个独特的前景对象进行合成。绝对差之和（SAD）、均方误差（MSE）、梯度（梯度）和连接性（连接性）误差的标准度量包含在附录文件中。为简单起见，我们显示了在各种设置上单击20次的MSE。图3a示出了G-BRS-bmconv层实现了最低的AUC mse10。763×10−3分别记录地面实况和预测深度图图3b示出了G-BRS-bmconv层实现了0的最佳AUC δ。963和0。897个测试集及其底部10%的实例。我们将初始δ1从0. 885分，接近完美的0分。10次点击983次。对于底部10%的情况，从δ1= 0也有74.8%的大幅改善。551至δ1= 0。九六三3.6. 消融研究我们使用建议的一致性损失对所有数据集进行相同的实验，并在表2中显示了最佳结果。通过将表2与图2和图3进行比较，我们发现使用一致性损失对几乎数据集SB马来西亚证交所BMSB-MbmconvSBD0.8430.8320.8530.846城市景观0.8810.8890.8860.883马皮拉里维斯塔0.7370.7420.7390.738组成-1 k0.01250.01080.01090.0112NYU-深度-V20.9550.9620.9560.955781×L输入图像初始估计点击5点击10最终输出地面实况图4.使用G-BRS-bmconv对SBD、Cityscapes、Mapillary Vista、Composition-1 k和NYU-Depth-V2进行定性示例。具有注意力半径的点击是可视化的。用于语义分割和深度估计的黑色区域无效。放大后效果最佳。将语义分割的图像分辨率缩小到1024 512，以适应内存限制（相同的分辨率，在本实验中，G-BRS-bmconv使用Tion进行公平比较）。因此，我们可以看到性能从使用G-BRS-bmconv的最高AUC 0.897和0.779（图2）下降到使用RGB-BRS的Cityscapes和MapillaryVista的AUC分别为0.882和0.675。RGB-BRS对于如何反向传播细化表3.RGB-BRS和G-BRS-bmconv之间的比较所有G-BRS设置。结果还显示，实现每个数据集的最高AUC的G-BRS-bmconv的设置都利用Lc。有/无的实验的其他结果信用证包括在补充文件中。3.7. 与RGB-BRS的我们使用RGB-BRS和c对所有数据集进行实验，如第 3.2 节所述，并测量 AUC 以及每次点击秒数（SPC）。速度测量实验使用RTX 2080 Ti GPU运行。表3表明，尽管由于需要通过整个网络反向传播而导致推理时间相当高，但RGB-BRS和G-BRS-bmconv获得了相当的结果。RGB-BRS的额外存储器消耗例如，RGB-BRS要求我们这使得用户无法设计出有效且适用于不同架构的高效G-BRS布局4. 结论在这项工作中，我们提出了一套新的广义反向传播细化方案（G-BRS）层，带来显着改善的最先进的模型的性能与全局和局部修改的中间功能。通过在细化过程中使用我们通过针对四个不同的应用程序并将每个应用程序的预训练的最先进架构转换为具有相应G-BRS层配置的交互式方法来展示我们方法的通用性。我们的工作显示了有前途的方向，增加交互能力的架构用于许多其他计算机视觉应用。数据集RGB-BRSG-BRS-bmconvAUCSPCAUCSPCSBD0.8511.5420.8590.584城市景观0.8828.3610.8695.727马皮拉里维斯塔0.6758.1250.6735.130组成-1 k0.01002.4730.01081.383NYU-深度-V20.9613.2050.9632.107782引用[1] Shaofan Cai，Xiaoshuai Zhang，Haoqiang Fan，HaibinHuang ， Jiangyu Liu ， Jiaming Liu ， Jiaying Liu ， JueWang，and Jian Sun.解开图像抠图。在ICCV，2019年。1[2] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。再思考无卷积在语义图像分割中的应用。在CVPR，2017年。1[3] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签在ICCV，2015年。1[4] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度NeurIPS，2014。1[5] 马可·福特和弗朗索瓦·皮特。 F，B，阿尔法矩阵。在ECCV，2020年。1[6] OhadFried ， AyushTewari ， MichaelZollhoüfer ，AdamFink el-stein ，Eli Shechtman ，Dan B Goldman ，Kyle Genova ， Zeyu Jin ， Christian Theobalt ， andManeesh Agrawala.基于文本的编辑说话头视频。在ACM Transactions on Graphics，第38卷，2019年。1[7] Huan Fu ， Mingming Gong ， Chaohui Wang ， KayhanBat- manghelich，and Dacheng Tao.用于单目深度估计的深度有序回归在CVPR，2018年。1[8] NazimHaouchine，FrederickRoy，HadrienCourtecuisse，Matthias Nießner，and Stephane Cotin.通过cad模型代理进行基于物理的图像和视频编辑在视觉计算机，2018年。1[9] Yang Hu，Andrea Soltoggio，Russell Lock，and SteveCarter.一种用于交互式图像分割的完全卷积双流融合网络在神经网络，卷109，2019。1[10] 高煌，刘庄，劳伦斯·范德马腾，和Kilian Q.温伯格密集连接的卷积网络。在CVPR，2017年。5[11] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。InICCV，2017. 1[12] 张元东和金昌洙基于反向传播细化方案的交互式图像分割。在CVPR，2019年。一、二、三、六[13] Iro Laina、Christian Rupprecht、Vasileios Belagiannis、Federico Tombari和Nassir Navab。使用全卷积残差网络进行更深的深度预测。在3DV，2016年。1[14] Hoang Le，Long Mai，Brian Price，Scott Cohen，HailinJin，and Feng Liu.用于对象选择的交互式边界预测。在ECCV，2018。1[15] Jin Han Lee，Myung-Kyu Han，Dong Wook Ko，and IIHong Suh.从大到小：用于单目深度估计的多尺度局部平面引导。在arXiv：1907.10326，2019。5[16] Jun Hao Liew，Yunchao Wei，Wei Xiong ，Sim-HengOng ， and Jiashi Feng. 区域交互式图像分割网络。InICCV，2017. 1[17] Guosheng Lin ，Anton Milan，Chunhua Shen，and IanReid. Refinenet：用于高分辨率语义分割的多路径细化网络。在CVPR，2017年。1[18] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。CVPR，2015。1[19] Hao Lu，Yutong Dai，Chunhua Shen，and Songcen Xu.索引很重要：学习索引深度图像抠图。在ICCV，2019年。5[20] Sebastian Lutz 、 Konstantinos Amplianitis 和 AljosaSmolic。Alphagan：用于自然图像抠图的生成对抗网络。在BMVC，2018年。1[21] Sabarinath Mahadevan 、 Paul Voigtlaender 和 BastianLeibe。迭代训练的交互式分割。在BMVC，2018年。1[22] 苗嘉旭、魏云超、杨毅。用于高效交互式视频对象分割的内存聚合网络在CVPR，2020年。1[23] Seoung Wug Oh，Joon-Young Lee，Ning Xu，and SeonJoo Kim.利用互动传播网路快速使用者导引的视讯物件分割。在CVPR，2019年。1[24] Mark Sandler 、 Andrew Howard 、 Menglong Zhu 、Andrey Zh- moginov和Liang-Chieh Chen。Mobilenetv2：反向残差和线性瓶颈。在CVPR，2018年。5[25] Konstantin Sofiiiuk、Ilia Petrov、Olga Barinova和AntonKonushin。f-brs：Rethinking backpropagating refinementfor interactive segmentation.在CVPR，2020年。一二三五六[26] Ke Sun，Yang Zhao，Borui Jiang，Tianheng Cheng，Bin Xiao，Dong Liu，Yadong Mu，Xinggang Wang，Wenyu Liu，and Jingdong Wang.用于标记像素和区域的高分辨率表示在arXiv：1904.04514，2019。4[27] Andrew Tao Karan Sapra和Bryan Catanzaro。语义分割的层次多尺度注意。载于arXiv：2005.10821，2020。4[28] JustusThies，MichaelZol lhöfer，andMatthiasNießne r. 延迟神经绘制：使用神经纹理的图像合成。在 ACMTransactions on Graphics，第38卷，2019年。1[29] Ning Xu，Brian Price，Scott Cohen，and Thomas Huang.深度图像抠图。在CVPR，2017年。1[30] Ning Xu，Brian Price，Scott Cohen，Jimei Yang，andThomas Huang.深度交互式对象选择。在CVPR，2016年。1[31] Rui Xu，Xiaoxiao Li，Bolei Zhou，and Chen Change Loy.深度流引导视频修复。在CVPR，2019年。1[32] Jiahui Yu，Zhe Lin，Jimei Yang，Xiaohui Shen，XinLu，and Thomas S.煌利用门控卷积进行自由形式图像修复。在ICCV，2019年。1[33] Yuhui Yuan，Xilin Chen，and Jingdong Wang.用于语义分割的对象上下文表示。在ECCV，2020年。四、七[34] 作者： R

下载后可阅读完整内容，剩余1页未读，立即下载