没有合适的资源?快使用搜索试试~ 我知道了~
1DeepStrip:高分辨率边界细化周鹏1布赖恩价格2斯科特科恩2格雷格Wilensky2拉里S.戴维斯11马里兰大学学院公园2Adobe Research,San Jose摘要HR图像双线性上采样我们HR地面实况在本文中,我们的目标是在高分辨率图像中细化低分辨率掩模的边界。为了提高内存和计算效率,我们建议将感兴趣的区域转换为条带图像,并在条带域中计算边界预测。为了检测目标边界元,我们提出了一个具有两个预测层的框架。首先,所有潜在的边界被预测作为初始预测,然后选择层被用来挑选目标边界并平滑结果。为了鼓励准确的预测,在带域中的边界距离测量的损失此外,我们对网络实施匹配一致性和C0连续性正则化,以减少误报。在公共数据集和新创建的高分辨率数据集上进行的大量实验强烈验证了我们的方法。1. 介绍边界检测是一个经过充分研究的问题,也是人类识别的基础[29,9]。近几十年来,人们已经做出了相当大的努力来改善已被探测到的物体的边界质量[42,36,33,19,38,49,16,23,43]或分段[11,35,25,7,18]。因此,利用这些方法可以很容易地将感兴趣的对象虽然当前基于学习的边界检测算法通常是在低分辨率(LR)图像(0.04-0.25百万像素)上计算的,但是这些天拍摄的大多数照片都要大得多,范围从手机大小(8-16百万像素)到专业相机大小(16- 4亿像素)。大多数方法都不是针对这种大小的图像以及它们所需的过多计算而设计的,并且大多数基于机器学习的方法由于时序约束而无法处理它们。给定精确的低分辨率预测,解决方案将是直接应用上采样以达到高分辨率(HR)。然而,这通常产生质量差的结果,因为没有考虑HR图像中的语义内容。(See图1.)在边界检测中,大多数研究都集中在通过引入边界上采样图1.概念概述。该示例来自新创建的PixaHR数据集。给定左侧的低分辨率掩模和高分辨率图像,比例因子为16×的双线性上采样将导致高分辨率图像中的边界未对准如右侧放大的边界区域所示此外,高分辨率的新细节将被错过。更多的语义信息[2,46,27]或人类间-行动[23,26,44,25,7]。虽然已经有一些关于HR语义分割[12,48]和上采样[41,47]的工作,但对准确捕获HR中的边界细节关注较少。我们没有将这个问题视为上采样问题,而是将其视为边界检测,并利用HR图像中的内容进行预测。为此,我们提出了一种新的方法来处理HR图像中的边界细化(参见图2。)我们的关键思想是通过对由边界附近的像素组成的窄图像进行操作,以时间和内存高效的方式将深度学习方法的功能应用于HR图像。给定准确的LR掩码,HR中的边界可能接近上采样的LR边界。(See图1.)因此,为了节省存储器和计算,我们建议在上采样掩码的边界附近的条带区域中搜索目标边界。通过沿着上采样的掩模边界并垂直于上采样的掩模边界对像素进行采样来形成条带图像。由于上采样掩码中的边界不准确,法线可能不平滑,因此我们用样条近似表示LR边界,并直接将上采样样条的正交导数视为法线方向。作为输入,我们训练一个网络,首先预测所有潜在的边界。在初始预测的基础上,增加了一个选择层,以更准确地预测目标边界。为了鼓励更接近的预测和减少误报,我们提出了损失函数,以最大限度地减少预测之间的边界距离10558LR掩模10559C0连续正则化L1损失边界距离损失匹配损耗图2.框架.为了节省内存和计算量,我们预测的边界在一个条带图像,而不是整个图像。首先,从HR图像和相应的LR掩模中提取条带图像将条带图像作为输入,网络预测所有潜在边界(表示为“x”),并将初始预测传递给选择层(表示为“m”),以在目标边界(表示为“s”)上进行更准确的这些数字是显示在右边的损失指标。橙色和绿色曲线分别表示地面实况和预测。请注意,条带图像和预测旋转90度以进行可视化。在条带图像中的措辞和地面实况,并鼓励C0的连续性预测。最后,我们通过匹配不同条带尺寸下的预测来追求一致的结果,以进一步提高性能。为了验证我们的方法,我们创建了一个新的PixaHR数据集(参见图1的图像示例),照片的平均分辨率为7k×7k,并评估我们的approach高达比例因子32×。DAVIS 2016和COCO粗注释的结果也显示了我们的细化能力粗略的边界注释。简而言之,我们的贡献是三方面的。1)提出了一种将潜在的边界区域转换为条形空间的条形图像边界预测方法。这种方法使我们能够以计算和内存高效的方式应用神经网络。2)为了提高性能和鼓励更密切的预测,我们提出了新的损失,包括边界距离,匹配和C0连续性损失。3)我们创建一个高分辨率的数据集进行评估。据我们所知,我们是第一个基于学习的方法,使HR稠密边界细化的分辨率高达10k×10k。在公共数据集和新PixaHR数据集上进行的大量实验都突出了我们的有效性。2. 相关工作第一千一百零六章境界精进。已经进行了多次尝试,通过提取更好的特征来提高边界质量[42,45,27,2,14]。Xie等人[42]利用来自多个层的特征并融合低级和高级特征以检测边缘。Liu等[27]探索丰富的卷积特征以提高性能。更相关的是,已经注意到细化粗略的边界预测或注释[46,2]。传统的方法,如密集条件随机场(CRF)[22],图形切割[8]模型的重新-附近像素之间的关系,因此可以应用于细化LR掩模[24]。然而,这些是基于分割的,并且仅利用了低级特征。有了更多的监督,Yu等人。[46]建议同时学习和对齐边缘,以直接细化未对齐的边界。Acuna等人[2]通过引入减薄层和主动对准策略以获得精细边界来进一步改善性能。这些方法主要研究LR图像的边缘检测。相比之下,我们处理HR边界细化,并仅对上采样LR边界样条周围的区域应用检测,因此内存和计算效率更高。活动轮廓。主动轮廓模型(如Snakes [19])已被引入以从粗糙边界中细化边界已经探索了各种方法来处理蛇的限制,例如,更好的初始化、形态操作[4]或用户交互[23]。由于我们的方法还细化了从LR掩码上采样的曲线,因此我们可以从这些方法中受益并进一步细化而不是将整个图像作为输入,深度活动轮廓[34]学习以补丁的方式预测补丁中然而,它不能保证一个连续的边界预测。相反,我们的方法直接提取一个连续的边界区域,从而包含更多的全球信息。其他作品不是预测整个曲线,而是探索通过递归神经网络或图卷积网络(GCN)[20]预测控制点[10,3,26],然后拟合曲线作为最终预测。但是,边界细节在样条表示中是平滑的。相比之下,我们的方法直接预测精确的边缘信息。另一条工作线隐含地表示边界曲线。例如,深能级集方法[30]通过最小化能级能量函数来演化边界其他基于学习的方法[28,13,39]已经提出提供LR掩模和HR图像跳过连接精选层212条带创建4M3XS123410560有用的特征,包括纹理、颜色或形状,用于更好的优化。然而,当分辨率增加时,这些基于学习的方法遭受计算和存储器问题,因为它们处理整个图像,而我们的方法仅关注上采样LR边界周围的区域,因此需要较少的计算和存储器开销。高分辨率上采样。 的信息来LR HR掩模图像上采样轮廓边界区域条形图像最终边界低分辨率掩模,研究人员专注于achiev-高质量的HR分割模板。传统方法[21,6]通过与LR掩码参考联合应用上采样来达到HR。然而,固定的滤波器结构难以捕获新的HR边界细节。He等人[17]提出了引导滤波以在上采样时平滑同时Wu等[41]使引导过滤器更快和可学习。对于HR分割方法,Zhaoet al.[48]建议聚合LR特征用于HR分割和Chen等人。[12]对齐全局和局部特征,以避免HR分割的大量GPU消耗。尽管这些方法可能适用于边界细化,但我们的方法主要关注边界区域,并且旨在直接检测HR中的边界。因此,我们的方法更好地学习新的HR边界,特别是当LR边界被粗略注释时。3. 方法我们的目标是在给定LR精确掩模的情况下,细化HR图像中的边界。为了有效地实现这一目的,我们建议在捕获潜在边界区域而不是整个HR图像的条带图像上进行预测。图2说明了我们的框架.我们的方法包括条带图像创建,它将HR RGB图像转换为条带图像,条带边界预测,它使用网络和条带重建来细化条带图像上的边缘,条带重建是在测试期间从条带边界预测重建原始图像中的预测。3.1. 条带图像创建图3描述了条带图像创建的过程由于由上采样引入的插值,来自LR图像的直接上采样边界可能从HR中的地面实况边界移位。为了局部化真实的HR边界像素,在上采样边界周围搜索比搜索整个图像更有必要。因此,我们提取上采样边界附近的像素以创建条带图像。为了创建条带图像,我们沿着边界步进,并沿着曲线上每个点的法线方向采样点为了获得沿粗边界平滑变化的法线方向,我们用B样条表示LR边界,并将LR样条提升到HR。图3.条带图像创建。为了生成条带图像,LR掩模中轮廓的B样条表示被上采样到HR作为粗边界。沿着法线方向的HR区域(例如,红色和绿色箭头)。最后,通过平坦化HR图像和掩模中的提取区域来获得条带图像和相应的边界地面实况。注意最终边界滤除噪声边界(例如,红框区域)。条带图像和边界旋转90度以进行可视化。给定HR图像I(p,q)和边界轮廓的上采样样条表示C=(p(k),q(k)),其中(p(k),q(k))表示由沿着曲线的弧长k参数化的HR图像坐标,连续条带图像JI,C由下式定义:JI ,C(k,t+H/2)=I(p(k)+t×np(k),q(k)+t×nq(k)),(1)其中t表示法线方向上的距离,H表示条带图像的高度,并且(n p(k),n q(k))是弧长k处的曲线法线的单位。因此,具有尺寸H×W的条带图像JI,C(j,i)是ob。通过采样k=j×dk,t=i×dt获得,其中切向步长dk = 1|C|为了简单起见,正常步长dt被设置为1 。|C| 表 示 C 的 长 度 , j = 0 , 1 , . , W 和i=−H/2,...,0,…H/2。此外,在高分辨率图像中应用双线性插值以评估非像素坐标(p,q)的I(p,q)。相应的HR条带边界地面实况为ob-类似地,有两个调整。首先,对于大的采样比例因子,如果条带高度小,则地面实况边界可能在条带的范围之外,使得条带图像中的边界不连续。如果没有边界像素,我们在条带的边界处添加标签,第二,如果条带高度大,则在边界比条带高度更近的区域中的每列中可能包括多个边界像素。在这种情况下,我们过滤掉与当前边界不相连的无关边界(See图3.)3.2. 带材边界预测提供HR条带图像作为输入,我们训练一个网络来预测条带域内的相应边界。为了提高内存效率,我们采用基于轻量编码器-解码器的结构嵌套U网[32,50]进行边界预测。考虑到适当的尺寸10561IJXIJ条带图像的分辨率因不同分辨率而异,我们在训练期间使用实例归一化[37],以便每个图像的均值和方差近似。如图2所示,提出了两个预测层来学习条带图像中的目标边界,以考虑条带图像的单个列中可能存在多个真实边界的事实首先,我们提取最后一个这鼓励网络学习条形图像内的边界特征。为了预测目标边界,我们添加了一个可学习的选择层来从潜在边界中提取目标边界选择层的输入是初始预测,我们将列方式的softmax应用于选择层的输出,作为初始预测的置信度得分。最后计算目标边界和骰子损失对从预测到地面实况的距离不敏感。因此,我们引入边界距离损失来测量预测边界和地面实况之间的平均距离,以鼓励更接近的预测。由于条带域在每列中沿着法线方向映射区域,因此可以通过预测和地面实况之间的差异直接计算边界距离。给定在最终条带掩模中的每列中仅存在一个边界像素的先验,可以通过计算预测与地面实况之间的每列处的argmax差来测量每列处由于argmax函数不可微,因此在计算边界距离之前,我们通过软argmax对其进行近似,并将损耗公式化为通过初始预测和选择分数之间的乘积。选择层也会平滑初始Ld=1 ΣW|、( 五)|,(5)预测,类似于Canny边缘检测中的非最大值抑制[9]。从形式上讲,s=xm,(2)Wi ij=1其中W是条带掩模的宽度,并且每列(法线方向)中的软argmax计算为其中,x表示逐像素乘法,s表示最终预测,x表示将Sigmoid激活应用于最后上采样层的输出的初始预测ΣHsoftarg(sij)=ii=1.|SIj|||SJ||1Σ×i,(6)而M是选择层的softmax激活输出3.3. 损失函数我们的基本损失函数的初始和最终的边界预测是一个加权的l1损失,以区分从非边界像素的从形式上讲,哪里||SJ||1是列j处的sij的l1归一化。由于最后的预测sij鼓励单峰的dis-i根据等式2,该损失强制最终预测的列方向最大激活与地面实况中的最大激活匹配。ΣΣLe=β|yij−sij|+(1−β)|、(3)|,(3)3.3.2匹配损耗(i,j)∈Y+(i,j)∈Y−由于在训练过程中条带高度是固定的,方差和避免过拟合特定的带高度,我们其中Y+和Y−表示边界和非边界像素,关于iv el y。β=|Y−|/|Y|表示平衡标签的重量,|Y|表示条带掩码中的像素总数。sij表示预测,yij表示在条带图像中的位置(i,j)处的二进制地面实况此外,我们将骰子损失[40]调整为边界预处理,鼓励预测和通过裁剪条带高度来增加数据。从一个大的高度开始,我们将条带裁剪成一个较短的条带,并进行新的预测。为了一致性,原始条带和裁剪条带之间的重叠区域应该具有相同的初始预测,因为所有潜在的边界都被预测。形式上,我们在裁剪的和原始的初始预测之间取l1损失来计算匹配损失,地面真相:Σ2sij×yij+Lm= |Y1作物|Σ(i,j)∈Y|、(7)|,(7)L骰子=1−1IJΣ+yij、(四)+作物其中Ycrop是原始掩模Y的裁剪区域,其中,k表示用于避免零除法的小常数损失的目的是最大化预测和地面实况之间的交集。3.3.1边界距离损失对于边界预测,优选更接近边界真实的预测然而,两者都加权l1“是用于裁剪的条带图像的新的初始预测。此外,这种损失还有助于网络学习忽略在条带边界附近检测到的虚假边缘。3.3.3C0连续正则化此外,我们将C0连续性正则化添加到最终预测中,以强制执行连续预测。理想情况下,S10562在最终预测中,在每列处允许至多一个边界像素,因此如果每列的最大激活位置是C0连续的,则预测是C0连续的。具体来说,我们计算每个列的软argmax,计算附近argmax列之间的边际差,并惩罚窗口大小内预测变得不连续的位置从形式上讲,1千瓦3.5.实现细节在提取轮廓后,我们使用scipy函数splprep从二进制掩码有效地为了保证法线符号的一致性,我们从闭合轮廓中提取条带图像。条带的起始点不是确定的,因此不会引入偏差在训练中最终的地面实况条带边界掩模通过取地面实况片段的梯度来LC0=W j=1P(max(0,|softarg(sij)−softarg(si,j+1)|−v),我我(八)在去除任何孤立的噪声边界之后的站掩码。此外,我们随机地向样条曲线添加小的偏移引入目标的位置变化的表示其中,V表示裕度值,P表示最大值。使用固定的内核大小进行池化,以便范围内的所有像素都得到惩罚。si W+1被si1复制以用于计算。这种损失用作自正则化,因为不需要地面真值标签。因此,总损失函数为Ltotal=Le+Ldice+λ1Ld+λ2Lm+λ3LC0 , ( 9 ) 其 中λ1、λ2、λ3是调整每个损失的权重的超参数。Le适用于初始和最终预措辞 Lm仅适用于初始预测,Ldice、Ld、LC0仅应用于最终预测。使用总损失函数,更接近的预测是首选,网络将注意力集中在目标边界上。3.4.条带重建为了对HR图像进行预测,在推断时需要预测的条带边界与完整HR掩模之间的映射。对于条带图像中的每个像素,记录HR图像中的对应坐标以给定原始预测,我们使用类似于接缝切割的动态规划[5]优化路径,我们将功能在训练期间条带图像中的边界。我们的框架在Pytorch中实现。编码器由4个3×3卷积层组成,解码器由4个上采样层组成.选择层由另一个3×3核大小的卷积层激活函数是所有编码器和解码器层的ReLU [15]我们用在-所有规范化层的姿态规范化,以在推理时实现灵活的输 入 大 小 。 在 训 练 期 间 , 输 入 条 带 尺 寸 固 定 为80×4096。我们在NVIDIA GeForce TI-TAN P6000上训练网络70个epoch,批量大小为6我们使用随机梯度下降(SGD)作为优化器,初始学习率为0.1。学习率在每20个epoch之后衰减10倍动量设置为0.9,权重衰减设置为0.0005。λ1、λ2和λ3根据经验被设置为0.1、20和1。我们将条带图像裁剪一半以获得匹配损失的Y裁剪,并且C0连续正则化的最大池化核大小为11。将C0连续性正则化中的裕度设置为1。水平翻转作为数据扩充应用。4. 实验我们在两个HR数据集上评估了我们的方法,这些数据集在第二节中提供了低分辨率和高分辨率的地面实况Eij =−sij|∂I(i, j)|-,(10)max(|I|)问题4.2,然后在第4.3节中分析每个组件在我们的框架中的重要性。我们还提供哪里|I(i,j)|表示在(i,j)处的图像梯度的幅度。该算法搜索邻域像素的能量代价,并找到具有最小能量代价的路径能量成本,其指示具有最高概率的边界路径。然后,我们连接完整掩码中最终路径的原始坐标,以形成完整的预测。在推理时,我们的框架灵活的输入维度使得不同的图像可以有不同的条带尺寸在此基础上,通过将LR边界长度乘以尺度因子来确定反映边界上采样点数的条带宽度。我们在假设所有目标边界都涉及的情况下固定条带的高度,并且在第4.6节中还讨论了自适应高度调整策略。对于拓扑结构复杂、包含多个轮廓的对象,分别对每个轮廓进行预测。内存和速度的比较在第4.4节。4.1. 数据集和指标对于我们的实验,我们需要一个具有高度准确的像素级HR注释的数据集。遗憾的是,目前大多数数据集分辨率较低,而且许多数据集提供的多边形边界作为地面实况标注是不准确的.我们发现DAVIS [31]提供了足够准确的结果,其分辨率可满足我们的需求。为了更好地评估大比例因子下的结果,我们引入了一个新的搜索引擎PixaHR。我们在下面描述这些数据集。DAVIS 2016[31]:视频分割的基准,包括50个类,在480P和1080P中都有精确的注释为了扩大比例因子,我们将480 P掩码的采样率降低了2倍,在30类1080 P训练集上用240 P LR掩码训练我们的方法,并在10563数据集DAVIS 2016[31]4× PixaHR8× PixaHR16× PixaHR32×度量F(0pix)F(1pix)F(1pix)F(2pix)F(1pix)F(2pix)F(1pix)F(2pix)双线性上采样0.1710.5210.1160.1940.150.1870.070.106[33]第三十三话0.2320.5410.0630.1210.0200.0530.00.0[22]第二十二话0.2680.7020.2780.4340.2450.3890.1420.227双边求解器[6]0.2740.5690.2070.2770.1850.2470.1560.216[26]第二十六话0.0760.1600.0210.0330.0180.0280.0120.028DELSE [39]0.2710.5310.0960.1330.0860.1320.0800.130[2]第二章0.1710.3480.2820.4570.1510.2550.090.144JBU [21]0.1750.4470.1400.2310.1170.1840.0550.090过滤器[17]0.1290.3490.1210.1950.0920.1450.0600.097[41]第四十一话0.1930.4610.2860.4200.1750.2690.090.141U-Net边界0.3200.6560.1700.2970.1390.1970.0680.108U-Net条带(基线)0.3030.7100.3340.4550.3030.4250.2670.357我们0.4230.7880.4160.5080.3960.4980.3300.447表1.基于边界的F评分比较。DAVIS 2016上低分辨率和高分辨率图像之间的比例因子为4,PixaHR上为8、16、32。对于DAVIS2016,像素膨胀为0和1,而PixaHR为1和2。20-class 1080P测试集。本实验的比例因子为4.5。结果是逐帧评估的。PixaHR:为了评估更真实的场景,我们创建了一个PixaHR数据集。它包含从公共摄影网站Pixabay [1]收集的平均分辨率为7k×7k(范围从5k×5k到10k×10k)的100张图像。我们手动对HR图像中的目标边界进行标注,对HR模板进行8×、16×和32×下采样,得到用于评价的二值这些照片由公众用户上传,内容多样。我们将在DAVIS上训练的模型应用于该数据集进行评估。我们使用Perazzi等人引入的基于边界的F分数。[31]用于评估,其被设计为评估分割的边界质量。由于它允许通过膨胀来改变像素容差,因此我们在DAVIS上设置0和1像素膨胀,在PixaHR数据集上设置1和2像素膨胀,以衡量预测与地面实况的接近程度。4.2. 主要结果对于基于上采样的方法,我们将我们的方法与双线性 上 采 样 , 双 边 求 解 器 [6] , 联 合 双 边 上 采 样[21](JBU),引导滤波[17]和深度GF [41]进行比较。 通过取上采样掩码的梯度来获得边界。对于边界细化方法,我们使用上采样掩码作为初始化与Grabcut [33],Dense CRF [22]和STEAL [2]进行比较。对于活动轮廓方法,基线是Curve-GCN [26]和DELSE [39],并且在LR中进行Pix-aHR的预测并上采样到原始分辨率,因为在推断时需要整个边界区域。基于学习的方法在DAVIS的训练集上进行训练或微调,并直接在所有数据集上进行评估有关基线的更多详细信息,请参见参考资料。此外,我们还比较了自己的im-以下为已实施的基线• U-Net边界:我们直接在DAVIS上的全分辨率图像上训练U-Net进行边界预测。我们将全分辨率图像和上采样掩码两者连接作为输入,使得网络学习细化粗掩码。损失函数是一个加权的二进制交叉熵谢等。[42]。同样,我们还添加了深度超视并融合所有中间层以获得最终预测。预测是逐块进行的,PixaHR数据集上的斑块大小为1920×1080• U-Net strip(基线):我们的基线方法,它学习直接预测条带图像上的目标边界损失函数仅采用加权l1• 我们的:我们的完整模型,它应用选择层来预测带图像中的边界,具有我们的边界距离损失,匹配损失和C0连续性正则化。表1显示了我们相对于基线的优势。对于DAVIS数据集,简单的上采样会产生与地面真实值的边界偏移,因此性能很差。Grab- cut和dense CRF是基于分割的,因此性能比我们的差。即使其他方法,包括双边求解器,JBU和深GF利用低分辨率掩模,它们被设计用于一般的上采样,而不是用于边界细化和预测。Curve-GCN从预测的控制点拟合曲线,这些控制点不能像我们的那样生成精确的边界。DELSE沿着其能量函数的梯度移动轮廓,但不如我们预测目标边界像素的方法鲁棒。此外,随着比例因子的增加,我们的方法优于STEAL,这表明STEAL中的主动对齐可能不足以进行像素级边界预测。与U-Net边界相比,预测条带图像中的边界(U-Net条带)的性能稍好,10564数据集DAVIS2016PixaHR16×度量F(0 pix)F(1 pix)U形网带0.3030.303U-Net条形骰子0.3230.320U-Net条形骰子+选择0.3720.328U-Net条形骰子+选择+BD0.3900.342我们的w/o匹配0.4050.365我们0.4230.396表2.两个数据集的消融分析。每个条目是在单个数据集上测试的基于边界的F分数。方法内存(MB)速度(秒/图像)双线性上采样-0.01/0.02[33]第三十三话-5.17/320[22]第二十二话-3.22/310双边求解器[6]-4.18/158JBU [21]-0.08/5.71过滤器[17]-0.08/16.1[41]第四十一话-0.07/3.95[2]第二章7775/795943.1/4231[26]第二十六话17330/173300.93/75.2DELSE [39]17771/177711.02/20.4U形网边界17000/170000.31/24.5我们3300/33000.28/2.51表3.内存和速度比较。每个条目是DAVIS 2016/PixaHR数据集上的我们只比较基于学习的方法之间的内存使用。因为条带图像缩小了目标边界的搜索正如预期的那样,通过我们的选择层和建议的损失,我们通过更好地确定来自其他潜在边界的目标边界来进一步提高性能。在PixaHR数据集上观察到类似的趋势。请注意,在大比例因子32中,大多数方法都无法做出接近地面实况的预测,而我们的方法仍然具有相对稳定的性能。4.3. 消融分析我们分析了框架中每个组成部分的重要性,如下所示:• U-Net带骰子:将骰子损失添加到基线。• U网带骰子+选择:增加骰子损失和选择层的基线。• U-Net条带骰子+选择+ BD:在基线上添加骰子、边界距离损失和选择层• 我们的w/o匹配:添加额外的C 0正则化。这是我们的完整模型,没有匹配损失。表2总结了比较结果。从我们的基线U-Net条带开始,添加骰子损失鼓励与地面真实边界的更多相交,从而产生更好的性能。比较U-Net strip + dice和U-Netstrip + dice + selection,选择层大幅提升了DAVIS的性能,表明其在抑制噪声边界方面的有效性,DatasetPixaHR 32×简体中文(zh_cn)我们的0.330我们的自适应1段0.353我们的自适应2段0.365表4.PixaHR32×上的条带高度选择比较。平滑最终预测。此外,由于边界距离损失,网络学习更接近预测。通过C 0正则化(Ours w/o matching),网络通过进行连续预测来过滤假阳性边界最后,性能随着匹配损失而进一步提高,因为网络在不同的条带高度上进行一致的预测以避免过拟合。4.4. 内存和速度比较由于我们只提取一个带图像进行预测,我们的方法是有效的,在内存和计算。表3比较了我们的内存开销和速度性能与基线。总的来说,我们的计算量和复杂性要求相对较小。我们的内存需求小于其他基于学习的方法。请注意,对于U-Net边界和STEAL,由于高分辨率,对Pix-aHR的预测更具体地说,在我们的方法中的主要计算例如,对于一幅1920×1080的DAVIS图像,边界上约有3200个像素,我们的条带图像创建时间为0.08 s,预测过程为0.06 s,条带重建时间为0.14 s。一个类似的计算机-在PixaHR上也观察到了比例。4.5. 定性结果我们在图4中显示了可视化比较。很明显,我们的方法比其他方法产生更准确的边界。为了进一步表明我们的方法在细化LR或粗糙掩模的边界上的有效性,我们提供了COCO上的定性结果,其中仅提供多边形边界地面实况。我们使用COCO上的粗略注释直接提取条带图像,并将预测可视化在图5中。与其他方法相比,我们的方法提供了更准确的边界,表明我们的方法,以帮助细化粗糙边界的潜在应用。有关更多可视化结果,请参阅补充材料。4.6. 条带高度自适应我们在目标边界存在于预定义高度范围内的假设下预测条带图像中的目标边界,然而,它可能不成立,特别是对于大比例因子。虽然一个解决方案是预先定义一个更大的高度为条带图像创建,我们建议逐步增加高度和再生条带图像10565致密CRF偷我们地面实况图4. PixaHR32×上的定性结果。从上到下依次是Dense CRF、STEAL、Ours和Ground Truth的结果。我们首先显示整个边界(绿色)结果,然后放大蓝色边界框区域进行比较(边界被白化)。不同地区的高度不同。图5.COCO的定性结果从左到右的列是粗略注释、DELSE[39]、STEAL [2]和Ours。在推理中做出新的预测。具体来说,我们增加条带图像的高度,直到最终预测得分的总和减小。此外,高度调整更灵活,通过将整个轮廓划分为若干段并独立地调整它们结果示于表4中。Ours和Ours自适应1段之间的比较表明了具有灵活高度的有效性。当将整个轮廓划分为2段时,性能进一步提高,5. 结论总之,本文提出了一种新的策略来处理HR边界细化计算和内存有效地给出LR精确的掩模。为了节省内存,我们建议提取边界区域沿上采样的边界样条,形成一个带状图像,并在此带状图像进行预测。针对条带图像中的目标边界,提出了边界距离、匹配损失和C0在公共数据集和我们新创建的数据集上进行的大量实验证明了所提出方法的有效性然而,目前的方法仍然难以预测复杂的拓扑结构和软边界区域。一个更智能的自适应调整每一个像素的条带高度可能是一个潜在的解决方案,这是留给未来的研究。确认这项工作部分由Adobe资助。作者感谢马里兰高级研究计算中心(MARCC)提供的计算资源。10566引用[1] Pixabay https://pixabay.com网站。6[2] David Acuna,Amlan Kar,and Sanja Fidler. 魔鬼在边缘:从嘈杂的注释中学习语义边界在CVPR,2019年。一二六七八[3] David Acuna,Huan Ling,Amlan Kar,and Sanja Fidler.使用polygon-rnn++对分割数据集进行有效的交互式注释。在CVPR,2018年。2[4] LuisA'lv arez , LuisBaumela , PedroHen r'ıquez, andPabloMa'rquez-Neila. 形态学sna k es。 CVPR,2010。2[5] Shai Avidan和Ariel Shamir。用于内容感知图像调整大小的接缝雕刻。InTOG,2007. 5[6] 乔纳森·T·巴伦和本·普尔。 快速双边求解器。在ECCV,2016年。三六七[7] Rodrigo Benenson Stefan Popov和Vittorio Ferrari大规模的交互式对象分割与人类annotators。在CVPR,2019年。1[8] Yuri Y Boykov和M-P Jolly。交互式图切割用于ND图像中目标的最佳边界载于ICCV,2001年。2[9] 约翰·坎尼。 边缘检测的计算方法。TPAMI,1986年。1、4[10] Lluis Castrejon,Kaustav Kundu,Raquel Urtasun,andSanja Fidler.使用多边形rnn注释对象实例。在CVPR,2017年。2[11] Liang-Chieh Chen,Yukun Zhu,George Papandreou,Florian Schroff,and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在ECCV,2018。1[12] Wuyang Chen , Ziyu Jiang , Zhangyang Wang , KexinCui,and Xinning Qian.用于超高分辨率图像的高效记忆分割的协作全局-局部网络。在CVPR,2019年。第1、3条[13] 郑道明,廖仁杰,菲德勒,尤塔孙.Darnet:用于构建分段的深度活动射线网络。在CVPR,2019年。2[14] Ruoxi Deng , Chunhua Shen , Shengjun Liu , HuibingWang,and Xinru Liu.学习预测清晰的边界。在ECCV,2018。2[15] 泽维尔·格洛罗特安托万·博德斯和约舒亚·本吉奥。深度稀疏整流神经网络。载于AISTATS,2011年。5[16] Jianzhong He , Shiliang Zhang , Ming Yang , YanhuShan,and Tiejun Huang.用于感知边缘检测的双向级联网络在CVPR,2019年。1[17] 何开明,孙建,唐晓鸥。引导图像滤波。TPAMI,2012年。三六七[18] 胡鹤翔,蓝诗怡,姜宇宁,曹志敏,沙飞。快速蒙版:在一个镜头中分割多尺度对象候选者在CVPR,2017年。1[19] 迈克尔·卡斯安德鲁·维特金和德米特里·特佐普洛斯。Snakes:活动轮廓模型。IJCV,1988年。一、二[20] Thomas N Kipf 和 Max Welling 图 卷 积 网 络 的 半 监 督ICLR,2017年。2[21] Johannes Kopf,Michael F Cohen,Dani Lischinski,andMatt Uyttendaele.联合双边上采样。InToG,2007. 三六七10567[22] PhilippK r?henb? hl和VladlenKoltun。具有高斯边势的全连通crfs的有效推理NeurIPS,2011。二六七[23] Hoang Le , Long Mai , Brian Price , Scott Cohen ,Hailin Jin,and Feng Liu.用于对象选择的交互式边界预测。在ECCV,2018。一、二[24] Yin Li,Jian Sun,Chi-Keung Tang,and Heung-YeungShum.懒拍ToG,2004年。2[25] Zhuwen Li,Qifeng Chen,and Vladlen Koltun.基于潜在差异的交互式图像分割。在CVPR,2018年。1[26] Huan Ling,Jun Gao,Amlan Kar,Wenzheng Chen,and Sanja Fidler.用curve-gcn实现快速交互式对象标注。在CVPR,2019年。一、二、六、七[27] 刘云、程明明、胡晓伟、王凯、白翔。用于边缘检测的更丰富的卷积特征。在CVPR,2017年。一、二[28] Diego Marcos,Devis Tuia ,Benjamin Kellenberger,Lisa Zhang,Min Bai,Renjie Liao,and Raquel Urtasun.端到端学习深度结构化活动轮廓。在CVPR,2018年。2[29] Andreas Opelt,Axel Pinz,and Andrew Zisserman.用于目标检测的边界碎片模型。在ECCV,2006年。1[30] Stanley Osher和James A Sethian。以曲率相关速度传播的锋面:基于Hamilton-Jacobi公式的算法。JCP,1988年。2[31] FedericoPerazzi、JordiPont-Tuset、BrianMcWilliams、Luc Van Gool、Markus Gross和AlexanderSorkine-Hornung。视频对象分割的基准数据集和评估方法。在CVPR,2016年。五、六[32] Olaf Ronneberger , Philipp Fischer , and ThomasBrox.U-网:用于生物医学图像分割的卷积网络在MICCAI,2015年。3[33] 卡斯滕·罗瑟弗拉基米尔·科尔莫戈洛夫安德鲁·布莱克。Grabcut:使用迭代图切割的交互式前景提取。载于TOG,2004年。一、六、七[34] Christian Rupprecht , Elizabeth Huaroc , MaximilianBaust,and Nassir Navab.深层活动轮廓。arXiv预印本arXiv:1607.05074,2016年。2[35] Ke Sun,Bin Xiao,Dong Liu,and Jingdong Wang.用于人体姿势估计的深度高分辨率表示学习。在CVPR,2019年。1[36] 孟唐,莉娜·戈雷里克,奥尔加
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- OptiX传输试题与SDH基础知识
- C++Builder函数详解与应用
- Linux shell (bash) 文件与字符串比较运算符详解
- Adam Gawne-Cain解读英文版WKT格式与常见投影标准
- dos命令详解:基础操作与网络测试必备
- Windows 蓝屏代码解析与处理指南
- PSoC CY8C24533在电动自行车控制器设计中的应用
- PHP整合FCKeditor网页编辑器教程
- Java Swing计算器源码示例:初学者入门教程
- Eclipse平台上的可视化开发:使用VEP与SWT
- 软件工程CASE工具实践指南
- AIX LVM详解:网络存储架构与管理
- 递归算法解析:文件系统、XML与树图
- 使用Struts2与MySQL构建Web登录验证教程
- PHP5 CLI模式:用PHP编写Shell脚本教程
- MyBatis与Spring完美整合:1.0.0-RC3详解
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功