没有合适的资源?快使用搜索试试~ 我知道了~
基于E显式的自顶向下实时实例分割算法ESE-Seg
5168用于实时实例分割的徐文强王海阳卢福波齐策武<$上海交通大学计算机科学与工程系{vinjohn,wanghaiyang,727749815,lucewu}@ sjtu.edu.cn摘要在本文中,我们提出了一种新的自顶向下的实例分割框架的基础上明确的形状编码,命名为ESE-Seg。该算法通过对多个目标形状进行张量运算,显式地进行解码,大大减少了实例分割的计算量,从而以与目标检测几乎相同的速度执行实例分割ESE-Seg是基于一种新的形状特征的内中心半径(IR),切比雪夫多项式拟合和强大的现代目标检测器。具有YOLOv 3的ESE-Seg在Pascal VOC 2012上以mAPr@0.5的性能优于MaskR-CNN,同时快7倍。1. 介绍实例分割是计算机视觉中的一项基本任务,在自动驾驶、机器人操作等实际应用中具有重要意义。由于任务寻求预测对象位置和形状两者,因此用于实例分割的方法通常不如对象检测框架有效。通过上采样网络转发每个对象实例以获得实例形状,如主流实例分割框架所做的[12,22,3,19],计算量很大,特别是与仅需要回归边界框的对象检测相比,即。每个物体的4D矢量。因此,如果网络也可以将对象形状回归到一个短向量,并将向量解码为形状(见图2)。1)以类似于包围盒的简单方式,使实例分割达到与目标检测几乎相等的计算效率。为了实现这一目标,我们提出了一种新的基于E显式的实例分割框架这两位作者的贡献相当。†Cewu Lu为通讯作者。卢策武是MoE人工智能重点实验室、上海交通大学人工智能研究所、上海交通大学商汤科技人工智能实验室成员。原始图像预测形状图1. ESE-Seg学习估计检测到的对象的形状,它可以与边界框一起同时获得形状编码和现代物体探测器,命名为ESE- Seg。形状编码最初是为了重新检索而开发的[39,17,37],其将对象编码为形状向量。最近,许多作品对形状实现进行编码[9,29,38],这是为了将形状内容投影到潜在向量,通常通过黑盒设计,例如深度CNN。因此,在该方法下的解码过程也需要通过网络,这需要针对多个实例进行多次转发,并且导致大量计算。为了追求快速解码,我们采用了一个明确的形状编码,只涉及简单的数值变换。然而,设计一个满意的显式形状编码方法是不平凡的。关于CNN训练,由于已知回归具有不确定性,因此优选的形状向量应该相对较短,但包含足够的信息,对噪声具有鲁棒性,并且有效地降低噪声。5169可编码来重建形状。在本文中,我们提出了一个基于轮廓的形状签名,以满足这些要求。介绍了一种新的用于物体形状表示的“内中心半径”形状签名。IR算法首先在目标段内定位一个内中心,然后根据该内中心将轮廓点变换到极坐标上。也就是说,我们可以形成半径f(θ)沿轮廓相对于角度θ的函数。为了使形状向量更短更鲁棒,我们采用切比雪夫多项式对f(θ)进行函数逼近。因此,IR签名由具有小误差的少量系数表示,并且这些系数是要预测的形状向量。此外,我们还深入讨论了与其他形状签名设计的比较。传统的物体检测器(例如,YOLOv3 [31])用于回归形状向量以及4D边界框向量。要注意的是,我们的形状解码可以通过简单的张量操作(乘法和加法)来实现,这是非常快的。ESE-Seg本身独立于所有基于边界框的对象检测框架[32,4,8,20,23]。我们在Faster R-CNN [32],Reti- naNet [20],YOLO [30]和YOLOv 3-tiny [31]上展示了通用性,并在标准公共数据集上评估了我们的ESE-Seg,即Pascal VOC [6]和COCO [21]。我们的方法达到69.3 mAPr,48.7 mAP,IOU阈值为0.5。在Pascal VOC 2012上的得分这是体面的考虑,它是7倍的速度比面具R-CNN具有相同的 速度甚至可以更快,在GTX 1080 Ti上,当基础探测器变为YOLOv 3-tiny时,帧率为130 fps,而mAP为@0。5在Pascal VOC上保持53.2%。值得注意的是,ESE-Seg加快了实例分割不依赖于模型加速技术[15,40],而是依赖于在对象检测之后减少形状预测的新机制。捐款. 我们提出了一个明确的形状编码为基础的实例分割框架,ESE-Seg。这是一个自上而下的方法,但重建的形状多-一次处理多个实例,大大降低了计算量,使实例分割达到目标检测的速度,而不需要模型加速技术2. 相关工作显式与隐式形状表示具有类似思想的先前工作已经由Jetley等人完成。[16]第10段。他们采用了隐式形状表示路径,首先在对象二进制掩码上训练自动编码器。通过解码器组件将编码的形状向量解码为形状掩模在实现中,他们采用YOLO [30]来回归每个检测到的对象的边界框和形状向量。YOLO结构可以因此被视为检测器和编码器。来自YOLO的编码矢量然后由预训练的去噪自动编码器解码。我们的工作和他们的主要区别:• 显式形状表示通常基于轮廓,而隐式形状表示通常基于掩模。• 显式形状表示不需要额外的解码器网络训练。简化了图像中所有对象的解码过程,这对于网络结构的解码器,可以很容易地实现的显式形状编码。事实上,隐式解码需要多个对象的多个通道,每个通道一个,而显式解码可以在一个通道中获得所有形状。• 用于训练自动编码器和训练YOLO(被视为编码器)的输入是完全不同的(对象比例,颜色模式),这可能会给解压缩器带来麻烦编码器,因为解码器没有进一步优化YOLO训练。这样的问题对于外显形状表示不存在。除了我们提出的IR形状签名之外,存在各种方法来表示形状,仅举几例,质心半径,复坐标,累积角度[5,34,39]等。虽然这些方法沿着轮廓对形状相关特征进行采样,但只有少数方法可以被解码以重建形状。目标检测目标检测是一个被广泛研究的领域。使用CNN的对象检测框架可以大致分为两类,一阶段和多阶段。两阶段检测方案是一种经典的多阶段方案,它通常学习RPN以采样区域建议,然后使用ROI池化或其 变 体 来 改 进 检 测 , 代 表 性 作 品 是 Faster R-CNN[32],R-FCN [4]。近年来,一些工作将两级结构扩展到多级结构,形成级联结构[1]。另一方面,一级检测器将输入图像划分为大小固定的网格单元,并通过完全卷积操作并行化每个单元上的检测,代表性的网络是SSD [23],YOLO [30],RetinaNet [20]。最近,提出了基于点的检测,CornerNet [18]直接检测左上角和右下角的点,这是一个一级检测器。Grid R-CNN [24]回归9个点来构建边界框,这是一个两阶段检测器。我们的方法与所有基于包围盒的检测网络兼容。我们用Faster R-CNN、YOLO、YOLOv 3和RetinaNet进行了实验,以证明其通用性。参见表4。但是,它与基于点的检测器不兼容,因为此设置中的形状(边界框)未参数化。5170a). CNN编码b). 量化译码图2.形状检测、回归和重建的流水线。实例分割实例分割不仅需要定位对象实例,还需要描绘形状。主流方法大致可以分为自上而下[12,22,3,19,28,27,2]或自下而上[26,35]方法。我们属于自上而下的路线。自顶向下的方法,如MNC [3],FCIS [19],Mask R-CNN [12],通常在图像中的对象数量较大时会减慢相反,我们的ESE-Seg通过将对象形状回归到短向量并同时解码它们来简化繁琐的计算这也是第一个自顶向下的实例分割框架,它不受图像中的实例数量的影响,相对于推理时间。此外,通过数据增强[7,36],规模归一化[33]来增强实例分割框架的性能的工作可以很容易地集成到我们的系统中。3. 方法3.1. 概述我们提出了一个明确的形状编码为基础的检测来解决实例分割。它在一个转发过程中预测所有的实例段,可以达到与对象检测求解器相同的效率。给定一个对象实例段,我们用一个新的形状签名“内中心半径”(IR)参数化轮廓(第二节)。3.2.1)。切比雪夫多项式用于用少量系数来近似形状签名向量(Sec.3.2.2)。这些系数被用作形状描述器,网络将学习回归它。(第二节)3.3)。最后,我们描述了如何解码的形状描述符下的普通目标检测框架,通过简单的十-排序操作。(第二节)第3.4段)。总体管线如图所示。二、显式形状编码在目标检测系统中的优势(例如,YOLOv3),网络回归边界框(即。4D向量)和边界框通过张量运算解码,这是轻量级的处理和易于并行化。相比之下,传统的实例分割(例如,Mask R-CNN)需要一个附加的网络结构来计算对象形状。解码/上采样转发涉及大量参数,对于多个实例并行加载这些参数是繁重的。这就是为什么实例分割通常比对象检测慢得多的原因。因此,如果我们也将对象形状直接回归为短向量,则可以以类似的方式通过快速张量操作(乘法和加法)来实现实例形状解码。从而使实例分割达到目标检测的速度。3.2. 形状签名3.2.1内中心半径形状签名在本节中,我们将描述“内中心半径”形状签名的设计“内中心半径”的构建包含两个步骤:首先,在对象段内定位内中心点作为原点以建立极坐标系。第二步,根据角度θ对轮廓点进行采样。该签名经过归一化处理后具有平移不变性和5171内中心内中心点由距离轮廓最远的点定义,可以通过距离变换获得[25]。需要注意的是,一些常用的中心如质心、边界框的中心不能保证都在物体的内部。见图3.第三章。bbox质心图3.物体的中心点。正如我们所看到的,边界框中心和质心不能保证在对象内部在少数情况下,一个对象被分成不连续的区域,导致多个内部中心。为了处理这种情况,我们将破碎区域扩张为单个区域,然后找到扩张形状的轮廓当然,轮廓是非常粗糙的,但是,它可以帮助重新排序轮廓点的轮廓点。整个过程如图所示。4.因此,从完成的轮廓计算内部中心。密集轮廓采样我们根据围绕内中心点的间隔τ的角度对轮廓点进行采样,因此轮廓将产生N=[2π/τ]个点。实际上,从对象轮廓采样τ=π/180并且因此N=360个点如果从内部中心投射的光线与轮廓相交不止一次我们只收集半径最大的点函数f(θ)表示为不同角度θ处的半径。值得注意的是图4.完成分离区域的过程。一个被遮挡的物体(a)有许多分离的区域(b),我们利用包围盒将每个区域的轮廓点分裂成轮廓点和内部点(c),然后将分裂的区域扩张成一个,并根据扩张后的形状轮廓对轮廓点重新排序(d),最后完成实例(e)。切比雪夫多项式的定义是递归的:T0(x)=1,(1)T1(x)=x,(2)Tn+1(x)= 2xTn(x)−Tn−1(x),(3)也被称为第一类切比雪夫多项式。它可以有效地最小化龙格给定IR形状特征,切比雪夫近似是找到Σ∞f(θ)ciTi(θ)i=0时通过对n项函数的运算,我们得到了近似的我们知道,以这种方式进行的轮廓采样将不会模拟函数fθ=ni=0时 ciTi(θ)。 k =(c0,. . . ,cn)然而,在Pascal中进行了大量的实验之后,VOC和COCO,我们发现它适合自然物体(见表2)。下一节将进一步讨论。3.2.3.3.2.2将签名拟合到系数IR使形状表示成为矢量。但是,它仍然是太长的网络训练。此外,形状签名对噪声非常敏感(见图1)。(七). 因此,我们采取进一步的步骤,以缩短形状向量和抗噪声通过Chebyshev多项式拟合。是表示对象的形状特征向量。3.2.3讨论与其他形状签名的比较基于角度的形状签名采样,如建议的IR,以前很少采用,因为它不能完美地拟合形状段。实际上,我们比较和深入分析了其他形状签名,最终选择了这个解决方案。例如,一个非常简单的设计是沿着1https://en.wikipedia.org/wiki/Chebyshev多项式(((((5172轮廓轮廓由一组轮廓多边形顶点坐标表示该方法能较好地拟合物体分割,特别是非凸形状的物体。然而,我们发现这种设计的性能下降了约10mAP,更多的结果报告在表2中。可能的原因是我们的基于角度的采样产生的是一维样本序列,而轮廓顶点序列是对噪声更敏感的二维我们报告了这两个形状签名在Pascal VOC2012 训 练 中 的 重 建 误 差 。 5 ( 分 别 表 示 为 “IR” 和“XY”)。诚然,XY在轮廓上采样相同点时具有较小的重建误差,但与相同维度的矢量相比,IR更准确。例如,在N=20处的IR的向量的维度与在N=10处的XY相同,IR具有显著更小的重构误差。虽然当N变大时,差异会变小,但大的N会使训练不稳定,如表2所示。其他经典的形状特征,如质心半径,累积角不能重建的形状。在图6中相同的维数l和点数N下,重建误差Erecon由1-mIOU然后我们以l=8为例进行灵敏度分析,如图所示7.第一次会议。对于每个系数,它被噪声ε<$N(0,αk<$$>)打断,k<$是相应系数的平均值我们可以看到,傅立叶级数非常敏感,这可能导致傅立叶拟合不适合CNN训练,因为CNN已知具有不确定性的回归。如果我们固定ω=1,它变得不那么灵敏,但有相当大的重构误差。此外,考虑到网络学习的困难,我们还研究了拟合系数偏差的统计特性参见图8、图10。图9和图10。切比雪夫多项式具有重构误差小、对噪声敏感性小、系数数值分布好等优点,更适合于形状信号的拟合。COCO 2017培训会切比·傅立叶傅立叶(Fourier)(λ =1)聚长度3RiQWVN图5.研究了不同采样点数下IR和XY的重建误差E.与其它拟合方法的比较还讨论了其它常用的函数逼近方法,即多项式回归和傅立叶级数拟合对于多项式回归,目标是拟合形状vec-tork=(v0,. . . ,vn),其中n是n阶的系数图6. COCO 2017培训中的ERecon比较。2017年10月27日,2017年10月27切比·傅立叶傅立叶级数=1)聚多项式,f(θ)=ni=0时五、十、 对于傅立叶级数拟合,形状向量是k =(ω,α0,α1,. . . 、an、b1、. . . ,bn),n阶截尾级数为fθ=a0/2+ni=1[aicos(iωθ)+bisin(iωθ)]。作为k的维数可以预先确定,表示为L。 因此,我们来-从三个方面对方法进行了阐述,即:重构误差Erecon、对噪声的敏感性以及系数的数值离散性。 图7. COCO 2017培训的灵敏度比较。ሺͳΨሻΨ(15173CC2Chebyshev拟合系数ଵଶଵଷଶସଷହସହ଼�଼�图8.多项式回归系数的总体均值为,方差为ଵଶଷଵଶ图10. COCO培训2017上Chebyshev多项式拟合的系数分布。其中1obj表示具有用于一级检测器的对象的网格单元,以及用于两级检测器的建议。因此,总体目标函数为:L=λcls Lcls+λbbox Lbbox+λshape Lshape3.4.将形状矢量解码为形状给定形状向量维度l,预测的形状向量k=(k=0,. . . ,kl−1),拟合的切比什evpolyno-100- 1公式为f(θ)=i=0kiTi(θ). 并且极坐标图9. COCO培训2017上傅立叶级数拟合的系数分布。变换因子u(θ)=(cosθ,sinθ)。因此,形状可以通过遍历θ∈[0,2π)p<$i= p<$c+ f<$(θ)<$u(θ)。⊙是Hadamard乘积。这种计算可以写成张量运算的形 式 。 给 定 批 量 大 小 bs , 对 应 的 张 量 版 本 为Θ∈Rbs×1×N,gles采样,C∈Rbs×1×l,用于预测形状vec-到r,P 对于预测的内部中心,∈Rbs×2×N,3.3.目标检测框架下的回归我们的网络将学习预测内部中心p,形状向量k,以及对象边界框。边界盒回归、分类保持与原始对象检测框架相同。对于YOLOv3,边界框Lbbox和分类Lcls的损失函数可以参考[31]。关于形状学习的损失函数:Lshape=1obj||(p−p)+(k−k)||二、P∈Rbs×2×N表示解码后的轮廓点。如下所示:P=P+CT(Θ)u(Θ)。在GPU环境中,这种张量运算的计算成本非常小。由于这种极快的形状解码,我们的实例分割可以达到与对象检测相同的速度。4. 实验我们进行了大量的实验,以证明描述符的选择和所提出的方法的有效性如果不规范-多项式回归系数傅里叶拟合系数5174指 定 , 基 础 检 测 器 是 由 Glu- onCV [14] 实 现 的YOLOv3,输入图像为416×416。λcls=λbbox=λshape=1。其他超参数与YOLOv3实现保持相同。我们训练了300个时代,重新-端口的性能与最佳的评价结果。对于带有括号和数字的模型名称,数字是形状向量的维度。4.1. 显式与隐式我们首先比较了显式形状编码和隐式形状编码。由于先前的工作[16]提供了使用YOLO [30]作为基本检测器的隐式形状表示的基线,为了进行公平比较,我们还使用YOLO基本检测器训练了ESE-Seg,形状向量的尺寸也是相同的。我们将模型分别命名为实验在PascalSBD 2012 val [10]上进行。需要注意的是,基于掩码的主流实例分割,即SDS[11],MNC [3],FCIS [19],Mask RCNN [12],也可以被视为隐式形状编码。我们将它们与需要注意的是,使用ResNet 50-FPN的Mask R-CNN的输入图像大小在较短的一侧为800,几乎是我们的4倍416×416。所有结果报告于表1中。4.2. 关于显式描述符在本节中,我们将定量地比较物体形状特征和函数逼近方法。对于对象形状签名,我们将我们提出的IR与PascalVOC 2012上的简单2D顶点表示进行了(见表2)我们采用正方形的盒子,即。边界框作为基线。要注意的是,方形框基线不是对象检测分数,因为基线计算边界框和实例掩码之间的IoU。对于每个形状签名,我们比较直接回归对于直接回归,我们通过调整每个形状的τ来控制形状签名的长度我们选择20和40个点进行回归。我们将在2D顶点上训练的模型表示为对于这些签名的Chebyshev拟合,我们分别拟合x坐标和y坐标称为有10个系数。关于不同的函数逼近技术我们已经比较了函数逼近技术,SBD(5732个有效图像)贴图r模型0.50.7vol时间(ms)BinaryMask[16]32.312.028.626.3汽车旅馆[16]30.06.529.027.1嵌入(50)[16]32.614.828.930.5[16]第二十六话34.615.031.528.0YOLO-Cheby(50)39.110.532.624.2YOLO-Cheby(20)40.712.135.324.0Pascal VOC 2012 val贴图r模型0.50.7vol时间(ms)SDS49.725.341.448kMNC59.136.0-360FCIS65.752.1-160Mask R-CNN68.540.2-180YOLOv 3-切比(20)62.632.452.026.0+ COCO预培训69.336.754.226.0COCO 2017 val地图模型0.50.75所有 时间(ms)FCIS49.5-29.2160Mask R-CNN51.231.530.3180YOLOv 3-切比(20)48.722.421.626.0表1.PSE-Seg与Pas cal SBD 2012 val、不带SBD val的PascalVOC 2012和COCO 2017 val的先前方法的比较贴图r模型0.50.7方形盒子42.38.6简体中文46.110.7中文(简体)43.511.2XY-Cheby(10+10)48.316.4XY-Cheby(20+20)53.120.9中文(简体)48.813.5中文(简体)52.619.3中文(简体)51.716.4汽车旅馆(20)62.632.4表2.我们在Pascal VOC 2012上比较了不同的形状签名选择。通过离线分析。然而,它仍然是inter-anxiety知道的神经网络的性能上的系数由这些方法获得。所有的函数逼近都是在IR上进行的 f(θ)。多项式回归表示为“Poly”,而“Fourier”表示Fourier级数拟合,“Cheby”表示Chebyshev多项式拟合。所有型号均在Pascal VOC 2012 val上进行了测试。参见表3。5175COCO 2017从VOC 2012图11.我们的方法产生的定性结果。贴图r模型0.50.7贴图r模型0.50.7vol时间(ms)聚乙烯(20)26.35.4傅立叶(20)37.59.1YOLOv 3-切比(20)62.632.452.026Faster-Cheby(20)63.432.854.2180汽车旅馆(20)65.936.556.773YOLOv3-tiny-Cheby(20)53.215.842.58表3. Pascal VOC 2012 val上不同形状签名的性能比较4.3. 基础物体探测器为了展示对象形状检测的通用性,我们还在FasterR-CNN ( “Faster-Cheby ( 20 ) ” ) 、 RetinaNet(“Retina-Cheby(20)”)和YOLOv 3-tiny(“YOLOv3-tiny-Cheby(20)”)上进行了形状学习。所有这些基于边界框的检测器不仅性能稳定,而且由于检测器的速度提升可以被增强。如表4所示。4.4. 定性结果定性结果见图。11.显然,预测的形状向量确实捕捉到了轮廓的特征,而不是产生随机噪声。表4.不同基础目标探测器与IR的比较Pascal VOC 2012 val.5. 局限性和未来工作我们提出的ESE-Seg可以以较小的时间消耗实现实例分割,在IoU阈值为0.5时具有良好的性能。然而,由于形状向量的不准确性Erecon,以及CNN回归带来的噪声,0.7 大幅度下降。在未来,更好的方式来显式地表示形状,以及更好的方式来训练CNN回归,这将有助于在高IOU阈值下实现更高的性能,这是非常令人感兴趣的。承认这一点 工作 是 支持 在 部分 中国国家重点&研发计划,No. 2017YFA0700800,国家自然科学基金项目61772332。中文(简体)62.632.4中文(简体)60.731.55176引用[1] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade r-cnn:深入研究高质量的对象检测。在CVPR,2018年。[2] Kai Chen,Jiangmiao Pang,Jiaqi Wang,Yu XiaoLi,Shuyang Sun,Wansen Feng,Ziwei Liu,Jianping Shi,Wanli Ouyang,et al.实例分段的混合任务级联。在IEEE计算机视觉和模式识别集,第4974-4983页,2019年。[3] 戴季峰、何开明、孙建。通过多任务网络级联的实例感知语义分割。在CVPR,2016年。[4] 戴纪峰,易力,何开明,孙建。R-fcn:通过基于区域的全卷积网络的目标检测。神经信息处理系统的进展,第379-387页,2016年[5] 爱德华·罗伊·戴维斯机器视觉:理论,算法和实践。1990年1997年[6] Mark.埃弗林厄姆,卢克。放大图片作者:John.韦恩和安德鲁齐瑟曼。pascal visual object classes(pascal visualobject classes)挑战。International Journal of ComputerVision,88(2):303[7] Hao-Shu Fang , Jianhua Sun , Runzhong Wang , ,Minghao Gou,Yonglu Li,and Cewu Lu.Instaboost:通过概率图引导复制粘贴来增强在IEEE计算机视觉国际会议(ICCV),2019年10月。[8] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision , 第 1440-1448页,2015中。[9] 阿尔伯特·戈多、乔恩·阿尔玛·赞、杰罗姆·雷沃德和黛安·拉鲁斯。深度图像检索:学习图像搜索的全局表示。在欧洲计算机视觉会议上,第241-257页。施普林格,2016年。[10] Bharath Hariharan、Pablo Arbelaez、Lubomir Bourdev、Subhransu Maji和Jitendra Malik。从反向检测器的语义轮廓2011年国际计算机视觉会议(ICCV)[11] Bhara thHariharan,PabloArbela' ez,RossGirshick,andJi-tendra Malik.同时检测和分割。欧洲计算机视觉会议,第297-312页。Springer,2014.[12] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面罩R-CNN。在2017年国际计算机视觉会议(ICCV)的会议记录中[13] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页[14] 何通,张志,张航,张中岳,谢军元,李慕.使用卷积神经网络进行图像分类的技巧包。arXiv预印本arXiv:1812.01187,2018。[15] Andrew G Howard,Menglong Zhu,Bo Chen,DmitryKalenichenko,Weijun Wang,Tobias Weyand,MarcoAn- dreetto,and Hartwig Adam. Mobilenets:高效卷积移 动 视 觉 应 用 的 神 经 网 络 。 arXiv 预 印 本 arXiv :1704.04861,2017。[16] Saumya Jetley,Michael Sapienza,Stuart Golodetz,andPhilip HS Torr.直接到形状:实时检测编码形状。在IEEE计算机视觉和模式识别会议论文集,第6550- 6559页[17] 金海光和金正德基于区域的形状描述符对旋转、缩放和平移不变性。信号处理:图像通信,16(1):87 -93,2000.[18] 黑律和贾登。Cornernet:将对象检测为成对的关键点。在欧洲计算机视觉会议论文集(ECCV)中,第734-750页[19] 李毅、齐昊之、戴季风、季向阳、魏一完全卷积的实例感知语义分割。在IEEE计算机视觉和模式识别会议论文集,第2359-2367页[20] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在IEEE计算机视觉国际会议的论文集,第2980-2988页,2017年[21] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔和C. 劳伦斯·齐特尼克。微软coco:上下文中的公用对象。在David Fleet、Tomas Pajdla、Bernt Schiele和Tinne Tuyte-laars编辑的Computer Vision-ECCV施普林格国际出版社.[22] 刘舒,陆琪,秦海防,石建平,贾佳雅。用于实例分段的路径聚合网络在IEEE计算机视觉和模式识别会议(CVPR)上,2018年。[23] Wei Liu , Dragomir Anguelov , Dumitru Erhan ,Christian Szegedy , Scott Reed , Cheng-Yang Fu , andAlexander C Berg. Ssd:单发多盒探测器。在欧洲计算机视觉会议上,第21-37页。施普林格,2016年。[24] Xing Lu , Buyu Li , Yuxin Yue , Quanquan Li , andJunjie Yan.网格r-cnn CoRR,abs/1811.12030,2018。[25] Calvin R Maurer,Rensheng Qi,and Vijay Raghavan.任意维二值图象精确欧氏距离变换的线性时间算法. IEEETransactionsonPatternAnalysisandMachineIntelligence,25(2):265[26] Alejandro Newell,Zhiao Huang,and Jia Deng.关联嵌入:用于联合检测和分组的端到端学习。在第31届神经信息处理系统国际会议论文集,NIPS'17,第2274-2284页,美国,2017年。Curran Associates Inc.[27] David Novotny , Samuel Albanie , Diane Larlus , andAndrea Vedaldi.半卷积算子,例如分割。在欧洲计算机视觉会议(ECCV)中,第86-102页[28] 庞博、查凯文、曹汉文、陈石、册武卢。用于可视顺序应用程序的深度rnn框架。在IEEE计算机视觉和模式识别会议上,第423-432页[29] 阿里·S·拉扎维亚,约瑟芬·苏利文,斯特凡·卡尔森,和安苏托·马基.使用深度卷积的可视化实例检索5177网 络 . ITE Transactions on Media Technology and Ap-plications,4(3):251[30] Joseph Redmon,Santosh Divvala,Ross Girshick,andAli Farhadi.你只看一次:统一的实时对象检测。在IEEE计算机视觉和模式识别集,第779-788页[31] 约瑟夫·雷德蒙和阿里·法哈迪Yolov3:一个渐进的改进。arXiv预印本arXiv:1804.02767,2018。[32] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn:利用区域建议网络进行实时目标检测。神经信息处理系统的进展,第91-99页,2015年[33] Bharat Singh , Mahyar Najibi , and Larry S Davis.SNIPER:高效的多尺度训练。NIPS,2018年。[34] 彼得·J·范·奥特鲁。面向轮廓的形状分析方法。普伦蒂斯霍尔国际(英国)有限公司,一九九一年[35] 基利安QWeinberger和Lawrence K.索尔距离度量学习用于大间隔最近邻分类。J.马赫学习. Res. ,10:207[36] Wenqiang Xu,Yonglu Li,and Cewu Lu. Srda:通过扫描、推理和领域自适应生成实例分割注释。在欧洲计算机视觉会议(ECCV),2018年9月。[37] 伊恩·T作者:Joseph E. Walker,and Jack E.鲍伊一种生物 形 态 分 析 技 术 。 I. Information and Control , 25(4):357[38] Joe Yue-Hei Ng,Fan Yang,and Larry S Davis.利用深度网络的局部特征进行图像检索。在IEEE计算机视觉和模式识别研讨会会议论文集,第53-61页[39] 张登生,陆国军,等.傅立叶描述子用于形状表示与检索的比较研究。在proc 第五届亚洲计算机视觉会议,第35页。Citeseer,2002年。[40] Xiangyu Zhang,Xinyu Zhou,Mengxiao Lin,and JianSun. Shufflenet:一个非常有效的卷积神经网络,用于移动设备。在IEEE计算机视觉和模式识别会议论文集,第6848-6856页
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功