无锚点目标检测网络的交叉线表示

178 浏览量更新于2023-10-16 收藏 14.55MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

hqqiu@std.uestc.edu.cn, hlli@uestc.edu.cn, qbwu@uestc.edu.cn, 202021011501@std.uestc.edu.cn,31950CrossDet：用于目标检测的交叉线表示0邱贺谦，李宏亮�，吴庆波�，崔建华，宋子琛，王兰笑，张敏健中国电子科技大学，成都，中国0szc.uestc@gmail.com, lanxiao.wang@std.uestc.edu.cn, 202011012218@std.uestc.edu.cn0摘要0目标检测旨在准确地定位和分类图像中的对象，这需要精确的对象表示。现有方法通常使用矩形锚框或一组点来表示对象。然而，这些方法要么引入背景噪声，要么丢失对象内部的连续外观信息，从而导致错误的检测结果。在本文中，我们提出了一种新颖的无锚点目标检测网络，称为CrossDet，它使用一组沿水平和垂直轴增长的交叉线作为对象表示。对象可以以不同组合的交叉线灵活表示。它不仅可以有效减少噪声的干扰，还可以考虑到连续的对象信息，这有助于增强对象特征的可辨识性并找到对象边界。基于学习到的交叉线，我们提出了一个交叉线提取模块，以自适应地捕获交叉线的特征。此外，我们设计了一种解耦回归机制，分别沿水平和垂直方向回归定位，这有助于降低优化难度，因为优化空间仅限于特定方向。我们的方法在PASCALVOC和MS-COCO数据集上实现了持续的改进。实验结果证明了我们提出的方法的有效性。代码可在以下网址获得：https://github.com/QiuHeqian/CrossDet。01. 引言0目标检测通常依赖于对象表示来预测图像中对象的位置和类别。因此，合适的对象表示对于目标检测的成功至关重要。现有的流行目标检测器主要基于两类对象表示：基于锚点的表示和基于点的表示。0� 通讯作者。0图1. 目标检测的不同对象表示。 (a)使用矩形锚框作为对象表示[12]。 (b) 和 (c)使用单个中心点[27]和一组关键点[30]作为对象表示。红色/绿色框由红色/绿色点组装而成。 (d)用黄线表示我们的交叉线表示。绿色框表示正确预测。红色框表示错误预测。0表示方法。基于锚点的表示方法[1,3,8,13,15,18,21,23,26]通常将一组具有预定义大小锚点的边界框作为其基本对象表示，并根据提取的特征进行回归和分类一次或多次。然而，为了确保良好的召回率，这些方法需要手动设计新场景中锚点的超参数，这些场景具有不同的对象大小或宽高比。此外，这些方法[1,3,8,23,26]通常提取锚点内的全部特征。当两个对象重叠时，很容易混淆，因为它们都包含重叠区域的相似特征。例如，沙发被错误地分类为重叠区域中的狗，如图所示。31960图1(a)。为了克服上述缺点，最近的学术关注点已转向无锚点目标检测器[4,5,19,20,27,30,33–35,37]。这些无锚点检测器使用一组点（例如，预定义的角点[5]，中心点[4,27,34]，边界点[19,35]或关键点[30]）作为对象表示，然后将这些点分组成边界框，取代预设的锚点。然而，这些离散的点很容易失去它们的相邻信息，这使得难以确定散布的点是否属于同一个对象。如图1(b)所示，由于单个中心点的粗糙特征，沙发很难被检测到。在图1(c)中，沙发无法被一个边界框紧密包围。在本文中，我们提出了CrossDet，一种新颖的灵活高效的无锚点目标检测网络，它使用学习到的交叉线作为对象表示。因为目标检测的目标是通过边界框紧密包围对象，所以重点关注水平和垂直方向上的信息是很重要的。与图1中的其他表示相比，交叉线沿水平和垂直方向自适应增长到对象的边界框。一方面，它可以通过避免重叠区域的特征，以各种组合的交叉线灵活地表示对象，并提取特征。另一方面，它考虑到连续的相邻对象特征，并有助于感知对象特征的变化，以更好地找到对象边界。基于学习到的线条，我们设计了一种新颖的交叉线提取模块，以自适应地整合水平和垂直方向上的线条特征，该模块可以灵活地插入到目标检测网络中。具体而言，该模块首先通过在水平或垂直空间维度上进行平均池化来编码轴感知的长程上下文，然后选择性地采样线条特征作为对象表示。基于提取的特征，我们利用解耦回归机制分别回归水平和垂直线条的偏移和尺度，这限制了回归范围在特定方向上，可以有效地缓解优化困难。此外，预测的交叉线表示可以输入到下一阶段以细化检测结果，这在多个阶段上是连贯的。我们在两个常见的基准测试上进行了大量实验，以证明我们的CrossDet的有效性。主要贡献总结如下：•我们提出了一种新颖的无锚点目标检测网络，首次尝试使用自动增长的交叉线代替锚框或一组关键点来表示对象。•我们设计了一个交叉线提取模块，以自适应地聚合线条特征。基于提取的特征，0我们设计了一个解耦的回归机制来分别学习水平线和垂直线。• 我们在PASCALVOC和MS-COCO数据集上验证了我们方法的有效性。结果表明，我们提出的方法有助于准确的目标检测。02. 相关工作02.1. 基于锚点的目标表示0现有的基于锚点的目标表示方法[1, 3, 8, 13, 15, 18, 21, 23,26]通常使用大量预定义的矩形锚框作为目标表示，然后通过一次或多次预测来预测这些锚框的类别和定位。根据精炼次数，基于锚点的目标表示方法可以分为两阶段和一阶段目标检测方法。目前，两阶段检测器主要由流行的R-CNN系列[1, 8,23]主导。它们首先使用区域建议网络（RPN）从预设的锚点生成一组矩形建议，然后使用RoI池化或RoIAlign[8]提取它们的特征，用于后续的分类和回归。与两阶段检测器相比，一阶段检测器如YOLO [21, 22]，SSD[15]，RetinaNet[13]在计算成本上更有效。它们通常消除了建议生成，直接预测边界框。尽管这些方法已成功检测到目标，但上述方法存在共同的缺点。锚点的超参数需要仔细调整，以便在不同场景下覆盖更多的对象。由于每个位置的锚框共享相同网格的特征，这种表示粗糙且模糊。即使一些两阶段方法[1, 3,8, 23,26]提取了建议（精炼锚点）的整个框特征而不是网格特征，仍然不可避免地引入背景噪声或不相关的前景特征。提出的交叉线表示可以更灵活地表示不同组合的对象，从而减少噪声的干扰。02.2. 基于点的目标表示0为了突破锚框的超参数限制，最近的无锚点检测器[4, 5, 19, 20, 27, 30, 33–35,37]将一组点作为目标表示，然后将这些点分组成一个边界框。基于完全卷积网络（FCN），CornerNet[5]提出检测对象的一对角点（左上角和右下角），并采用关联嵌入方法[16]将它们分组为最终预测的对象边界框。ExtremeNet[35]估计对象的四个极端点（最上面的、最左边的、最下面的、最右边的）和一个中心点来表示对象。CenterNet[4]将CornerNet扩展为三元组，包括一个中心关键点和两个角点，以提供更可识别的信息。然而，这些方法需要仔细地将这些关键点分组以形成最终的对象边界框。Zhou等人[34]提出了一种通过单个中心点来建模对象边界框的方法。它简单地提取每个位置的中心点的特征，以找到中心点并回归对象的属性，如对象大小、深度、方向、位置等。此外，GA-RPN [28]、Foveabox[10]、FSAF [37]和FCOS[27]将对象内部的位置视为正样本，并直接预测对象的存在可能性和边界框坐标。然而，由于缺乏对象语义和位置信息，单个点的特征通常难以区分和定位对象。随后，Reppoints[30]通过一组代表性点来建模对象的形状和姿态信息，然后使用转换函数将这些点转换为边界框。为了方便组合这些点，这些方法通常需要手动设置固定数量的关键点。然而，这是不合理的，因为不同大小的对象通常需要不同数量的点来表示。在本文中，我们采用一组学习到的交叉线来表示对象，31970图2. (a) CrossDet的整体架构。基于FPN[12]编码的图像特征，我们首先预测粗略的交叉线表示，然后根据水平和垂直线上提取的特征进一步细化交叉线表示。为了捕捉更多的语义信息，我们使用两个方向的融合特征来预测目标类别。(b)交叉线提取模块使用水平和垂直池化来编码轴向感知的上下文信息，然后生成权重图以自适应地沿水平和垂直方向采样线特征。C = 256，H× W表示金字塔特征图的高度和宽度。0包括一个中心关键点和两个角点，以提供更可识别的信息。然而，这些方法需要仔细地将这些关键点分组以形成最终的对象边界框。Zhou等人[34]提出了一种通过单个中心点来建模对象边界框的方法。它简单地提取每个位置的中心点的特征，以找到中心点并回归对象的属性，如对象大小、深度、方向、位置等。此外，GA-RPN [28]、Foveabox[10]、FSAF [37]和FCOS[27]将对象内部的位置视为正样本，并直接预测对象的存在可能性和边界框坐标。然而，由于缺乏对象语义和位置信息，单个点的特征通常难以区分和定位对象。随后，Reppoints[30]通过一组代表性点来建模对象的形状和姿态信息，然后使用转换函数将这些点转换为边界框。为了方便组合这些点，这些方法通常需要手动设置固定数量的关键点。然而，这是不合理的，因为不同大小的对象通常需要不同数量的点来表示。在本文中，我们采用一组学习到的交叉线来表示对象，0它可以自适应调整线的长度，并根据目标大小改变提取特征的数量。此外，交叉线包含连续相邻的目标信息，可以促进目标的定位和分类。03. CrossDet: 交叉线表示的目标检测器0在目标检测中，可靠的目标表示对于准确的目标分类和定位是有益的。为了实现这个目标，我们提出了一种新颖的无锚点目标检测器CrossDet，它使用一组灵活的交叉线而不是矩形锚框或点作为目标表示。这些交叉线可以沿水平和垂直方向自适应地生长，并通过地面真实目标的位置、宽度和高度进行监督。CrossDet的整体检测网络采用多阶段流水线构建，如图2所示。我们采用特征金字塔网络作为骨干网络，这是在[27,30,31]的方法基础上采用的。在初始阶段，我们首先采用回归分支来预测粗糙的交叉线31980位置。接下来，我们利用交叉线提取模块在交叉线周围收集上下文信息，然后有选择地采样交叉线上的重要特征。基于捕获的交叉线特征，我们进一步使用解耦的回归机制预测它们对应的目标类别以及水平和垂直线的位置。在接下来的章节中，我们将详细描述所有组件。03.1. 交叉线表示0在本文中，我们使用一组交叉线来表示一个目标，对应于水平线H line = (x1, x2, yo)和垂直线V line = (xo, y1,y2)，其中(xo, yo)是水平和垂直线的交点坐标，x1, x2和y1,y2分别表示水平线的左右端点和垂直线的上下端点。一个目标可以以不同的交叉线组合灵活表示。例如，图3(a)和(c)展示了狗的边界框的两种组合形式。与基于点的方法不同，每组交叉线可以方便地转换为边界框，并且可以通过地面真实边界框注释自然地进行监督。水平线的端点x1,x2可以看作是目标边界框的左右边界，垂直线的端点y1,y2可以看作是目标边界框的上下边界，如图3所示。在初始阶段，我们将交叉线的初始长度预设为三个像素，即水平线：{(xo - 1, yo), (xo, yo), (xo + 1, yo)}，垂直线：{(xo, yo -1), (xo, yo), (xo, yo +1)}，这样可以同时考虑左右或上下的相邻信息，从而有利于后续的目标定位回归。03.2. 交叉线提取模块0交叉线提取模块（CEM）的结构如图2中的黄色框所示，它旨在捕获连续交叉线上更显著的特征，用于目标分类和定位。给定一组交叉线对象表示在(xo, yo)位置相交，C lines: {Hline = (x1, x2, yo), V line = (xo, y1, y2)}和输入特征图I ∈RC × H ×W，其中C、H和W分别表示通道维度、高度和宽度。为了有效地提取重要的交叉线特征，该模块包括两个部分：轴向感知池化和交叉线采样。首先，我们使用带状窗口(1,W)或(H,1)进行轴向平均池化，以编码上下文信息和水平或垂直轴之间的依赖关系。0输出可以计算如下：0IH pool(0, y) = 10W0x=0 I(x, y), (1)0IV pool(x, 0) = 10H0y=0 I(x, y), (2)0其中IH pool(0, y)∈RC×H×1，IV pool(x, 0)∈RC×1×W0分别是水平轴池化和垂直轴池化后的输出特征图。为了调节当前位置及其邻居的特征，我们分别在水平I H pool和垂直特征图I Vpool上滑动大小为1×3和3×1的卷积核。然后，我们将条带特征图扩展到C×H×W的维度，并通过逐元素求和将它们整合起来以增强原始特征。基于整合的特征图I'∈RC×H×W0考虑到长距离特征之间的依赖关系，我们可以使用1×1卷积层和带有sigmoid函数的归一化层生成相应的权重图W(I')∈RC×H×W。然后，我们利用权重图自适应地采样交叉线的特征。第o个位置上的交叉线特征，包括水平FH line(xo,yo)和垂直特征FV line(xo, yo)，可以计算如下：0FH line(xo, yo) =0x = x1W(x, yo) � I'(x, yo), (3)0FV line(xo, yo) =0y=y1W(xo, y) � I'(xo, y), (4)0W(x, y) = 101 + e-I(x,y) (5)0其中�表示逐元素乘法。高权重W(x, y)∈[0, 1]表示(x,y)位置的特征对于(xo,yo)位置上的交叉线特征很重要。注意，交叉线特征是根据学习到的交叉线x∈[x1, x2]，y∈[y1,y2]的长度和位置自适应聚合的，而不是整个特征图x∈[0,W-1]，y∈[0, H-1]。03.3. 解耦的交叉线回归0此外，我们提出了一种解耦的交叉线回归机制，使用其相应方向的特征独立回归水平线和垂直线的偏移量和尺度，如图3所示。由于地面实况边界框内有多组交叉线，分配回归目标将更加友好。不必强制每组候选交叉线都与地面实况的中心线位置相对应，这很难学习，因为距离很远。K31990图3. 初始交叉线表示和相应的地面实况交叉线在(xo,yo)位置上。绿色交叉线是基于交叉线的表示。白色虚线表示网络优化的搜索空间。红色框表示地面实况边界框(x1, y1, x2,y2)。交叉线(a)和(c)中初始水平线和垂直线的回归目标沿相应方向分配，而不是物体的中心线。0它们之间。在这里，我们将地面实况中的交叉线分配为沿特定方向的回归目标。如图3所示，根据候选交叉线的位置，水平线Hline保持Y轴坐标yo不变，只关注水平方向上的偏移量∆x和尺度∆w，而垂直线Vline只预测垂直方向上的偏移量∆y和尺度∆h，保持X轴坐标xo不变。给定一个地面实况物体边界框(x1, y1, x2, y2)，Hline的监督表示为(x1, x2, yo)，V line的监督表示为(xo, y1,y2)在每个位置(xo,yo)。因此，它进一步减少了搜索空间和网络优化的难度。该过程可以描述如下：0Hpline(xpc, wp) = T(Haline(xac, wa), (∆x, ∆w))，(6)0Vpline(ypc, hp) = T(Valine(yac, ha), (∆y, ∆h))，(7)0其中，Hpline和Vpline表示预测的水平线和垂直线，Haline和Valine是候选交叉线。T(∙)表示坐标的解码转换函数，遵循流行的R-CNN[7]：0xpc = xac + wa∆x，wpc = wa e∆w，(8)0ypc = yac + ha∆y，hpc = ha e∆h，(9)0其中，xpc，ypc，wpc和hpc表示预测线的中心坐标以及它们的宽度和高度（同样适用于0x ac，w a，y p c，y a c，h p，ha是候选交叉线的中心坐标、宽度和高度（对于）。我们可以自然地将交叉线表示转换为由两个角落（x p 1，y p 1，xp 2，y p 2）表示的预测边界框，然后使用GIoU损失LGIoU[24]来优化回归分支，类似于FCOS[27]。此外，我们还设计了一个偏移约束损失Loc，以限制它们的偏移范围，以确保水平线和垂直线相交：0Loc = max(0, xp1 − xo) + max(0, xo −xp20+ max(0, yp1 − yo) + max(0, yo − yp2) (10)0其中，垂直线的水平坐标限制为xo∈[xp1，xp2]，水平线的垂直坐标限制为yo∈[yp1，yp2]。在本文中，我们设置α =0.1。解耦的回归损失可以计算如下：0L reg(xp1, xp2, yp1, yp2) = L GIoU + αL oc (11)03.4. 网络学习0目标分配。基于交叉线表示的准确目标检测有多个阶段。在初始阶段，我们希望生成尽可能多的前景样本，以便在后续阶段进行优化。在训练过程中，如果交叉线的中心落在任何真实边界框内，我们将其分配为正样本，就像FCOS[27]一样。当一个样本落在多个真实边界框内时，我们简单地选择最小距离作为目标。在下一个阶段，由于前一阶段预测样本的分布动态性，很难找到适当的IoU阈值来分配正负样本。受[31]的启发，我们根据对象的统计特征（即均值和标准差的总和）自动分配正负样本。损失函数。整体的CrossDet可以使用多任务损失进行端到端的联合优化，如下所示：0L =0k = 1 λ k cls L k cls + λ k reg L kreg，(12)0其中，L k cls和L kreg分别表示第k个阶段的分类损失和回归损失。与FCOS[27]一样，分类损失使用focalloss。具体的回归损失由公式11计算。权重λ k cls和λ kreg用于控制不同阶段和任务之间的贡献。为了方便优化，我们在实现中将总阶段数K设置为2。在第一阶段，我们仅使用回归损失来学习一组粗糙的交叉线。在第二阶段，我们结合回归损失和分类损失来优化网络。损失函数可以计算如下：32000L = λ 1 reg L 1 reg + λ 2 cls L 2 cls + λ 2 reg L 2reg，除非另有说明。04. 实验0为了全面评估提出的CrossDet，我们在两个公共自然场景目标检测数据集上进行了实验，包括PASCALVOC数据集[6]和MS-COCO数据集[14]。数据集。PASCALVOC数据集[6]包含20个用于评估目标检测器的对象类别。根据[23]，我们在VOC2007 trainval和VOC2012trainval集合上训练模型，共16551张图像，并在VOC2007test集合上进行4952张图像的验证。与PASCALVOC数据集相比，MS-COCO数据集[14]涉及更大规模和80个对象类别，包括115k张训练图像（trainval35k集合），5k张验证图像（minival集合）和20k张测试图像（test-dev集合）。评估指标。在我们的所有实验中，我们采用标准的COCO风格平均精度AP作为评估指标，该指标在IoU（交并比）阈值从0.5到0.95范围内计算mAP，并且还包括小、中、大对象的AP S、AP M、APL。这些指标可以更全面地评估对象分类和定位性能。实现细节。除非另有说明，我们在所有实验中都采用在ImageNet[25]上预训练的ResNet-50[9]与FPN[12]作为主干网络。按照惯例，PASCALVOC数据集上的输入图像的长边和短边分别调整为1000和600，MS-COCO数据集上的输入图像的长边和短边分别调整为1333和800。我们使用随机梯度下降（SGD）以批量大小为16（8个GPU，每个GPU2张图像）进行12个时期的检测器训练。初始学习率设置为0.01，然后在第8个时期和第11个时期后降低10倍。训练期间除了传统的水平翻转之外，没有进行数据增强。为了公平比较，所有实验都是基于Pytorch[17]的开源MMDetection[2]工具箱实现的。损失权重λ 1 reg = 1和λ 2 reg = λ 2 cls =2。04.1. 消融研究0在本节中，我们采用ResNet-50 [9]和FPN [12]作为骨干网络，在PAS- CALVOC数据集[6]上进行消融研究，分析我们提出的方法中每个组件的效果。与不同表示的比较。为了证明所提出的基于横向线的表示方法的有效性，我们将横向线表示替换为其他表示方法，并在表1中进行比较。为了公平比较，这些目标表示方法在两阶段的流程中实现。在第一阶段，我们通过定位监督生成初始的目标定位。在第二阶段，我们通过分类和定位监督同时预测最终的目标定位和类别。基于中心点的表示使用每个位置的特征作为目标表示。按照Reppoints[30]的方法，我们使用可变形卷积层聚合一组关键点来表示目标。对于基于锚框的表示，我们使用流行的RoIAlign层[8]在第二阶段提取它们的特征。可以观察到，所提出的横向线表示在表1中取得了更好的性能，并且相对于基于中心点、一组关键点和矩形锚框的其他表示方法分别提高了2.5%、2.0%和1.6%。这些结果表明，基于横向线的表示对于准确的目标检测是有用的。横向特征提取策略。表2比较了横向线的不同特征提取策略的效果。为了验证轴向感知平均池化的有效性，我们使用常见的全局平均池化代替轴向感知池化。与去除轴向感知池化相比，没有性能改进。一个可能的原因是整个图像的全局上下文信息可能包含更多无关特征。此外，我们还研究了三种横向线采样策略的效果。最大采样和平均采样分别在线特征上取最大值和平均值。软加权采样策略有选择地提取横向线的显著特征。可以观察到，这三种策略都显著提高了性能。0表示 AP AP 50 AP 75 AP S AP M AP L0中心点 48.4 73.6 52.8 12.3 34.9 58.1 关键点 48.9 74.352.9 12.9 34.5 58.6 锚框 49.3 74.5 53.0 13.0 34.7 58.80横向线（我们的方法） 50.9 75.4 55.2 15.0 36.6 60.80表1. 不同目标表示的影响。0方法 AP AP 50 AP 75 AP S AP M AP L0无CEM 48.4 73.6 52.8 12.3 34.9 58.10无轴向感知池化 50.5 74.8 55.2 13.6 35.4 60.6 全局池化50.5 75.3 55.1 13.4 35.7 60.6 轴向感知池化 50.9 75.455.2 15.0 36.6 60.80无采样 48.8 74.5 53.7 12.3 35.2 58.4 最大采样 50.7 75.7 54.914.3 36.0 60.5 平均采样 49.7 75.0 54.4 13.8 35.7 59.3软加权采样 50.9 75.4 55.2 15.0 36.6 60.8 表2.横向提取模块的影响。CEM代表横向提取模块。w/o表示该方法被移除。0在第一阶段，我们通过定位监督生成初始的目标定位。在第二阶段，我们通过分类和定位监督同时预测最终的目标定位和类别。基于中心点的表示使用每个位置的特征作为目标表示。按照Reppoints[30]的方法，我们使用可变形卷积层聚合一组关键点来表示目标。对于基于锚框的表示，我们使用流行的RoIAlign层[8]在第二阶段提取它们的特征。可以观察到，所提出的横向线表示在表1中取得了更好的性能，并且相对于基于中心点、一组关键点和矩形锚框的其他表示方法分别提高了2.5%、2.0%和1.6%。这些结果表明，基于横向线的表示对于准确的目标检测是有用的。横向特征提取策略。表2比较了横向线的不同特征提取策略的效果。为了验证轴向感知平均池化的有效性，我们使用常见的全局平均池化代替轴向感知池化。与去除轴向感知池化相比，没有性能改进。一个可能的原因是整个图像的全局上下文信息可能包含更多无关特征。此外，我们还研究了三种横向线采样策略的效果。最大采样和平均采样分别在线特征上取最大值和平均值。软加权采样策略有选择地提取横向线的显著特征。可以观察到，这三种策略都显著提高了性能。Cls-CEM Reg-CEM AP AP50 AP75 APS APM APL48.4 73.6 52.8 12.3 34.9 58.1✓49.4 74.1 53.5 13.1 35.1 59.1✓49.5 75.2 54.4 12.9 34.6 59.5✓✓50.9 75.4 55.2 15.0 36.6 60.8K=1✓✓48.174.252.115.034.457.5K=2✓50.074,853.813.935.559.6K=2✓50.975.455.215.036.660.8K=2✓✓50.975.855.10 15.136.660.5320101.9%、0.9%和2.1%的AP性能提升。软加权采样策略实现了最佳的50.9%性能。表3分析了横向提取模块（CEM）对分类分支和回归分支的影响。与去除CEM相比，分类分支上的CEM和回归分支上的CEM对性能改进非常接近。当两个分支都进行CEM时，性能至少可以进一步提高1.4%。这些结果表明，横向特征对于目标分类和定位是重要的。0表3.交叉线提取模块对分类分支和回归分支的影响。Cls-CEM和Reg-CEM分别表示交叉线提取模块在分类和回归分支上进行。0方法 AP AP 50 AP 75 AP S AP M AP L0传统回归 50.1 75.3 54.7 14.2 35.7 59.8 解耦回归 50.675.4 54.9 14.4 36.4 60.4 带L oc 50.9 75.4 55.2 15.036.6 60.80表4. 回归机制的影响。带L oc 表示该方法引入了偏移约束损失L oc。0不同的回归机制。我们在表4中比较了传统的回归和我们的解耦回归机制。传统的回归通常要求每个特征回归到真实边界框的中心线，这很难找到优化的范围。可以看到，使用解耦回归机制将AP的检测性能从50.1%提高到50.6%。此外，提出的偏移约束损失L oc进一步将性能提高到50.9%。多阶段网络设计。由于提出的CrossDet可以在多阶段流水线中进行一致训练，我们在表5中研究了多阶段网络设计的影响。当阶段数K=1时，我们直接预测目标类别和定位，而不学习初始交叉线。当有两个阶段K=2时，第三行使用分类信息优化初始交叉线，第四行使用定位信息监督初始交叉线。可以看到，当直接监督初始交叉线时，性能至少提高了1.9%。与传统回归相比，回归监督有显著的改进。0分类。我们进一步对初始交叉线的学习进行了分类和定位的监督，结果与仅定位监督一致。这些结果表明，学习初始交叉线的定位信息更为重要。0阶段 cls. reg. AP AP 50 AP 75 AP S AP M AP L0表5.提出方法中多阶段网络的影响。K表示提出的CrossDet中的阶段数。cls和reg分别表示第一阶段中粗糙交叉线的监督来源。04.2. 与最先进的检测器进行比较0在PascalVOC数据集上的结果。我们在表6中将我们的方法CrossDet与其他典型的基于锚点的表示方法[12,13]和基于点的表示方法[27, 30,31]进行了比较，这些方法在VOC2007测试集上。为了公平比较，我们在MMDetection上重新实现了这些方法，使用它们的默认参数、16个批次大小和12个时期，没有任何花哨的东西。在相同的实验条件下，我们的CrossDet方法在ResNet-50和ResNet-101骨干网络上至少能够始终优于其他表示方法1.6%和1.1%。在MS-COCO数据集上的结果。为了进一步验证其普适性，我们还在大规模的MS-COCO测试集上将我们的CrossDet方法与其他最先进的方法进行了评估，结果见表7。在12个时期的标准设置下，我们的CrossDet在ResNet-50和ResNet-101骨干网络上实现了41.8%和42.8%的AP。根据先进的设置[27,30,31,31]，我们还进行了24个时期的多尺度训练策略。可以看到，我们的多尺度测试的CrossDet实现了48.4%的AP，并压制了其他最先进的基于锚点和基于点的方法。这些结果证明了所提出的基于交叉线的目标检测表示方法的有效性。05. 结论0本文提出了一种基于交叉线的无锚点目标检测器CrossDet，它使用一组交叉线作为目标表示。这种交叉线表示可以灵活地对连续的目标信息进行建模，以实现准确的目标分类和定位。基于学习到的交叉线，设计了交叉线提取模块，以自适应地捕捉水平和垂直方向上的交叉线特征。此外，使用解耦回归机制来优化交叉线，使其能够自动沿水平或垂直方向生长。广泛的实验结果验证了该方法的有效性。32020方法骨干网络 AP AP 50 AP 75 AP S AP M AP L0Faster R-CNN [12] ResNet-50 46.5 74.8 50.5 11.9 33.8 55.6 RetinaNet [13]ResNet-50 47.2 73.2 50.2 12.1 33.0 56.7 Reppoints [30] ResNet-50 45.9 73.548.8 11.6 32.2 55.0 FCOS-imprv [27] ResNet-50 47.6 72.2 51.1 11.7 31.8 57.7ATSS [31] ResNet-50 49.3 73.8 53.6 13.5 36.2 58.8 CrossDet (我们的方法)ResNet-50 50.9 75.4 55.2 15.0 36.6 60.80Faster R-CNN [12] ResNet-101 48.8 75.5 53.5 10.7 35.9 58.3 RetinaNet [13]ResNet-101 49.5 74.1 53.0 12.4 35.5 59.3 Reppoints [30] ResNet-101 47.574.2 51.3 11.4 33.9 56.9 FCOS-imprv [27] ResNet-101 49.7 73.4 54.3 12.434.7 60.1 ATSS [31] ResNet-101 51.7 75.2 57.1 12.7 37.1 61.9 CrossDet(我们的方法) ResNet-101 52.8 76.9 57.9 13.7 38.0 63.40表6. 在VOC2007测试集[6]上与最先进的方法进行比较。这些方法使用12个epochs进行训练。0方法骨干网络 Epoch AP AP 50 AP 75 AP S AP M AP L0基于锚点的表示 Faster R-CNN w. FPN [12] ResNet-101 24 36.2 59.1 39.0 18.2 39.0 48.0Cascade R-CNN [1] ResNet-101 18 42.8 62.1 46.3 23.7 45.5 55.2 SABL [29] ResNet-101 2443.3 60.9 46.2 23.8 46.5 55.7 YOLOv3 [22] DarkNet-53 - 33.0 57.9 34.4 18.3 35.4 41.9 SSD513[15] ResNet-101 - 31.2 50.4 33.3 10.2 34.5 49.8 RetinaNet [13] ResNet-101 - 39.1 59.1 42.321.8 42.7 50.2 RefineDet512 [32] ResNet-101 - 41.8 62.9 45.7 25.6 45.1 54.10基于点的表示 ExtremeNet* [35] Hourglass-104 200 40.2 55.5 43.2 20.4 43.2 53.1 CornerNet*[11] Hourglass-104 200 40.5 56.5 43.1 19.4 42.7 53.9 FreeAnchor [33] ResNet-101 24 43.162.2 46.4 24.5 46.1 54.8 CenterNet [4] Hourglass-104 190 44.9 62.4 48.1 25.6 47.4 57.4FCOS* [27] ResNet-101 24 41.5 60.7 45.0 24.4 44.8 51.6 FCOS-imprv* [27] ResNet-101 2443.0 61.7 46.3 26.0 46.8 55.0 ATSS* [31] ResNet-101-DCN 24 46.3 64.7 50.4 27.7 49.8 58.4RepPoints* [30] ResNet-101-DCN 24 45.0 66.1 49.0 26.6 48.6 57.5 SAPD [36]ResNet-101-DCN 24 46.0 65.9 49.6 26.3 49.2 59.6 BorderDet* [19] ResNet-101-DCN 24 47.266.1 51.0 28.1 50.2 59.90基于交叉线的表示 CrossDet ResNet-50 12 41.1 60.1 44.7 24.4 43.8 51.0 CrossDet ResNet-10112 42.8 61.9 46.7 25.1 45.7 53.5 CrossDet* ResNet-50-DCN 24 45.2 63.8 49.8 28.1 47.7 55.8CrossDet* ResNet-101-DCN 24 47.4 65.9 52.3 29.5 50.2 58.7 CrossDet** ResNet-50-DCN 2446.3 64.6 51.9 30.3 48.0 56.8 CrossDet** ResNet-101-DCN 24 48.4 66.4 54.1 32.0 50.6 59.00表7. 在MS-COCO test-dev数据集[14]上与最先进的方法进行比较。符号*表示多尺度训练，**表示多尺度训练和测试。0所提出的CrossDet在PASCALVOC和MS-COCO数据集上取得了优越的性能。06. 致谢0本工作部分得到了中国国家自然科学基金（No.61831005，61971095，61871087和62071086）的支持。32030参考文献0[1] Zhaowei Cai和Nuno Vasconcelos。Cascader-cnn：深入研究高质量目标检测。在IEEE计算机视觉和模式识别会议论文集中，第6154-6162页，2018年。0[2] Kai Chen，Jiaqi Wang，Jiangmiao Pang，Yuhang Cao，YuXiong，Xiaoxiao Li，Shuyang Sun，Wansen Feng，ZiweiLiu，Jiarui Xu，Zheng Zhang，Dazhi Cheng，ChenchenZhu，Tianheng Cheng，Qijie Zhao，Buyu Li，Xin Lu，RuiZhu，Yue Wu，Jifeng Dai，Jingdong Wang，JianpingShi，Wanli Ouyang，Chen Change Loy和DahuaLin。MMDetection：开放的mmlab检测工具箱和基准。arXiv预印本arXiv:1906.07155，2019年。0[3] Jifeng Dai，Yi Li，何开明和孙剑。R-FCN:基于区域的全卷积网络进行对象检测。神经信息处理系统进展，2016年。0[4] 段凯文，白松，谢灵熙，齐洪刚，黄庆明和田琦。Centernet:用于对象检测的关键点三元组。在IEEE国际计算机视觉会议论文集中，第6569-6578页，2019年。0[5]段凯文，谢灵熙，齐洪刚，白松，黄庆明和田琦。用于无锚点、两阶段对象检测的角点提议网络。欧洲计算机视觉会议论文集，2020年。0[6] Mark Everi

下载后可阅读完整内容，剩余1页未读，立即下载