面向密集目标检测：基于动态细化网络的高效检测方法

130 浏览量更新于2023-10-24 收藏 1.82MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1面向密集目标检测潘兴佳1、2任玉强3盛克凯3董伟明1、2、4袁浩磊3郭晓伟3马重阳5徐长胜1、2、41中国科学院自动化研究所NLPR 2中国科学院大学人工智能学院3优图实验室、腾讯4卡西亚-LLVision联合实验室5Y-Tech、快手科技{panxingjia2015，weiming.dong，changsheng.xu}@ ia.ac.cnchongyangma@kuaishou.com，www.example.com{condiren，saulsheng，harryyuan，scorpioguo}@ tencent.com摘要目标检测在过去的十年中取得了显著的进展然而，由于以下固有原因，定向和密集堆积物体的检测仍然具有挑战性：（1）神经元的感受野都是轴向排列的，形状相同，而物体通常是不同的形状，沿不同的方向排列;(2)检测模型通常用一般知识训练，并且可能不能很好地概括以在测试时处理特定对象;（3）有限的数据集阻碍了本课题的开展。为了解决前两个问题，我们提出了一个动态细化网络，它由两个新的组件组成，即，特征选择模块（FSM）和动态细化头（DRH）。我们的FSM使神经元能够根据目标对象的形状和方向调整感受野，而DRH使我们的模型能够以对象感知的方式动态地改进预测。为了解决相关基准测试的有限可用性，我们收集了一个广泛的和完全注释的数据集，即SKU 110 K-R，它是基于SKU 110 K的定向边界框重新标记。我们对几个公开的基准进行了定量评估，包括DOTA，HRSC 2016，SKU 110 K和我们自己的SKU 110K-R数据集。实验结果表明，我们的方法实现了一致的和实质性的收益相比，基线方法。我们的源代码和数据集将被公布，以鼓励后续研究。1. 介绍对象检测在几个基准（例如，[6]和COCO [24]）*通讯作者(a) （b）回归图1.分类（a）和回归（b）的动态细化说明。每个实心点代表一个样品。与分类器和回归器在训练过程中学习到的一般知识进行预测，但缺乏灵活性。模型应随样品变化。箭头显示了改进性能的有希望的改进。深度学习的帮助。许多精心设计的方法[35，44，46，34，3]已经证明了有希望的结果。然而，大多数这些检测器遇到的问题时，对象，如那些在航空图像，是在任意方向和密集分布。此外，几乎所有的检测器都在训练集上优化模型参数，并在之后保持固定。这种使用一般知识的静态范例可能不够灵活，无法在测试期间检测特定样本最近在面向对象检测方面的大部分进展都是基于R-CNN系列框架[8，7，35]。这些方法首先生成大量的水平边界框作为感兴趣区域（ROI），然后根据区域特征预测分类和位置不幸的是，水平ROI通常遭受边界框和定向对象之间的严重不对齐[40，29]。例如，空间图像中的对象通常具有任意取向并且密集地堆积，从而导致伪像，其中若干实例通常拥挤并且被单个实例包含1120711208水平ROI [5]。因此，提取准确的视觉特征变得困难。其他方法[40，26，29，28]利用定向边界框作为锚来处理旋转对象。然而，这些方法遭受高计算复杂度，因为它们获得了许多具有不同角度、尺度和纵横比的精心设计的锚。最近，RoI Trans [5]通过旋转RoI学习器并使用旋转的位置敏感RoI对齐模块提取旋转不变区域特征，将水平RoI转换为定向RoI。然而，这种方法仍然需要设计良好的锚并且不够灵活。模型训练是一个从特殊到一般的过程，而推理则是从一般到特殊的过程。然而，几乎所有的方法都遵循平稳范式，不能根据样本进行灵活的推理。动态滤波器是一种简单而有效的方法，使模型能够在不同的样本上改变。现有方法[4，38]通过动态滤波器进行特征重组，并取得了有希望的结果。然而，检测器有两个不同的任务，即分类和回归。图1示出了一些说明性示例。对于分类任务，关键是细化特征嵌入以提高区分能力。然而，对于回归问题，期望直接细化预测值。我们提出了两个版本的动态细化头（DRH）针对上述两个方面。在这项工作中，我们采用了CenterNet [44]，并将额外的角度预测头作为我们的基线，并提出了动态细化网络（DRN）。我们的DRN由两个新颖的部分组成：特征选择模块（FSM）和动态细化头（DRH）。FSM使神经元能够根据对象的形状和方向调整感受野，从而将准确和去噪的特征传递给检测器。 DRH使我们的模型以对象感知的方式进行灵活的推断。具体来说，我们提出了两个DRH分类（DRH- C）和回归（DRH-R）的任务。此外，我们仔细地重新标记了SKU 110 K[ 9 ]的定向边界框，并将其称为SKU 110 K-R;以这种方式，有助于定向对象检测。为了评估所提出的方法，我们在DOTA，HRSC2016和SKU110K数据集上进行了广泛的实验。总的来说，我们的贡献包括：• 我们提出了一种新的有限状态机，根据物体形状自适应地调整神经元的感受野，方向。所提出的有限状态机有效地缓解了感受野和对象之间的错位• 我们提出了两个DRH，即DRH-C和DRH- R，分别用于分类和回归任务。这些DRH可以模拟每个样本的独特性和特殊性，并以对象方式改进预测。• 我们收集了一个仔细重新标记的数据集，即，SKU 110 K-R，其中包含准确的注释有向包围盒，方便研究有向密集目标检测。• 我们的方法在DOTA，HRSC2016，SKU110K和SKU110K上显示出一致和实质性的收益。面向对象和密集包装的对象检测。2. 相关工作大多数物体检测方法[35，27，32，36，34，18，44，37]关注轴对齐或直立物体，并且当目标具有任意取向或呈现密集分布时可能会遇到问题[9]。对于定向对象检测，一些方法[8，10，25，29，28]采用R-CNN[35]框架，并使用具有不同角度，尺度和纵横比的众多锚点SRBBS [29]使用旋转感兴趣区域（RoI）扭曲来提取旋转RoI的特征;然而，由于旋转建议生成消耗额外时间，因此难以嵌入神经网络中。Ding等[5]提出了一个ROI转换器Transformer，将轴对齐的ROI转换为旋转的ROI，以解决ROI和定向对象之间的不对齐问题SCRDet[42]在L1损失项中添加了IOU常数因子，以解决定向边界框的边界问题。与上述方法相比，我们提出了有限状态机自适应地调整神经元的感受野，并为具有不同角度，形状和尺度的各种对象重新组装适当的功能。FPN [22]提出了一种特征金字塔网络，用于在多个尺度上执行对象检测他们根据面积大小选择建议的特征FSAF [46]学习无锚模块来动态选择最合适的功能级别。Li等[19]提出了一个动态特征选择模块，用于根据新锚点的位置和大小选择像素。这些方法的目的是在对象级别上选择额外的合适特征。为了变得更细粒度，SKN [20]学会了使用不同的内核在每个位置选择具有不同感受野的特征。SENet [11]显式地自适应地重新校准通道特征响应，而CBAM [39]采用多个空间注意力模块来建模空间间关系。我们的FSM学习以像素方式提取形状和空间Transformer网络[13]是第一个在深度学习框架中学习空间变换和仿射变换主动卷积[14]通过偏移量增加卷积层中的采样位置它在不同的空间位置上共享偏移可变形卷积网络（DCN）[4]对图像中的密集空间变换进行建模，偏移量是动态模型输出。我们的旋转卷积层11209角度大小偏移热图图2.我们的动态优化网络的总体框架骨干网之后是两个模块，即、特征选择模块（FSM）和动态精化头（DRH）。有限状态机通过自适应调整感受野来选择最合适的特征DRH以对象感知的方式动态地细化预测。在FSM中，以密集的方式学习旋转变换RoI Trans [5]学习五个偏移量，以将轴对齐的ROI转换为旋转的ROI，其方式与位置敏感的ROI Align [35]类似ORN [45]提出了在卷积过程中主动旋转的主动旋转滤波器旋转角度是刚性的超参数，并且所有位置共享相同的旋转角度。相反，我们的轮换制定向的边界框，我们添加一个分支来回归边界框的方向，如图所示。二、令（Cx，cy，h，w，θ，δx，δy）为模型的一个输出七元组。然后，我们通过以下方式构建定向边界框：Plt=Mr[−w/2，−h/2]T+[cx+δx，cy+δy]T，Prt=Mr[+w/2，−h/2]T+[cx+δx，cy+δy]T，变换是可学习的，并且可以预测每个位置Plb =Mr[−w/2，+h/2]T+[cx +δx ，cy+δy]T，（一）通过引入动态滤波器，神经网络以输入特征为条件，并切换样本。动态滤波器[15]在训练阶段学习滤波器权重，因此可以在推理时提取样本特征。类似地，CARAFE [38]提出了一个内核预测模块，负责以内容感知的方式生成重组内核。虽然DCN [4]和RoI Trans [5]以动态方式对偏移预测进行建模，但它们不会改变内核权重。Prb=Mr[+w/2，+h/2]T+[Cx+δx，cy+δy]T，其中（Cx，cy）和（δ x，δ y）是中心点和偏移预测;（w，h）是尺寸预测;Mr是旋转矩阵;并且P lr、P rt、Plb和P rb是定向边界框的四个角点。在回归任务的CenterNet之后，我们使用L1损失来回归旋转角度：1ΣN与[4，38]相比，我们的DRH旨在通过引入动态长=Nk=1|、（二）|,(2)过滤器，而不是功能重组。3. 我们的方法和数据我们的方法的总体框架如图所示。二、我们首先介绍我们的网络架构，秒第3.1条在每个网络层中，各种对象和单纯形感受野之间的不对准是普遍存在的;因此，我们提出了一个FSM来自动重新组装最合适的功能，如第二节所述3.2. 为了使模型能够根据不同的例子动态地改进预测三点三3.1. 网络架构我们使用CenterNet [44]作为基线，它将对象建模为单个点（即，边界框的中心点）并回归对象大小和偏移。预测其中，θ和θm分别是目标旋转角度和预测旋转角度;N是正样本的数量因此，我们模型的总体训练目标是Ldet=Lk+λsizeLsize+λoffLoff+λangLang，（3）其中L k、L size和L off是中心点识别、尺度回归和偏移回归的损失，与CenterNet相同;并且λ size、λ off和λ ang是常数因子，它们都被设置为0。1在我们的实验中3.2. 特征选择模块为了减轻各种对象和神经元的轴对齐感受野之间的不匹配，我们提出了一个特征选择模块（FSM），以自适应地聚合使用不同的内核大小、形状（纵横比）和方向提取的信息（见图1）。（3）第三章。沙漏网络特征选择模块分类的动态细化动态精化用于回归11210(; )��正常化卷积加法器图4.动态细化头分类（DRH-C）。旋转卷积层（RCL）图3. 顶部：功能选择模块。底部：旋转卷积层.下图显示了一个三拆分示例。每个分裂通过使用具有3×3，1×3和3×1内核的旋转卷积层提取不同的信息。我们采用注意力机制来聚合信息。多功能。给定一个特征映射X∈RH×W×C，我们首先用1×1卷积层压缩特征，然后进行批量归一化[12]和ReLU[31]按顺序运行，以改进信息汇总。接下来，我们通过使用具有不同核的旋转卷积层（RCL）从Xc∈′RH×W×C。图 3显示了一个三分裂的例子，有3 ×3，1×3和3×1内核。每个分裂负责不同的 ′感受野，我们称之为Xi∈RH×W×C，其中i∈{1，2，3}。RCL从DCN [4]中获得灵感，实现细节如图所示3 .第三章。类似于DCN，我们使用R来表示规则网格感受野和膨胀。对于大小为3×3的内核，我们有R={（−1，−1），（−1，0），.，（0，1），（1，1）}。（四）给定第i个位置的预定义偏移pi∈R和学习角度θ，学习偏移为δpi=Mr（θ）·pi−pi，（5）其中，Mr（θ）是在等式n中定义的旋转矩阵（一）.对于输出特征图Xi中的每个位置p0，我们有ΣXi（p0）=w（pn）·Xc（p0+pn+δpn），（6）pn∈R其中pn表示R中的位置，w是核权重。113x3221x3333x1softmax注意门RCL旋转矩阵偏移11211我特征选择。为了使神经元具有自适应的感受场，我们采用注意力机制以位置方式融合特征。Xi首先被馈送到注意力块（由具有内核1× 1，批量归一化和ReLU顺序），以获得注意力图A i∈R H×W×1（i∈1，2，3）。然后，我们在通道方向上连接A i，然后是SoftMax操作，以获得归一化的选择权重′A为：′Ai=SoftMax（[A1，A2，A3]）。（七）软注意力融合了多个分支的功能：Σ′Y=Ai·Xi，（8）我其中Y∈RH×W×C是输出特征。为了相似性，我们省略了Y之前的通道扩展层这里我们示出了三分支情况，且可以容易地扩展到具有不同核大小和形状的更多分支。3.3. 动态细化头在标准的机器学习框架中，人们通常通过一个大的带注释的训练集来学习模型。在推理阶段，将测试样本送入固定参数的模型，得到预测结果。当经过良好训练的模型只能根据从训练集学习的一般知识做出响应，而忽略每个示例的唯一性时，就会出现问题为了使模型能够根据每个样本做出响应具体而言，两个不同的模块，即，DRH-C和DRH-R可分别用于分类和回归。我们用一个三类分类问题的例子来说明我们的动机在图1（a）中。灰色圆形区域表示特征空间，实心点是属于三个类别的示例。有些样品的位置远离判别边界，表明这些样品具有良好的11212图5.Dynamic Refinement Head for Regression（DRH-R）.语义可辨别性相比之下，与边界有小裕度的样本不幸地与模型不太兼容。为了提高模型的灵活性，我们诉诸对象感知的分类/回归模块。图6.SKU 110 K-R数据集中带有注释定向边界框的示例图像给定∈RH×W×C中的特征映射F，我们首先通过Gr（· ;）计算动态滤波器权重Kr，然后预测类似于等式n的细化因子H△。（10）为了获得最终的对象感知回归结果Hr：Hb= R（ Fmid; R），分类的动态细化。 DRH-C的架构如图所示4.第一章给定输入特征图Hr=.Σ1+·tanh（H△）·Hb，（十二）F在∈RH×W×C中，我们首先得到一个对象感知滤波器：Kc=Gc（Fin;φ），（9）其中Gc表示动态滤波器生成器，φ是Gc的参数集。Kc是学习的示例式内核权重。然后，我们通过卷积运算获得特征细化F△F△=F中Kc，（10）其中，Fmid是通过内核为3×3的Conv-BN-ReLU块处理Fin的基本特征，而ReLU表示卷积运算符。最后，我们得到分类预测Hc：其中R（·;）是具有参数的回归器。Hb是根据一般知识的基本预测值。细化因子通过双曲正切激活函数在[-1，1]范围内变化控制因子是防止模型被大的细化所混淆该因子设置为0的情况。1在我们的实验中3.4. SKU110K R数据集我们的SKU 110 K-R数据集是SKU 110 K的扩展版本[9]。原始的SKU110K数据集总共包含11，762张图像（8，233张用于训练，584张用于验证，测试2941例）和1733678例。的从数千家超市商店并且具有各种尺度、视角、照明条件Hc= C.Σ（1+ε·F△/<$F△）·Fmid;Φ，（11）和噪音水平。所有的图像都被调整到一个分辨率100万像素。数据集中的大多数实例都是紧密堆积的，并且通常在其中C（·，Φ）表示具有参数Φ的分类器，并且是一个模运算。对于每个位置，我们在信道方向上对F△进行标准化的F△指示基础特征Fmid的修改方向。我们适应性地根据其长度细化基本特征ε是控制细化范围的常数因子。回归的动态细化。我们还在图中展示了回归任务的一个简单示例第1段（b）分段。橙色实心点表示示例的目标值，橙色曲线表示学习的回归模型。对于回归任务，研究者通常最小化平均L1或L2距离;因此，所学习的模型不能精确地拟合目标值。为了在不增加过拟合风险的情况下预测精确值，我们设计了一个对象感知回归头，类似于图1所示的分类器五、(; )��卷积add&mul11213[-15，15]的愤怒。为了丰富数据集，我们通过将图像旋转六个不同的角度来执行数据增强。角度，即，-45、-30、-15、15、30和45。然后，我们通过众包为每个实例注释定向边界框，以获得我们的SKU 110 K-R数据集。有关SKU 110-R的更多详细信息，请参阅我们的补充材料。4. 实验4.1. 实验装置数据集。我们在三个数据集上进行实验，即，DOTA[40]、HRSC 2016 [29]和我们自己的SKU 110 K-R（第二节）第3.4段）。DOTA数据集包含2806张图像，涵盖15个对象类别。它主要用于航空影像中带有有向边界标注的目标11214方法PLBDBRGTFSVLVSHTCBCStSBFRAHASPHC地图一期法SSD [27]39.839.090.6413.180.260.391.1116.2427.579.2327.169.093.031.051.0110.59[33]第三十三话39.5720.2936.5823.428.852.094.8244.3438.3534.6516.0237.6247.2325.57.4521.39FR-O [40]79.4244.1317.764.0535.338.0237.1689.4169.6459.2850.352.9147.8947.446.354.13两阶段法ICN [1]81.4074.3047.7070.3064.9067.8070.0090.8079.1078.2053.6062.9067.0064.2050.2068.20R-DFPN [41]80.9265.8233.7758.9455.7750.9454.7890.3366.3468.6648.7351.7655.1051.3235.8857.94R2 CNN [16]80.9465.6735.3467.4459.9250.9155.8190.6766.9272.3955.0652.2355.1453.3548.2260.67RRPN [30]88.5271.2031.6659.3051.8556.1957.2590.8172.8467.3856.6952.8453.0851.9453.5861.01RoI-变压器开关[5]88.6478.5243.4475.9268.8173.683.5990.7477.2781.4658.3953.5462.8358.9347.6769.56SCRDet [42]89.4178.8350.0265.5969.9657.6372.2690.7381.4184.3952.7663.6262.0167.6261.1669.83[42]第四十二话89.9880.6552.0968.3668.3660.3272.4190.8587.9486.8665.0266.6866.2568.2465.2172.61无锚法基线[44]89.0269.7137.6263.4265.2363.7477.2890.5179.2477.9344.8354.6455.9361.1145.7165.04[44]第四十四话89.5679.8343.866.5465.5866.0983.1190.7283.7284.355.6258.7162.4868.3350.7769.95DRN（我们的）88.9180.22243.5263.3573.4870.6984.9490.1483.8584.1150.1258.4167.6268.6052.5070.70DRN系列（Ours）89.4583.1648.9862.2470.6374.2583.9990.7384.6085.3555.7660.7971.5668.8263.9272.95DRN认证（Ours）89.7182.3447.2264.1076.2274.4385.8490.5786.1884.8957.6561.9369.3069.6358.4873.23表1.OBB任务在DOTA数据集上的评估结果类别名称缩写如下：PL-PLANE，BD-Baseball钻石，BR-BRidge，GTF-地面跑道，SV-小型车，LV-大型车，SH-SHip，TC-网球场，BC-篮球场，∗ST-储油罐，SBF-足球场，RA-环形交叉路口，HA-港口，SF-游泳池，HC-直升机。（·）∗∗代表测试在多尺度中，以及（·）增强代表翻转和多尺度测试我们的方法的其他结果都没有任何测试箱.对象具有各种尺度、方向和形状。在训练之前，我们从原始图像中裁剪一系列相同分辨率的补丁1024×1024，步幅为924，得到大约25000个补丁。缓解类不平衡，我们执行随机的旋转的那些类别与很少的样本，并最终获得约40000块。HRSC2016数据集包含1061幅航空图像和20多种不同外观、尺度和方向的船舶类别训练集、验证集和测试集分别包括436、181和444个图像。我们没有对该数据集进行任何数据增强。对于 DOTA 和 HRSC2016 数据集，我们使用与PASCAL VOC相同的mAP计算[6]。对于SKU 110 K和SKU 110 K-R，我们使用与COCO [ 25 ]相同的评价方法，其报告了IoU = 0时的平均精密度（mAP）。五比零05：0。九十五此外，我们在IoU = 0时报告AP。75（AP 75）和平均召回300（AR 300）在IoU =0。五比零05：0。95（300是对象的最大数量），遵循Goldmanetal. [9]的文件。实作详细数据。我们使用沙漏-104网络作为骨干。为了实现RCL，我们使用DCNV2 [47]的发布代码，并将原始预测偏移替换为从等式11中的预测角度推导出的偏移。五、DOTA、HRSC 2016和SKU 110 K-R的输入分辨率分别为1024×1024、768×768和768 ×768，分别我们使用随机缩放（在[0。七，一。3]）、随机翻转和用于数据增强的颜色抖动。对于DOTA和HRSC，模型总共训练了140个时期学习率降低了在第90和第120个历元之后，因子10从初始值4e-4最终变为4e-6对于SKU 110 K-R，我们将学习率设置为4e-4，并在没有学习率衰减的情况下训练了20个epoch我们使用Adam [17]作为优化器并将批量大小设置为8。为了提高收敛性，我们在训练阶段计算目标角度的偏移量，而不是预测的偏移量。我们推断在RCL使用预测的角度在测试时间的偏移正如在CenterNet中所设置的那样，我们采用了三个级别的测试增强。首先，我们评估我们的方法没有任何增强。然后，我们添加多尺度测试（0。五一0，1。（五）。为了合并检测，我们采用了Soft-NMS [2]的变体，面向面向边界框（angle-softnms）。具体来说，我们使用线性方法来调整得分值，设置IoU阈值，并将阈值抑制为0。5和0。03、分别最后，我们在解码定向边界框之前添加水平翻转并平均网络预测。4.2. 实验结果表1显示了定量结果，比较了我们的方法与DOTA测试集上最先进的方法，用于定向边界框（OBB）任务。其他方法都是基于锚点的，其中大多数基于FasterR-CNN的框架 [35]。相比之下，我们遵循无锚范式，并证明了与SCRDet相当的结果[42]。与基线相比，我们的方法ahchieves一个显着的增益为3。3%，以mAP计算。表2以Pascal VOC方式显示了HRSC2016的结果。我们的方法实现了6的显著增益。4%，以mAP计算。这种改进表明，所提出的有限状态机有效地解决了失调的问题，通过自适应调整的感受进一步的研究表明11215方法CP [28] BL2 [28] RC1 [28] RC2 [28] R2 PN [43] RRD [21] RoI Trans [5]我们的地图55.769.675.775.779.684.386.292.7表2.HRSC2016数据集的评估结果表3.将我们的方法与COCO方式的HRSC2016数据集上的基线进行比较。表6.使用DRH-C对DOTA数据集的验证分区的评估结果数据集方法mAPAP75AR 300方法L1AP AP[35]第35话：我的世界YOLO9000 [33] 9.4 7.3 11.150 75刻度角偏移-0.19 - 63.5 34.8SKU110K-R中央网络-4点†[44] 34.3 19.6 42.2中央网络[44] 54.7 61.1 62.2基线我们的55.9 63.1 63.3表7.使用DRH- R对DOTA验证集的评估结果表4.SKU 110 K和SKU 110 K-R的评估结果4.3. 消融研究方法MKDCN腐AP50AP75我们对DOTA进行了一系列消融研究，基线63.434.6验证集并在COCO3363.334.5以验证我们方法的有效性公司现采用国际表5. DOTA验证集上关于FSM的消融研究。MK表示FSM中使用的多个内核。33、13和31分别表示核大小（3，3）、（1，3）和（3，1）DCN和ROT是可变形和旋转卷积层。COCO时尚的评价结果见表3。我们的方法提供了1。9%mAP增益。此外，随着IoU的增加，我们的方法也在改进。图 7 显示了使用我们的方法在 DOTA 和HRSC2016数据集上的一些定性表4显示了SKU 110 K-R和SKU 110 K的结果对于定向对象检测，我们通过引入角度预测来重新实现YoloV3 [34CenterNet-4point<$表示回归每个边界框的四个角，CenterNet<$表示我们将中心池和DCN [4]添加到基线。我们将mAP提高了1。5%，并在原始SKU110K数据集上报告了优异的结果这些数字进一步证明了我们提出的DRN的有效性。与基线相同的结果，因为我们的网络与基线相同，除了在头部分支之前添加了一个卷积当我们添加RCL时，一些改进（0。5%），因为RCL使神经元能够通过旋转来调节感受野。接下来我们添加一个扁平内核（1×3），模型表现出更好的性能。最后，我们添加了一个细长的核（3×1），模型显示出一致的增益。 FSM有三个分裂使神经元能够在两个自由度上调整感受野，即形状和旋转。当添加1×3核时，观察到一些更多的扁平形状对象的轻微改善为了进一步揭示有限状态机的有效性，我们可视化的注意力地图在有限状态机。细节在我们的补充材料中在我们的实验中，我们建立了简单的内核来证明FSM的有效性，并将更复杂的内核形状的设计作为未来的工作。为了对每个对象的独特性和特殊性进行建模，并使网络能够处理灵活的样本，我们方法地图AP50AP75方法ACCRecAP50AP75基线63.592.375.4基线0.210.8963.434.6我们65.692.077.8DRH-C0.270.9564.135.2[23]第二十三话45.538.953.0基线5.340.210.3963.434.6SKU110K[9]第九话49.255.655.44.12--64.135.2我们56.964.063.5--0.3663.434.5YoloV 3-旋转49.151.158.24.100.180.3564.135.3[34]第三十四话55.476.856.2基线55.862.862.5DRH-R33C63.534.8沙漏-52作为我们的支柱在这个部分。33C63.935.1我们的FSM旨在选择紧凑的感受野，三十三，十三63.534.7每个对象自适应。为了尽可能地匹配对象，FSM三十三，十三C63.634.9如果可能的话，我们设置三种形状的内核，即，正方形，扁平形，三十三，十三C64.235.4和细长的矩形。表5显示了当我们11216图7.我们的方法的检测结果示例。上一行来自DOTA，下一行来自HRSC2016。方法T检验ParamsAP50AP75基线0.078s-63.434.6+FSM0.086s+ 0.1M64.435.7+DRH-C0.095s+0.03M65.036.3+DRH-R0.102s+0.03M65.736.9表8.我们的方法与基线的比较速度、复杂性和准确性。时序信息是在一台 NVIDIA Tesla V100 上使用分辨率为1024×1024的图像测量的。后处理的时间（即，NMS）不包括在内。为分类和回归任务设计两个DRH对于分类器，我们报告准确率（Acc），召回率（Rec）和AP以揭示中心点预测的质量。具体来说，我们选择前300个点作为实验中每张图像的预测对象中心。表6显示了DRH-C的消融研究结果当引入DRH-C时，分类器的性能得到了显著改善。具体地，Acc和Rec从0增加。21比0 32和0。81比0 89、分别对于检测，DHR-C提供0. 7%AP 50和0. 6%AP75增益。在表7中，为了评估DRH-R的影响，我们报告了使用DRH-R替换原始股骨头进行比例、角度和偏心距回归时的预测误差AP50和AP75我们使用预测值和地面实况值之间的标准L1DRH-R中的前三行显示了当我们用DRH-R替换相应的单头时的结果。我们的DHR-R提供了一致的改进，尽管在角度和偏移回归任务上略有改进。原因是这两项任务相对容易，几乎已经达到了最优点。在规模回归任务中，DRH-R将L1错误减少了1。24和提高AP 50和AP 750。7%和0的情况。6%，分别。表8在处理图像的平均时间、模型参数数量以及模型性能（AP50和AP75）方面将我们的方法与基线进行了比较。我们的方法已经取得了显着的改善，在基线上的参数数量非常有限的增加。这里，我们只在秤头上应用DRH-R。5. 结论在这项工作中，我们提出了一个统一的框架，面向密集包装的对象检测。为了根据对象的形状和方向调整神经元的感受野，我们提出了一个有限状态机来聚合信息，从而解决感受野和各种对象之间的错位问题。我们进一步介绍DRH-C和DRH-R动态地改进预测，从而缓解了由一般知识装备的模型与具体对象之间的矛盾。此外，我们重新标记SKU 110 K与定向的边界框，并获得一个新的数据集，称为SKU 110 K-R，以促进发展的检测模型的定向和密集包装的对象。我们进行了大量的实验，以表明我们的方法在多个数据集上实现了一致的增益与基线方法相比。在未来，我们计划探索一个更有效的机制，动态模型和调查面向对象检测在少数镜头设置。谢谢。本课题得到了国家重点科技&攻关项目的资助。2018YFC0807500，和国家自然科学基金项目。61832016、61672520和61720106006，以及CASIA-Tencent优图联合研究项目。11217引用[1] Seyed Majid Azimi、Eleonora Vig、Reza Bahmanyar、Marco K ¨rne r和PeterReinartz。研究了无约束遥感图像中的多类目标亚洲计算机视觉会议，第150-165页。Springer，2018. 6[2] Navaneeth Bodla，Bharat Singh，Rama Chellappa，andLarry S Davis.Soft-NMS -用一行代码改进目标检测。在IEEE计算机视觉国际会议论文集，第5561-5569页，2017年。6[3] Ali Borji、Ming-Ming Cheng、Qibin Hou、Huaizu Jiang和Jia Li。显著对象检测：一个调查。计算视觉媒体，5（2）：117-150，2019。1[4] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。在IEEE计算机视觉国际会议论文集，第764-773页，2017年。二、三、四、七[5] 丁健，薛南，杨龙，夏桂松，陆启凯。学习 roiTransformer用于航空图像中的定向对象检测。在IEEE计算机视觉和模式识别集，第2849二三六七[6] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.PASCALVisual Object Classes （ VOC ）挑战赛。 InternationalJournal of Computer Vision，88（2）：303-338，2010.1、6[7] 罗斯·格希克。快速R-CNN。在IEEE计算机视觉国际会议论文集，第1440- 1448页，2015年。1[8] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。IEEE计算机视觉和模式识别会议论文集，第580-587页，2014年。一、二[9] Eran Goldman ， Roei Herzig ， Aviv Eisenschtat ， JacobGold-berger，and Tal Hassner.在密集场景中进行精确检测。在IEEE计算机视觉和模式识别会议论文集，第5227-5236页二五六七[10] Meng-Ru Hsieh，Yen-Liang Lin，Winston Hsu.基于空间规则化区域建议网络的无人机目标计数。在IEEE计算机视觉国际会议论文集，第4145-4153页，2017年。2[11] 杰虎，李申，孙刚。压缩-激励网络。在IEEE计算机视觉和模式识别集，第71322[12] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv：1502.03167，2015。4[13] Max Jaderberg，Karen Simonyan，Andrew Zisserman，Koray Kavukcuoglu.空间Transformer网络。神经信息处理系统进展，2017-2025页，2015年。2[14] 全允浩和金俊模。活动卷积：学习图像分类卷积的形状。在IEEE计算机视觉和模式识别会议论文集，第4201-4209页，2017年。2[15] Xu Jia，Bert De Brabandere，Tinne Tuytelaars，and LucV Gool.动态过滤网络。神经信息处理系统的进展，第667-675页，2016年。3[16] Yingying Jiang， Xiangyu Zhu ，Xiaobing Wang ，ShuliYang，Wei Li，Hua Wang，Pei Fu，and Zhenbo Luo.R2CNN ：用于方向鲁棒场景文本检测的旋转区域CNN。arXiv预印本arXiv：1706.09579，2017。6[17] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[18] 黑律和贾登。Cornernet：将对象检测为成对的关键点。在欧洲计算机视觉会议论文集，第734-750页，2018年。2[19] Shuai Li，Lingxiao Yang，Jianqiang Hua，Xian-ShengHua，and Lei Zhang.用于单镜头目标检测的动态锚点特征选择。在IEEE计算机视觉国际会议论文集，第6609-6618页，2019年。2[20] 李翔、王文海、胡小林、杨剑。选择性内核网络。在IEEE计算机视觉和模式识别会议论文集，第510-519页，2019年。2[21] Minghui Liao，Zhen Zhu，Baogang Shi，Gui-song Xia，and Xiang Bai.面向场景文本检测的旋转敏感回归。在IEEE计算机视觉和模式识别集，第59097[22] 林宗义、多拉尔、葛希克、何凯明、哈里哈兰、贝隆吉.用于对象检测的特征金字塔网络。在IEE

下载后可阅读完整内容，剩余1页未读，立即下载