没有合适的资源?快使用搜索试试~ 我知道了~
SCRDet: 小型、杂乱和旋转目标的鲁棒性检测方案
{yangxue-2019-sjtu, yanjunchi}@sjtu.edu.cn{yangjirui16, zhangtengfei16}@mails.ucas.ac.cnzhangyue@aircas.ac.cn{guozhi, sunxian, fukun}@mail.ie.ac.cn1. Introduction∗Corresponding author is Junchi Yan.The work is partiallysupported by National Key Research and Development Program ofChina (2016YFB1001003), STCSM (18DZ1112300), NSFC (61602176,61725105, 41801349).been achieved on a few benchmarks including COCO [24]and VOC2007 [9] etc. However, most existing detectors donot pay particular attention to some useful aspects for ro-bust object detection in open environment: small objects,cluttered arrangement and arbitrary orientations.In real-world problems, due to limitation of camera res-olution and other reasons, the objects of interest can be ofvery small size e.g. for detection of traffic signs, tiny facesunder public cameras on the streets. Also, the objects canrange in a very dense fashion e.g. goods in shopping malls.Moreover, the objects can no longer be positioned horizon-tally as in COCO, VOC2007, e.g. for scene text detectionwhereby the texts can be in any direction and position.In particular, the above three challenges are pronouncedfor images in remote sensing, as analyzed as follows:1) Small objects. Aerial images often contain small ob-jects overwhelmed by complex surrounding scenes;2) Cluttered arrangement. Objects for detection areoften densely arranged, such as vehicles and ships;3) Arbitrary orientations. Objects in aerial images canappear in various orientations. It is further challenged by thelarge aspect ratio issue which is common in remote sensing.In this paper, we mainly discuss our approach in the con-text of remote sensing, while the approach and the problemsare general and we have tested with various datasets beyondaerial images as will be shown in the experiments.Many existing general-purpose detectors such Faster-RCNN [31] have been widely employed for aerial objectdetection. However, the design of such detectors are oftenbased on the implicit assumption that the bounding boxesare basically in horizontal position, which is not the casefor aerial images (and other detection tasks e.g. scene textdetection). This limitation is further pronounced by the pop-ular non-maximum suppression (NMS) technique as post-82320SCRDet: 面向小型、杂乱和旋转目标的更强鲁棒性检测0杨雪 1 , 2 , 3 , 4 , 杨继锐 2 , 严俊驰 3 , 4 , � , 张悦 1 , 张腾飞 1 , 20郭志 1 , 孙贤 1 , 付坤 1 , 201 中国科学院电子学研究所, 北京 (苏州), 中国. 2 中国科学院大学, 北京, 中国. 3上海交通大学计算机科学与工程系. 4 上海交通大学人工智能研究所,教育部人工智能重点实验室.0摘要0目标检测是计算机视觉中的基础任务之一。尽管取得了相当大的进展,但对于尺寸小、方向任意和分布密集的目标仍然存在挑战。除了自然图像外,这些问题在航空图像中尤为突出且非常重要。本文提出了一种针对小型、杂乱和旋转目标的新型多类别旋转检测器,即SCRDet。具体而言,设计了一种融合多层特征和有效锚点采样的采样融合网络,以提高对小型目标的敏感性。同时,通过抑制噪声和突出目标特征,联合探索了监督像素注意力网络和通道注意力网络,用于小型和杂乱目标检测。为了更准确地估计旋转,将IoU常数因子添加到平滑L1损失中,以解决旋转边界问题。在两个遥感公共数据集DOTA、NWPUVHR-10以及自然图像数据集COCO、VOC2007和场景文本数据集ICDAR2015上进行了大量实验,结果显示了我们检测器的最先进性能。代码和模型将在https://github.com/DetectionTeamUCAS上提供。082330图1:SCRDet包括针对小型和杂乱对象的SF-Net、MDA-Net以及针对旋转对象的旋转分支。0处理时,它会抑制任意方向上水平线上密集排列对象的检测。此外,基于水平区域的方法在方向估计上具有粗糙的分辨率,而方向估计是提取遥感信息的关键。我们提出了一种针对小型、杂乱和旋转对象的新型多类别旋转检测器,称为SCRDet,旨在解决以下问题:1)小型对象:设计了一个采样融合网络(SF-Net),它结合了特征融合和更精细的锚点采样;2)嘈杂的背景:开发了一个监督的多维注意力网络(MDA-Net),它由像素注意力网络和通道注意力网络组成,以抑制噪声并突出前景;3)任意方向上的杂乱和密集对象:通过引入与角度相关的参数进行估计,设计了一个角度敏感网络。将这三种技术作为一个整体,我们的方法在包括两个遥感基准数据集DOTA和NWPUVHR-10在内的公共数据集上实现了最先进的性能。本文的贡献包括:1)针对小型对象,设计了一个定制的特征融合结构,通过特征融合和锚点采样实现;2)针对杂乱的小型对象检测,开发了一个监督的多维注意力网络,以减少背景噪声的不利影响;3)为了更加鲁棒地处理任意旋转的对象,通过添加IoU常数因子改进了平滑L1损失,该损失专门用于解决旋转边界框回归的边界问题;4)更重要的是,在第4.2节中,我们展示了所提出的技术是通用的,也可以应用于自然图像并与通用检测算法相结合,通过组合超越了最先进的方法或进一步改进了现有方法。02. 相关工作0现有的检测方法主要假设检测对象位于图像的水平线上。在开创性的工作[12]中,提出了一种用于基于区域的检测的多阶段R-CNN网络,并在准确性和效率方面进行了一系列改进,包括Fast R-CNN [11]、Faster R-CNN[31]和基于区域的全卷积网络(R-FCN)[5]。在0另一方面,最近也有一系列直接回归边界框的作品,例如Single-Shot Object Detector (SSD) [26]和You only lookonce (YOLO) [30],从而提高了速度。0如上所述,小型对象、密集排列和任意旋转是具有挑战性的场景。然而,尽管这些问题在实践中非常重要,但上述检测器并没有特别解决这些问题。特别是对于航空图像,由于其对国家和社会的战略价值,人们也努力开发了专门的遥感方法。在[14]中开发了R-P-FasterR-CNN框架用于小型对象。[40]将可变形卷积层[6]和R-FCN结合起来,以提高检测准确性。最近,[40]的作者采用自顶向下和跳跃连接来生成单个高级特征图,具有细分辨率,提高了可变形FasterR-CNN的性能。然而,这种基于水平区域的检测器在尺度、方向和密度方面仍然面临挑战,需要更加有原则的方法来解决水平区域检测的设置之外的问题。另一方面,有一系列关于遥感的工作,用于检测任意方向上的对象。然而,这些方法通常针对特定的对象类别进行定制,例如车辆[36]、船只[41, 42, 28, 43,27]、飞机[25]等。虽然最近有一些多类别旋转区域检测模型的方法[2,8],但它们缺乏处理小尺寸和高密度的原则方法。0与自然图像的检测方法相比,场景文本检测的文献[19,29]通常更加关注物体的方向。然而,这样的方法在处理基于航空图像的目标检测时仍然存在困难:一个原因是大多数文本检测方法仅限于单类别目标检测[44, 34,7],而在遥感中往往需要区分许多不同的类别。另一个原因是航空图像中的物体通常比场景文本更加接近,这限制了基于分割的检测算法[7,44]在此类图像上的适用性,尽管在场景文本上效果良好。此外,通常存在大量密集分布的物体,需要高效的检测方法。0本文综合考虑了上述所有方面。82340(b)S A = 8 图2:使用不同的锚点步幅S A进行锚点采样。橙黄色边界框表示锚点,绿色表示真实边界框,红色框表示与真实边界框具有最大IoU的锚点。0并提出了一种针对多类别任意方向航空图像目标检测的原则性方法。03. 提出的方法0首先,我们概述了我们的两阶段方法,如图1所示。在第一阶段,通过添加SF-Net和MDA-Net,期望特征图包含更多的特征信息和更少的噪声。由于角度参数的位置敏感性,该阶段仍然回归水平框。通过改进的五参数回归和旋转非最大值抑制(R-NMS)操作,我们可以在任意旋转下获得最终的检测结果。03.1. 更精细的采样和特征融合网络0在我们的分析中,检测小物体存在两个主要障碍:不足的物体特征信息和不充足的锚点样本。原因是由于使用了池化层,小物体在深层中失去了大部分特征信息。同时,高层特征图的较大采样步幅往往会直接跳过较小的物体,导致采样不足。特征融合。一般认为低层特征图可以保留小物体的位置信息,而高层特征图可以包含更高级的语义线索。特征金字塔网络(FPN)[23],自顶向下调制(TDM)[35]和具有物体性先验网络的反向连接(RON)[21]是常见的特征融合方法,它们以不同的形式结合了高低层特征图。更精细的采样。不足的训练样本和不平衡会影响检测性能。通过引入预期的最大重叠(EMO)分数,[45]中的作者计算了锚点和物体之间的预期最大交并比(IoU)。他们发现锚点的步幅(S A)越小,EMO分数越高。0图3:SF-Net。F3具有较小的S A,同时充分考虑特征融合和对不同尺度的适应性。0统计学上导致所有对象的平均最大IoU改善。图2显示了给定步幅为16和8的小对象采样的结果。可以看出,较小的S A可以更好地采样更多高质量的样本,很好地捕捉到小物体,这对于检测器的训练和推理都有帮助。0基于上述分析,我们设计了更精细的采样和特征融合网络(SF-Net),如图3所示。在基于锚点的检测框架中,S A的值等于特征图相对于原始图像的缩小因子。换句话说,SA的值只能是2的指数倍。SF-Net通过改变特征图的大小来解决这个问题,使得S A的设置更加灵活,以便进行更自适应的采样。为了减少网络参数,SF-Net只使用Resnet[16]中的C3和C4进行融合,以平衡语义信息和位置信息,忽略其他不太相关的特征。简单来说,SF-Net的第一个通道对C4进行上采样,使得其S A =S,其中S是期望的锚点步幅。第二个通道也对C3进行相同大小的上采样。然后,我们将C3通过一个inception结构,扩大其感受野并增加语义信息。inception结构包含多种比例的卷积核,以捕捉物体形状的多样性。最后,通过两个通道的逐元素相加,得到一个新的特征图F3。表1显示了在不同S A 下的DOTA检测准确率和训练开销。我们发现最佳的SA 取决于具体的数据集,特别是...Due to the complexity of real-world data such as aerialimages, the proposals provided by RPN may introduce alarge amount of noise information, as shown in Fig. 4b. Ex-cessive noise can overwhelm the object information, and theboundaries between the objects will be blurred (see Fig. 4a),resulting in missed detection and increasing false alarms.Therefore, it is necessary to enhance the object cues andweaken the non-object information. Many attention struc-tures [18, 17, 37, 38] have been proposed to solve problemsof occlusion, noise, and blurring. However, most of themethods are unsupervised, which have difficulty to guidethe network to learn specific purposes.To more effectively capture the objectness of small ob-jects against complex background, we design a supervisedmulti-dimensional attention leaner (MDA-Net), as shownin Fig. 5. Specifically, in the pixel attention network, thefeature map F3 passes through an inception structure withdifferent ratio convolution kernels, and then a two-channelsaliency map is learned (see Fig. 4d) through a convolutionoperation. The saliency map represents the scores of theforeground and background, respectively. Then, SoftmaxThe RPN network provides coarse proposals for the sec-ond stage.In order to improve the calculation speed ofRPN, we take the highest score of 12,000 regression boxesfor NMS operation in the training stage and get 2,000 asproposals. In the test stage, 300 proposals are taken from10,000 regression boxes by NMS.In the second stage, we use five parameters (x, y, w, h, θ)to represent arbitrary-oriented rectangle.Ranging in[−π/2, 0), θ is defined as the acute angle to the x-axis,and for the other side we denote it as w. This definitionis consistent with OpenCV. Therefore, IoU computation onaxis-aligned bounding box may lead to an inaccurate IoUof the skew interactive bounding box and further ruin thebounding box prediction. An implementation for skew IoUcomputation [29] with thought to triangulation is proposedto deal with this problem. We use rotation nonmaximum-suppression (R-NMS) as a post-processing operation basedon skew IoU computation. For the diversity of shapes inthe dataset, we set different R-NMS thresholds for differ-82350(a)0(b)0(c)0(f) 图4:多维注意力网络的可视化。(a) 模糊边界。(b)注意力网络的输入特征图。(c)注意力网络的输出特征图。(d) 显著性图。(e) 二值图。(f)真值。0锚点步长S A 6 8 10 12 14 160OBB mAP (%) 67.06 66.88 65.32 63.75 63.32 63.640HBB mAP (%) 70.71 70.19 68.96 69.09 68.54 69.330训练时间(秒)1.18 0.99 0.76 0.46 0.39 0.330表1:在DOTA上使用18K次迭代进行不同步长S A下的准确率和平均训练开销。03.2. 多维注意力网络0图5:由通道注意力网络和像素注意力网络构成的MDA-Net。0RPN网络为第二阶段提供了粗糙的候选框。为了提高RPN的计算速度,在训练阶段,我们从12,000个回归框中选择最高分数进行NMS操作,得到2,000个候选框。在测试阶段,从10,000个回归框中选择300个候选框进行NMS。在第二阶段,我们使用五个参数(x,y,w,h,θ)来表示任意方向的矩形。θ在[-π/2,0)范围内定义为相对于x轴的锐角,对于另一边,我们将其表示为w。这个定义与OpenCV一致。因此,对于轴对齐的边界框的IoU计算可能导致倾斜交互边界框的IoU不准确,进而破坏边界框的预测。我们提出了一种考虑三角剖分的倾斜IoU计算[29]来解决这个问题。我们使用旋转非最大抑制(R-NMS)作为基于倾斜IoU计算的后处理操作。针对数据集中形状的多样性,我们为不同的形状设置了不同的R-NMS阈值。03.3. 旋转分支where x, y, w, h, θ denote the box’s center coordinates,width, height and angle, respectively. Variables x, xa, x′The benchmark DOTA [39] is for object detection in aerialimages. It contains 2,806 aerial images from different sen-sors and platforms. The image size ranges from around800 × 800 to 4, 000 × 4, 000 pixels and contains objects ex-hibiting a wide variety of scales, orientations, and shapes.These images are then annotated by experts using 15 com-mon object categories. The fully annotated DOTA bench-mark contains 188,282 instances, each of which is labeledby an arbitrary quadrilateral. There are two detection tasksfor DOTA: horizontal bounding boxes (HBB) and orientedbounding boxes (OBB). Half of the original images are ran-domly selected as the training set, 1/6 as the validationset, and 1/3 as the testing set. We divide the images into800 × 800 subimages with an overlap of 200 pixels.The public benchmark NWPU VHR-10 [4] contains 10-class geospatial object for detection.This dataset con-82360图6:旋转角度的边界不连续性0不同类别的预测框,锚框和预测框的标签分别为x, y, w, h,θ(同样适用于y, w, h, θ)0tx = (x − xa)/wa, ty = (y − ya)/ha, tw = log(w/wa),th = log(h/ha), tθ = θ − θa (1)0t′x = (x′ − xa)/wa, t′y = (y′ − ya)/ha0t′w = log(w′/wa), t′h = log(h′/ha), t′θ = θ′ − θa (2)0n为1时,t′n03.4. 损失函数0多任务损失定义如下:0L = λ10N0n = 1 Lcls(pn,tn)0j ∈{ x,y,w,h,θ }0Lreg(v′nj, vnj)0| Lreg(v′nj, vnj) ||− log(IoU)|0+ λ20h × w0h0i0j Latt(u′ij, uij) + λ30N0n = 1 Lcls(pn,0(3)其中N表示提议的数量,tn表示对象的标签,pn是通过Softmax函数计算的各类别的概率分布,t′n是一个二进制值(tn=1表示前景,tn=0表示背景,背景没有回归),v′�j表示预测的偏移向量,v�j表示真实目标的目标向量,uij,u′ij分别表示掩码像素的标签和预测,IoU表示预测框和真实框的重叠。超参数λ1,λ2,λ3控制权衡。此外,分类损失Lcls是Softmax交叉熵损失。回归损失Lreg是平滑L1损失,如[11]中所定义的,注意力损失Latt是逐像素的Softmax交叉熵损失。特别地,对于旋转角度存在边界问题,如图6所示。图中显示了回归的理想形式(蓝色框逆时针旋转)0(b) IoU平滑L1损失 图7:两种损失的检测结果比较0对于这种情况的损失非常大,因为角度的周期性。因此,模型必须以其他复杂形式进行回归(例如蓝色框顺时针旋转并缩放w和h),增加了回归的难度,如图7a所示。为了更好地解决这个问题,我们在传统的平滑L1损失中引入了IoU常数因子|− log(IoU)| | Lreg(v′j, vj)|,如下所示0等式3. 可以看出,在边界情况下,损失函数近似等于 |−log( IoU ) | ≈0,消除了损失的突然增加,如图7b所示。新的回归损失可分0Lreg(v′j, vj)0| L reg ( v ′ j ,v j ) | 确定梯度传播的方向0tion,和|−log(IoU)|用于梯度的大小。此外,使用IoU来优化位置精度与以IoU为主导的度量一致,比坐标回归更直观和有效。04. 实验0测试是在一台配备Nvidia Geforce GTX 1080GPU和8G内存的服务器上使用TensorFlow[1]实现的。我们在航空基准和自然图像上进行实验,以验证我们技术的普适性。请注意,我们的技术与特定的网络主干无关。在实验中,我们在遥感基准中使用Resnet-101作为主干,使用FPN和R2CNN分别用于COCO、VOC2007和ICDAR2015。04.1.航空图像上的实验04.1.1数据集和协议R2CNN (baseline) [19]80.9465.6735.3467.4459.9250.9155.8190.6766.9272.3955.0652.2355.1453.3548.2260.67+MDA84.8977.0738.5567.8861.7851.8756.2389.8275.7776.3053.6863.2563.8565.0553.9965.33+SA [45]+MDA81.2776.4938.1669.1354.0346.5155.0389.8069.9275.1157.0658.5162.7059.7248.2062.78+SJ [45]+MDA81.1376.0232.7966.9460.7348.1254.8690.2974.5476.2554.0057.2763.8760.2443.4862.70+BU [45] +MDA84.6375.3442.8468.4763.1153.6957.1390.7076.9375.2855.6358.2864.5767.1049.1965.53+BUS [45]+MDA87.5075.6042.4169.4862.4550.8956.1090.8778.4175.6858.9458.6863.8767.3852.7866.07+DC [45]+MDA87.0176.6642.2568.9562.5553.6256.2290.8378.5475.4958.5457.1763.9966.7757.4366.40+SF+MDA89.6579.5143.8667.6967.4155.9364.8690.7177.7784.4257.6761.3864.2966.1262.0468.89+SF+MDA+IoU89.4178.8350.0265.5969.9657.6372.2690.7381.4184.3952.7663.6262.0167.6261.1669.83+SF +MDA+IoU+P89.9880.6552.0968.3668.3660.3272.4190.8587.9486.8665.0266.6866.2568.2465.2172.61OBBFR-O [39]79.0969.1217.1763.4934.2037.1636.2089.1969.6058.9649.452.5246.6944.8046.3052.93R-DFPN [41]80.9265.8233.7758.9455.7750.9454.7890.3366.3468.6648.7351.7655.1051.3235.8857.94R2CNN [19]80.9465.6735.3467.4459.9250.9155.8190.6766.9272.3955.0652.2355.1453.3548.2260.67RRPN [29]88.5271.2031.6659.3051.8556.1957.2590.8172.8467.3856.6952.8453.0851.9453.5861.01ICN [2]81.4074.3047.7070.3064.9067.8070.0090.8079.1078.2053.6062.9067.0064.2050.2068.20RoI-Transformer [8]88.6478.5243.4475.9268.8173.6883.5990.7477.2781.4658.3953.5462.8358.9347.6769.56SCRDet (proposed)89.9880.6552.0968.3668.3660.3272.4190.8587.9486.8665.0266.6866.2568.2465.2172.61HBBSSD [10]44.7411.216.226.912.0010.2411.3415.5912.5617.9414.734.554.550.531.0110.94YOLOv2 [30]76.9033.8722.7334.8838.7332.0252.3761.6548.5433.9129.2736.8336.4438.2611.6139.20R-FCN [5]79.3344.2636.5853.5339.3834.1547.2945.6647.7465.8437.9244.2347.2350.6434.9047.24FR-H [31]80.3277.5532.8668.1353.6652.4950.0490.4175.0559.5957.0049.8161.6956.4641.8560.46FPN [23]88.7075.1052.6059.2069.4078.8084.5090.6081.3082.6052.5062.1076.6066.3060.1072.00ICN [2]90.0077.7053.4073.3073.5065.0078.2090.8079.1084.8057.2062.1073.5070.2058.1072.501https://captain-whu.github.io/DOTA/82370方法 PL BD BR GTF SV LV SH TC BC ST SBF RA HA SP HC mAP0+像素注意力 81.17 75.23 36.71 68.14 62.33 48.22 55.75 89.57 78.40 76.61 54.08 58.32 63.76 61.94 54.89 64.340表2:我们在DOTA数据集上提出的方法的剖析研究。类别的简称定义为:PL-平面,BD-棒球场,BR-桥梁,GTF-场地赛道,SV-小型车辆,LV-大型车辆,SH-船,TC-网球场,BC-篮球场,ST-储罐,SBF-足球场,RA-环形交叉口,HA-港口,SP-游泳池,HC-直升机。0方法 PL BD BR GTF SV LV SH TC BC ST SBF RA HA SP HC mAP0SCRDet(提出的方法) 90.18 81.88 55.30 73.29 72.09 77.65 78.06 90.91 82.44 86.39 64.53 63.45 75.77 78.21 60.11 75.350表3:DOTA数据集上OBB和HBB任务的性能评估。0包含800个高分辨率(VHR)遥感图像,这些图像是从GoogleEarth和Vaihingen数据集中裁剪并由专家手动注释的。我们使用预训练的ResNet-101模型进行初始化。对于DOTA,模型总共训练300k次迭代,学习率在100k和200k次迭代期间从3e-4变为3e-6。对于NWPUVHR-10,训练数据集、验证数据集和测试数据集的分割比例分别为60%、20%和20%。模型总共训练20k次迭代,学习率与DOTA相同。此外,权重衰减和动量分别为0.0001和0.9。我们使用动量优化器作为优化器,在训练期间除了随机图像翻转之外,不进行任何数据增强。对于参数设置,如第3.1节所讨论的,预期的锚点步幅S设置为6,我们将基本锚点大小设置为256,并将锚点比例设置为2-4。0到2 1。由于DOTA和NWPUVHR-10中的多类别对象具有不同的形状,我们将锚点比例设置为[1/1,1/2,1/3,1/4,1/5,1/6,1/7,1/9]。这些设置确保每个真实边界框都可以被分配为正样本0样本。当IoU > 0.7时,将锚点分配为正样本;当IoU <0.3时,将锚点分配为负样本。此外,由于大纵横比矩形中角度和IoU之间的敏感性,第二阶段的两个阈值都设置为0.4。训练时,两个阶段的小批量大小均为512。方程式3中的超参数设置为λ1 = 4,λ2 = 1,λ3 = 2。04.1.2 消融研究0基准设置。我们选择基于Faster-RCNN的R2CNN[19]作为消融研究的基准,但不限于该方法。为了公平起见,所有实验数据和参数设置都严格一致。我们使用平均平均精度(mAP)作为性能衡量标准。这里报告的DOTA的结果是通过将我们的预测提交给官方的DOTA评估服务器1获得的。MDA-Net的效果。如第3.2节所讨论的,注意力结构有利于抑制噪声的影响并突出对象信息。它也可以(a) SV(b) SH and HA(c) LV(d) PL(e) SP(f) STdataset train/testbaselineMDA-NetMDA-Net†baseline†DOTA trainval/test60.67% (R2CNN)65.33%61.23%65.08%VOC 07+12/0780.39% (FPN∗)82.27%80.53%82.11%82380(l) BD and RA 图8:DOTA上的示例。我们的方法在那些尺寸小、方向任意和密度高的目标上表现更好。0从表2中可以看出,在添加像素注意力网络后,大多数对象的检测结果都得到了不同程度的改善,总mAP提高了3.67%。MDA-Net进一步提高了大纵横比目标(如桥梁、大型车辆、船舶、港口等)的检测精度。与像素注意力相比,MDA-Net将mAP提高了约1%,达到了65.33%。表5显示,监督学习是MDA-Net的主要贡献,而不是计算。SF-Net的效果。减小锚点和特征融合的步幅是提高小目标检测的有效手段。在表2中,我们还研究了[45]中提出的技术。偏移锚点(SA)和偏移抖动(SJ)都遵循使用单个特征点回归多个子区域的边界框的思想。实验证明,这两种策略几乎无法对准确性做出贡献,这与原始论文中的观察结果一致。扩大特征图是减小SA的一种好策略,包括双线性上采样(BU)、带跳跃连接的双线性上采样(BUS)和空洞卷积(DC)。尽管这些方法考虑了对小目标检测的采样重要性,并且它们的检测性能在不同程度上得到了改善,但SA的设置仍然不灵活,无法实现最佳的采样结果。SF-Net有效地模拟了特征融合和SA设置的灵活性,并且它实现了最佳性能,达到了68.89%,特别是受益于车辆、船舶和储罐等小目标的改进。IoU-Smooth L1
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功