行人检测中使用CNN的相关工作及特征可视化研究

134 浏览量更新于2023-10-12 收藏 12.11MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Discriminative Feature Transformation for Occluded Pedestrian DetectionChunluan Zhou1,2,4∗Ming Yang3Junsong Yuan41Baidu Research 2Wormpex AI Research 3Horizon Robotics 4State University of New York at Buffalochunluan.zhou@bianlifeng.comm-yang4@u.northwestern.edujsyuan@buffalo.eduAbstractDespite promising performance achieved by deep con-volutional neural networks for non-occluded pedestrian de-tection, it remains a great challenge to detect partially oc-cluded pedestrians. Compared with non-occluded pedes-trian examples, it is generally more difﬁcult to distinguishoccluded pedestrian examples from backgrounds in featuespace due to the missing of occluded parts. In this paper, wepropose a discriminative feature transformation which en-forces feature separability of pedestrian and non-pedestrianexamples to handle occlusions for pedestrian detection.Speciﬁcally, in feature space it makes pedestrian exam-ples approach the centroid of easily classiﬁed non-occludedpedestrian examples and pushes non-pedestrian examplesclose to the centroid of easily classiﬁed non-pedestrian ex-amples. Such a feature transformation partially compen-sates the missing contribution of occluded parts in featurespace, therefore improving the performance for occludedpedestrian detection. We implement our approach in theFast R-CNN framework by adding one transformation net-work branch. We validate the proposed approach on twowidely used pedestrian detection datasets: Caltech andCityPersons. Experimental results show that our approachachieves promising performance for both non-occluded andoccluded pedestrian detection.1. IntroductionPedestrian is a core module for a wide range of applica-tions such as video surveillance, robotics and autonomousdriving. With the development of deep convolutional neu-ral networks (CNNs), the performance of pedestrian de-tection has been signiﬁcantly improved in recent years[4, 38, 3, 14, 39, 31, 34, 12, 40, 27]. As pointed out in[41, 44], although reasonably good performance has beenachieved for detecting non-occluded pedestrians, existingapproaches still have difﬁculty in detecting partially oc-cluded pedestrians. It is generally more challenging to de-∗The work was done during Chunluan’s visit at Baidu and UB(a)(b)(c)Figure 1. Motivation. (a-b) Occluded and non-occluded pedes-trian examples. Green and red boxes represent non-occluded andoccluded pedestrian examples respectively.(c) Discriminativefeature transformation.(Left) Before transformation, occludedpedestrian examples are difﬁcult to be distinguished from back-grounds. The black line represents the classiﬁcation boundary.Inside the green ellipse are easy non-occluded pedestrian exam-ples and inside the yellow ellipse are easy background examples.(Right) After transformation, occluded pedestrian examples aremoved close to the positive reference and background examplesare pushed towards the negative reference.tect a pedestrian when some of its parts are occluded, asillustrated in Fig. 1(a-b). Occlusions occur frequently inpractical applications. For example, on a street pedestriansare often occluded by other objects like poles or cars andmay also be occluded by each other when walking closely.Therefore, it is essential for a pedestrian detector to handle9557occlusions robustly.For full-body pedestrian detectors [11, 4, 37, 38, 3,39, 2, 34], clutters introduced by occlusions within full-body region proposals could degrade detection performanceon occluded pedestrians, especially heavily occluded ones.To handle this issue, most occlusion handling approaches[17, 15, 20, 18, 29, 42, 43, 16, 40] adopt a strategy of learn-ing and integrating a set of part detectors. They assume thatwhen a pedestrian is occluded, some part detectors corre-sponding to visible regions of the pedestrian can still workwell. This strategy exploits part correlations and/or com-plementarity to improve detection performance on occludedpedestrians. Alternatively, a channel-wise attention model[41] is exploited to enhance feature channels activated byvisible parts and suppress the other feature channels. In[12], pixel-wise attention is learned to suppress featuresfrom background regions. These two approaches adaptivelysuppress background noise without using part detectors. Abi-box regression framework [44] handles occlusions by es-timating the full body and visible part of a pedestrian simul-taneously to exploit the complementarity of the two estima-tion tasks. The above occlusion handling methods improvethe robustness to occlusions by exploiting visible parts ofpedestrians, but do not make up for the occluded parts. Incontrast, we argue that besides the visible parts, enhancingpedestrian representations to compensate missing parts infeature space is a feasible way to further improve occludedpedestrian detection.In this paper, we propose a discriminative feature trans-formation to handle occlusions for pedestrian detection.Compared with non-occluded pedestrians, it is usually moredifﬁcult to distinguish occluded pedestrians from back-grounds in feature space, since the representations of oc-cluded pedestrians lack the information from their occludedparts, as illustrated in the left part of Fig. 1(c). The pro-posed feature transformation operates on the representa-tions of pedestrian and non-pedestrian examples to betterseparate them. Speciﬁcally, in feature space it makes pedes-trian examples move close to the centroid of easy non-occluded pedestrian examples (i.e. ones with high classiﬁ-cation scores) and pushes non-pedestrian examples towardsthe centroid of easy non-pedestrian examples (i.e. ones ly-ing far from the classiﬁcation boundary). We refer to thesetwo centroids as positive and negative reference points inour approach. Figure 1(c) illustrates the idea of the pro-posed discriminative feature transformation.Speciﬁcally, we adopt the Fast R-CNN framework [9]to implement our approach. First, we learn a Fast R-CNNdetector which consists of a feature extractor and a detec-tion branch (See Fig. 3(a) for the structure of the Fast R-CNN detector).As in [12], we incorporate an attentionmodule in the feature extractor to suppress background re-gions. The detection branch is placed on top of the feature95580(a)0(b)0(c)0(d)0(e)0(f)0图2. 特征可视化。 (a) 行人候选框。 (b) 注意力图。 (c)应用注意力图之前的行人候选框特征。 (d)应用注意力图之后的行人候选框特征。注意力图抑制了与行人候选框中背景相对应的特征。 (e) 行人候选框的转换特征。 (f)特征空间中易于非遮挡行人示例的质心。转换后的特征与质心相似。在我们的实现中，来自RoI池化层的行人候选框的特征具有7×7×512的维度。这里，我们只显示了512个特征通道中的一个典型特征通道。0提取器用于候选框分类和边界框回归。然后，在检测分支的RoI池化层之上添加一个变换分支。变换分支通过转换RoI池化层中的候选框特征，并使用转换后的特征对行人候选框进行分类。所提出的判别特征变换通过将遮挡部分的行人示例在特征空间中推向未遮挡行人示例的质心来隐式补偿遮挡部分的缺失贡献，如图2所示。据我们所知，这是第一个使用深度CNN在特征空间中通过补偿遮挡部分来处理遮挡的工作。为了证明所提方法的有效性，我们在Caltech[5]和CityPersons[39]数据集上进行了实验。实验结果表明，我们的方法在检测非遮挡和遮挡行人方面取得了有希望的性能。02. 相关工作02.1. 使用CNN进行行人检测0近年来，深度CNN被广泛应用于行人检测，并取得了最先进的性能[34, 13, 27, 40, 12]。在[37, 38,43]中，采用增强学习来学习和组合一组决策树，利用深度CNN的特征形成行人检测器。为了在检测准确性和速度之间取得平衡，提出了一种增强学习算法[4]，通过考虑不同类型特征的计算成本和区分能力，学习复杂度感知级联。在[1]中，提出了一种不同模型大小的深度CNN级联，通过使用微型CNN首先过滤大量负候选框，实现实时行人检测和95590然后将剩余的候选框传递给大型CNN进行准确的分类。为了快速准确地检测多尺度行人，通过调整单阶段检测器YOLO[22]，设计了多尺度CNN [3,13]。在[30]中，提出了一种任务辅助CNN，利用行人属性和场景属性来提高行人检测性能。为了应对小行人，提出了一种完全卷积神经网络，用于定位拓扑线（连接头部和行人两脚中间点的线），而不是边界框[27]。在[14, 36, 39, 32,2]中，采用了Fast R-CNN [9]或Faster R-CNN[23]进行行人检测。在本文中，我们采用FastR-CNN框架来处理遮挡。02.2. 利用分割辅助行人检测0在一些作品中[14, 6, 2,12]，语义分割被用于改善行人检测的性能。在[14]中证明，将CNN特征与分割图集成可以提高行人检测的准确性。在[6]中，通过后处理方式利用分割掩码来校准深度CNN输出的分类分数，以实现鲁棒的行人检测。提出了一种分割融合网络[2]，利用分割损失隐式增强前景区域的CNN特征并抑制背景区域的CNN特征。在[12]中，通过监督分割生成多尺度注意力图，以抑制特征图中的背景区域。[2]和[12]都使用框级注释生成弱标准的训练真值掩码。在我们的方法中，我们也使用框级注释来学习一个注意力图，以像[12]中一样抑制背景。注意力图可以更好地分离我们方法中使用的正负参考点。02.3. 行人检测中的遮挡处理0由于在实际应用中的重要性，行人检测中的遮挡处理引起了研究人员的极大关注。学习和集成一组部件检测器[35, 25, 8, 7, 17, 15, 20, 18, 42, 29, 43,16,40]是处理各种遮挡的广泛采用的解决方案。这些方法中使用的部件通常是手动设计的，可能不是最优的。对于使用大量独立学习的部件检测器的方法[15,29,42]，应用学习到的部件检测器的计算成本可能成为实时行人检测的瓶颈。在[43]中提出了一种多标签学习方法，以便联合学习部件检测器，以利用部件之间的相关性并减少计算成本。在[18, 16,40]中，部件检测器在单个深度卷积神经网络中进行学习和集成，后端由所有部件检测器共享，这可以大大减少检测时间。[42]中探索和比较了几种部件检测器集成方法。在[33]中，行人被建模为一个由块组成的矩形模板，并通过估计这些块的可见性状态来进行遮挡推理。一些方法[19, 28, 21,34]专门设计用于处理多个行人相互遮挡的遮挡情况。特别地，最近的工作[34]采用排斥损失来训练深度卷积神经网络，以提高拥挤场景中的行人定位精度，并取得了有希望的性能。一个双边框回归框架[44]通过同时估计行人的完整身体和可见部分来处理遮挡，以利用两个估计任务的互补性。在[41,12]中，采用注意力机制来抑制特征空间中的背景区域和/或增强前景区域，以处理遮挡。可变形部件模型[10,45]也可以应用于处理行人检测中的遮挡。考虑到遮挡处理的重要性，提出了一个大规模数据集CrowdHuman [24]，用于人群中的人体检测。0在行人检测中，遮挡处理引起了研究人员的极大关注，因为它在实际应用中非常重要。学习和集成一组部件检测器[35, 25, 8, 7, 17, 15, 20, 18,42, 29, 43, 16,40]是处理各种遮挡的广泛采用的解决方案。这些方法中使用的部件通常是手动设计的，可能不是最优的。对于使用大量独立学习的部件检测器的方法[15, 29,42]，应用学习到的部件检测器的计算成本可能成为实时行人检测的瓶颈。在[43]中提出了一种多标签学习方法，以便联合学习部件检测器，以利用部件之间的相关性并减少计算成本。在[18, 16,40]中，部件检测器在单个深度卷积神经网络中进行学习和集成，后端由所有部件检测器共享，这可以大大减少检测时间。[42]中探索和比较了几种部件检测器集成方法。在[33]中，行人被建模为一个由块组成的矩形模板，并通过估计这些块的可见性状态来进行遮挡推理。一些方法[19, 28, 21,34]专门设计用于处理多个行人相互遮挡的遮挡情况。特别地，最近的工作[34]采用排斥损失来训练深度卷积神经网络，以提高拥挤场景中的行人定位精度，并取得了有希望的性能。一个双边框回归框架[44]通过同时估计行人的完整身体和可见部分来处理遮挡，以利用两个估计任务的互补性。在[41,12]中，采用注意力机制来抑制特征空间中的背景区域和/或增强前景区域，以处理遮挡。可变形部件模型[10,45]也可以应用于处理行人检测中的遮挡。考虑到遮挡处理的重要性，提出了一个大规模数据集CrowdHuman [24]，用于人群中的人体检测。03. 提出的方法03.1. 概述0深度卷积神经网络在非遮挡行人检测方面取得了有希望的性能[34, 12, 13, 40,27]。然而，对于遮挡行人检测，它们的性能仍然远远不够令人满意。为了改善深度卷积神经网络在遮挡行人检测方面的性能，我们提出在深度卷积神经网络中学习一种有区别性的变换，将遮挡行人和背景区域的特征适当地转换，以便更好地区分它们。我们采用快速R-CNN[9]框架来实现我们的方法。我们方法的概述如图3所示。我们方法中使用的网络由三个组件组成：特征提取器、检测分支和变换分支。特征提取器和检测分支形成一个传统的快速R-CNN检测器。快速R-CNN检测器以图像和一组行人提议作为输入，对行人提议进行分类和边界框回归。该分支将行人提议的特征从ROI池化层转换以改善分类。在推理阶段，我们使用检测分支进行定位，使用变换分支进行分类。03.2. 快速R-CNN检测器0我们为行人检测和特征提取学习了一个快速R-CNN检测器。我们使用VGG-16网络[26]的卷积层和一个注意力模块[12]来构建我们的快速R-CNN检测器中的特征提取器。检测分支放置在特征提取器的顶部，用于对行人提议进行分类和细化。NMM95600(a) 网络结构0(b) 注意力模块0(c) 变换模块0我们方法的概述。0它们的位置。注意模块将最后一个卷积层的特征图作为输入，并输出与特征图相同大小的注意力图。注意图中位置的值表示该位置对应的图像区域属于行人的概率。将注意图逐元素地与特征图相乘，以抑制背景区域的特征，如图2(a-d)所示。注意模块的结构如图3(b)所示。它由三个具有128个通道的5x5卷积层、一个具有1个通道的1x1卷积层和一个sigmoid层组成。由于像素级别的注释通常在行人检测数据集中不可用，我们使用边界框注释来生成用于学习注意模块的粗糙的地面真值分割图。对于每个训练图像，地面真值行人边界框内的像素标记为1，其他像素标记为0。将地面真值分割图缩放到与Conv5层的特征图具有相同的大小。设¯Si和Si分别为第i个训练图像的地面真值分割图和预测的注意力图（来自Sigmoid层的输出）。我们使用以下欧氏损失来学习注意模块0L attn = 10i =1 ||¯Si - Si||^2_2, (1)0其中N是训练图像的数量。与[9]中一样，我们使用交叉熵和平滑的L1损失来学习检测分支中的行人提议分类器和边界框回归器。设Pi = (Pxi, Pyi, Pwi,Phi)为一个行人提议，其中Pxi和Pyi指定了Pi在图像中心的坐标，Pwi和Phi是Pi的宽度和高度，重新定义0分别。行人提议Pi与标签ci∈{0,1}相关联。如果存在至少一个与Pi的交并比(IOU)不小于0.5的地面真值行人示例，则将Pi视为正提议(ci =1)。否则，将其视为负提议(ci = 0)。设pi = (p0i,p1i)为行人提议分类器的输出，其中p1i和p0i = 1 -p1i分别表示行人提议Pi包含和不包含行人的概率。我们使用以下损失来学习行人提议分类器0L cls1 = 10i =1 - log(p�i), (2)0其中M是行人提议的数量，p�i = p0i if ci = 0 and p�i = p1iotherwise。边界框回归器通过输出偏移量fi = (fxi, fyi, fwi,fhi)来细化Pi的位置0F x = P x + P w fx, F y = P y + P h fy,0F w = P w exp(fw), F h = P h exp(fh). (3)0设¯fi = (¯fxi, ¯fyi, ¯fwi,¯fhi)为地面真值回归目标。我们使用以下损失来学习边界框回归器0L reg = 10i =1 c0�∈{x, y, w, h} 平滑的L 1(¯f�i - f�i), (4)0其中s ∈ R0平滑的L 1(s) = {0.5s^2 if |s| < 1; |s| - 0.5otherwise. (5)0我们通过最小化以下加权损失来学习Fast R-CNN检测器0L 1 = L cls1 + L reg + λ 1 L attn, (6)R+ =1|H+|∑H∈H+H,(7)R− =1|H−|∑H∈H−H,(8)Ltrans = 1MM∑i=1cid+i + (1 − ci)d−i ,(9)withd+i =K∑k=1SmoothL1(HTi (k) − R+(k))(10)d−i =K∑k=1SmoothL1(HTi (k) − R−(k)),(11)Lcls2 = 1MM∑i=1− log(q∗i ),(12)L2 = Lcls2 + λ2Ltrans,(13)95610其中λ1经验地设置为0.000005。更多关于FastR-CNN的细节，请参考[9]。03.3. 判别特征转换0在学习了FastR-CNN检测器之后，我们使用RoI池化层的特征来表示行人提案。通常情况下，从特征空间中区分遮挡行人和非遮挡行人比从背景中区分更困难，因为遮挡部分的视觉细节缺失。为了更好地对遮挡行人和背景进行分类，我们在FastR-CNN检测器中添加了一个转换分支，如图3(a)所示。该分支由一个转换模块和一个分类器组成，通过转换后的特征对行人提案进行分类。具体而言，我们希望学习一种转换，使得遮挡行人在特征空间中接近于易分的非遮挡行人，而困难的负面提案在特征空间中接近于易分的负面提案。为了实现这一目标，我们首先在特征空间中生成两个参考点 R + 和 R− ，分别用于正面提案和负面提案。设 H i是来自RoI池化层的行人提案 P i的特征。在我们的实现中，H i 是一个 K = 7 × 7 × 512维的特征向量。设 o i 是 P i与同一图像中地面真实行人示例的最大IOU，v i 是 P i与具有最高IOU的行人示例的可见性比例。我们从FastR-CNN检测器中收集一组具有高分类分数且与至少一个非遮挡行人示例有较大重叠的正面提案。设 H +是由这些正面提案的特征组成的集合，H + = { H i | p 1 i ≥s 1 , v i = 1.0 且 o i ≥ τ 1 }，其中阈值 s 1 和 τ 1分别设置为 0.9 和 0.7。我们通过以下方式定义 R + ：0其中 H + 中的特征点是 H +中特征点的质心。类似地，我们从不与任何地面真实行人示例具有较大IOU的易分负面提案中收集一组特征，其中阈值s 2 和 τ 2 分别设置为 0.01 和 0.1。参考点 R −的定义如下：0其中 H − 中的特征点是 H − 中特征点的质心。设 H T i 是H i的转换后的特征。我们使用以下损失函数学习转换模块：0和0其中 H T i ( k ) 是 H T i 中的第 k个特征。方程（9）中的转换损失使得遮挡行人的特征接近于训练过程中从非遮挡行人生成的参考点 R +。它在特征空间中隐式地补偿了遮挡部分的缺失信息，如图2所示。参考点 R −将负面提案吸引到远离正面提案，以更好地将它们分开。我们通过交叉熵损失函数在转换分支中学习分类器。0其中 q i = ( q 0 i , q 1 i ) 是分类器输出的概率，q � i = q 0i（如果 c i = 0）或 q � i = q 1i（否则）。转换分支的损失函数定义如下：0其中 λ 2 设置为 0.1 经验性地。03.4. 训练0我们分两步训练网络。第一步，我们训练FastR-CNN检测器。FastR-CNN检测器的网络权重使用预训练的VGG-16网络[26]进行初始化，然后通过最小化等式(6)中的损失函数来更新。第二步，我们首先使用FastR-CNN检测器中的特征提取器生成正负质心，然后通过最小化等式(13)中的损失函数来学习变换分支的权重。在这个阶段，Fast R-CNN检测器的权重是固定的。04. 实验0为了证明我们方法的有效性，我们在两个常用的行人检测数据集Caltech [5]和CityPersons[39]上进行实验。除了提出的判别性变换(DT)外，我们还实现了两个变种，分别是只在训练变换分支时使用正样本和负样本的变种。我们在接下来的章节中将这两个变种分别称为PT和NT。0.78.3/11.7/38.47.9/12.2/37.97.9/12.3/38.10.858.4/12.8/38.38.4/12.7/38.48.2/11.8/38.11.08.2/12.6/38.48.2/12.0/38.08.3/12.0/38.00.78.3/12.9/38.38.5/12.1/37.67.8/12.5/38.40.88.2/12.6/38.48.3/12.2/37.58.4/12.9/38.30.98.0/12.2/37.98.3/12.8/37.88.2/11.8/37.6956204.1. 在Caltech上的实验0Caltech数据集[5]包含由安装在车辆上的摄像头拍摄的11组视频。这些视频分为两组：视频集S0-S5用于训练，视频集S6-S10用于测试。在这个数据集中，大约有2300个独特的行人，超过70%的独特行人在至少一个帧中被遮挡。这个数据集使用一些评估设置来评估行人检测方法的不同方面。由于我们的方法是用于处理遮挡，我们在三个设置中评估它：合理设置、部分设置和严重设置。在合理设置中，只有高度至少为50像素且遮挡不超过35%的行人样本用于评估。这个设置是评估行人检测方法最常用的设置。在部分设置和严重设置中，用于评估的行人也具有至少50像素的高度，但是遮挡范围不同。部分设置中的遮挡范围为1-35%，而严重设置中的遮挡范围为36-80%。严重设置是这三个设置中最困难的。在每个评估设置中，检测性能通过在对数空间中均匀间隔的9个每图假阳性(FPPI)点上的漏检率的平均值来总结，这些点均匀分布在[10^-2, 10^0]的对数空间中。04.1.1 实现0我们从训练视频集S0-S5中以3帧的间隔采样训练图像，结果是一个10倍的训练集，这是常见的做法[38, 39, 32, 43, 2,41, 44, 12, 27]。按照[43,44]的方法，我们选择高度至少为50像素且遮挡不超过70%的真实行人样本作为正样本。对于行人候选框生成，我们在训练集上训练了一个RPN[38]。每张图像收集约1000个用于训练的行人候选框和约400个用于测试的行人候选框。我们使用SGD训练网络90000次。学习率初始设为0.0005，在45000次迭代后按10的倍数减小。我们将批量大小设置为160，前景-背景比例为1:3。04.1.2 结果0表1显示了我们方法和一些基准方法的结果。FRCN和FRCN+A是两个没有和有注意模块的FastR-CNN检测器，分别。在合理设置、部分设置和严重设置中，FRCN+A相对于FRCN的改进分别为0.7%、1.1%和4.6%。在严重设置中的改进是显著的，这证明了注意模块在抑制严重遮挡行人的背景干扰方面的有效性。从比较中可以看出，我们的方法在所有设置中都优于其他基准方法。0方法（%）合理部分重0FRCN 9.5 16.2 44.30FRCN+A 8.8 15.1 39.70FRCN+A+NT 8.5 14.9 39.20FRCN+A+PT 8.4 13.1 38.70FRCN+A+TB 9.1 14.4 39.10FRCN+A+DT 8.0 12.2 37.90表1.Caltech数据集上不同方法的结果。表中的数字表示对数平均错误率（较低为更好）。0τ1/τ2 0 0.1 0.20表2.Caltech数据集上不同τ1和τ2的结果。这些实验中使用s1=0.9和s2=0.01。0s1/s2 0.01 0.1 0.20表3.Caltech数据集上不同s1和s2的结果。这些实验中使用τ1=0.7和τ2=0.1。0在FRCN+A和FRCN+A+NT之间的比较中，我们可以看到NT对FRCN+A的贡献很小，表明仅对负例特征进行转换的学习转换分支并没有太大帮助。FRCN+A+PT在三个设置中分别比FRCN+A提高了0.4%、2.0%和1.0%的性能。部分和重的改进更为显著，表明通过转换分支补偿遮挡部分的缺失信息有助于更好地区分遮挡行人和背景杂乱物。DT在PT、NT和DT中实现了最显著的改进。FRCN+A+DT在三个设置中分别比FRCN+A提高了0.8%、2.9%和1.8%的性能。DT为遮挡行人示例补偿了遮挡部分的缺失信息，并迫使负例在特征空间中远离正例，从而实现了最佳性能。我们还实现了一个基准检测器FRCN+A+TB，它将转换分支（TB）添加到FRCN+A中，但不使用特征转换损失，即在公式（13）中将λ2设置为0。FRCN+A+TB与FRCN+A具有相同的网络结构，但仅在性能上略有改善，表明所提出的判别性转换主要负责性能改进，而不是具有更多层的分类头。转换损失（公式9）作为正则化减少过拟合，并指导模型训练收敛到更好的解决方案。95630方法（%）遮挡合理部分重0CompACT-Deep [4] 11.7 25.1 65.80SA-FastRCNN [11] 9.7 24.8 64.40MS-CNN [3] 10.0 19.2 59.90RPN+BF [38] 9.6 24.2 74.40F-DNN [6] 8.6 15.4 55.10PCN [32] 8.4 16.1 55.80F-DNN+SS [6] 8.2 15.1 53.80TLL(MRF) [27] 8.0 − −0SDS-RCNN [2] 7.4 14.9 58.50DeepParts [29] � 11.9 19.9 60.40JL-TopS [43] � 10 16.6 49.20FRCN+ATT-vbb [41] � 10.3 − 45.20PDOE+RPN [44] � 7.6 13.3 44.40GDFL [12] � 7.8 − 43.20FRCN+A+DT（我们的方法）� 8.0 12.2 37.90表4.Caltech数据集上与最先进方法的比较。表中的数字表示对数平均错误率（较低为更好）。Occ列表示一个方法是否设计用于处理遮挡。0接下来，我们分析不同的正负质心对提出的方法FRCN+A+DT的影响。我们对重叠阈值τ1/τ2和分数阈值s1/s2进行不同设置的实验，用于确定正负质心。表2显示了不同τ1/τ2的结果。合理/部分/重的设置中的错误率分别在8.0±0.4/12.2±0.6/37.9±0.5的范围内。表3显示了不同s1/s2的结果。在这三个设置中，错误率分别为8.0±0.5/12.2±0.7/37.9±0.5。总体而言，我们的方法在不同τ1/τ2和

下载后可阅读完整内容，剩余1页未读，立即下载