基于粗点监控下的目标定位

40 浏览量更新于2023-10-25 收藏 1.54MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

4868单粗点监控下的目标定位YuXuehui1*，PengfeiChenn1，DiWu1，NajmulHassan2，GuorongLi1，Junchi Yan3，Humphrey Shi2，4，Qixiang Ye1，Zhenjun Han1†1中国科学院大学，2俄勒冈大学，3上海交通大学，4Picsart AI Research（PAIR）摘要基于点的目标定位（ Point-basedobjectlocalization，POL）是一种在低成本数据条件下实现高性能目标感知的方法，受到了越来越多的关注。然而，点标注模式不可避免地会因标注点的不一致性而引入语义变异.现有的POL方法严重依赖于难以定义的精确关键点注释。在这项研究中，我们提出了一种POL方法，使用粗糙的点注释，放松监督信号从准确的关键点，以自由点。为此，我们提出了一个粗点细化（CPR）的方法，据我们所知，这是第一次尝试，以减轻从算法的角度来看语义的变化。CPR构造点包，选择语义相关点，并通过多实例学习（MIL）产生语义中心点。通过这种方式，CPR定义了一个弱监督的进化过程，这确保训练高性能的目标定位器粗糙点监督。在COCO、DOTA和我们提出的SeaPerson数据集上的实验结果验证了CPR方法的有效性。数据集和代码将在https://github.com/ucas-vg/PointTinyBenchmark/上获得。1. 介绍人类可以识别并轻松地实现对存在于其视觉中的物体的感觉。在计算机视觉中，这通常被定义为在物体周围绘制边界框[21，25，40，41]或整个场景的密集注释[13，16]。然而，训练这种模型的一个不可避免的情况在某些应用中[27]，只需要对象的位置，而昂贵的注释（例如，边界框）是多余的或者甚至是不期望的（例如，机器人手臂瞄准单个点以拾取物体[27]）。因此，基于点的目标定位（POL）进行了研究。基于点的目标定位由于其简单、快速的特点，在重定位领域受到越来越多的关注*同等贡献。†通讯作者。（hanzhj@ucas.ac.cn）图1.粗糙点标注和语义变化问题的示例。(Best以颜色查看）。年（26，29）。基于POL的方法需要点级对象注释，并且可以将对象但是，在将对象注释为点时，可能存在多个候选点。可选候选点产生的一个问题是，不同语义信息的多个区域对于同一类被标记为阳性。相反，具有相似语义信息的相同区域被不同地标记。以鸟类类别为例，在注释过程中，我们标记了鸟类的不同身体部位（例如，颈部和尾部等。）基于图像中的可见区域而被确定为正。基于注释，对于数据集中的不同图像，我们标记了相同的身体部位（例如，脖子）的鸟作为积极和消极的（见图。1）。因此，在训练期间，模型必须将颈部区域对于一个图像视为阳性，而在另一个图像（其中尾部被注释的图像）中为阴性。这种现象引入了模糊性并混淆了模型，从而导致性能不佳。以前的作品[29，37]通过只注释对象的预定义关键点区域来设置严格的注释规则来解决这个问题。因此，他们面临以下挑战：（一）关键点不容易定义，特别是对于一些广泛定义的类别，他们没有一个特定的形状（图。2（a））; ii）由于物体的不同姿态和不同的相机视图，关键点可能不存在于图像中（图2（a））。 2（b））; iii）当对象具有大尺度方差时，难以确定关键点的适当粒度（图2（b））。第2段（c）分段）。对于一个人来说，如果头部是一个关键点[29]（粗粒度），那么对于4869(a) 不同形状的椅子（b）姿势不同的人。(c)不同大小的人。图2.关键点标注的难点。(a)由于形状的类内方差很大，因此很难定义关键点(b) 关键点（例如：头）由于多个姿势和视图而不存在。（c）由于多尺度，关键点大型实例（注释眼睛还是鼻子）。如果眼睛被标记为关键点[37]（细粒度），则无法识别小规模实例的眼睛位置。这就需要复杂的标注规则从标注的角度来解决语义差异问题，这就大大增加了标注的难度和人工负担。因此，上述挑战限制了先前的POL方法探索多类和多尺度数据集（例如，COCO或DOTA）。在本文中，我们制定了粗糙的基于点的本地化（CPL）的范例，用于训练一般POL的定位器，如图所示。3.第三章。我们首先采用一种粗点标注策略，它允许标注对象上的任何点。然后提出粗点细化算法（CPR），将初始化的带标注粗点细化到训练集中的语义中心。最后，细化的点而不是注释的点被用作监督来训练定位器。所提出的CPR是第一次尝试从算法而不是注释的角度来减轻语义差异。具体而言，CPR通过多实例学习（MIL）[9]找到注释点周围的语义点，然后对语义点进行加权平均，以获得语义中心，该中心具有较小的语义方差和较高的预测错误容忍度。这些贡献是：1) 深入研究了基于点的目标定位（POL）任务，提出了一种用于一般目标定位的粗点定位（CPL）方法，将已有的工作扩展到多类/多尺度POL任务;2) 提出了粗点细化（CPR）算法，从算法的角度而不是严格的标注规则来缓解语义变化;3) 实验结果表明，该方法是有效的对于CPL，其性能与基于中心点（近似关键点）的目标定位相当，与基线相比，性能提高了10个点以上;4) 本文介绍了一个新的数据集，有超过60万个注释，名为SeaPerson。该数据集可用于微小人物检测和定位。2. 相关工作在本节中，我们将回顾相关的基于点的视觉任务和具有多实例学习的视觉任务。2.1. 点监督下的视觉任务姿态估计。人或动物姿态估计旨在准确定位人或动物的关节点位置[31，48，50]。有几个基准建立的任务，例如。COCO [22]和Human3.6M [17]数据集是用于2D和3D姿势估计的最知名数据集，AP-10 k [45]用于动物姿势估计。在这些数据集中，注释是一组准确的关键点，预测结果是人或动物的姿势，而不是人或动物实例的位置。人群计数。在这项任务中，准确的头部注释被用作点监督[29，37，52]。由头部注释生成的人群密度图[15，18，19然而，人群计数关注的是人数，而不是每个人它依赖于精确的关键点，如人的头部，而粗点目标定位任务只需要粗略的位置在人体上的一个符号。对象定位。与对象检测[12，21，25]不同，特别是对于旋转检测[42，43]，需要精确的边界框信息，对象定位应用程序[26]通常与对象的尺度无关作品[26，29]用点而不是绑定框来训练定位器这些任务在我们的论文中被概括为POL然而，它们严重依赖于关键点注释来减少语义变化。与上述任务不同的是，我们的CPL依赖于一个粗略的点而不是关键点，并以一种新的方法处理语义变化问题。2.2. 多实例学习的视觉任务MIL [9]的范例是，如果一个袋子包含至少一个阳性实例，则它被标记为阳性;否则，它被标记为阴性袋子。受弱监督目标检测任务的启发，所提出的CPR方法遵循MIL范式。通过对象类别和粗略的点注释，我们将每个注释点周围的采样点视为一个袋子，并利用MIL进行训练。映像级任务。图像被划分为多个块，块被看作是实例，而整个图像被看作是实例。48701：L←0;∈}← ∈{←∈CPR联系我们∈≤≤ ∈∗Xu0 ·ryu·r0∪图3. CPL的管道分为三个步骤：1）将对象注释为粗点A。2)将注释的点细化到语义中心A。3）训练定位器（例如，P2PNet），并由A/S进行监督。像袋子一样的年龄。基于内容的图像检索[47，49]是一种传统的MIL任务，它只是根据内容对图像进行分类如果图像包含至少一个类别的对象，则整个袋子可以被视为该类别的阳性样本否则，该袋将被视为阴性样本。视频级任务。首先将视频分割成若干段，然后对每段视频进行分类，最后将整个视频作为一个包。在上述预处理之后，MIL用于识别算法1粗点细化输入：训练集D训练，CPRNetE。输出：细化的点A和D序列。注：A和C分别为图像I中标注点的二维坐标和类别标签D训练心肺复苏术2：对于（I，A，C）D列车，3：提取I与E的特征图F;4：//第一步：点采样5：Bj袋采样（aj），对于每个ajA，等式1个;6：针对每个类别k1，2，. K，方程式2个;7：// Step2：CPRNet training8：用Bj和F计算L MIL，方程式7;9：用A和F计算L ann，等式8个;10：用Neg k和F计算L neg，等式10人;11：将LMIL、Lann和Lneg相加以获得CPR损失LCPR，等式3个;12： LD列车 ←LD列车+LCPR;视频[10，24，30]。此外，一些研究人员还...CPR13：结束CPR将MIL应用于视频对象跟踪[1，2]。[2]也通过从盒子构造实例级包来实现鲁棒跟踪器，但与我们的工作不同，它不处理负样本来抑制MIL的背景。图14：通过最小化L_D_t_ain来T_rain_E以获得E_n。15：//第三步：点细化16：ADtrain←{};17：for（I，A，C）∈Dtraindo对象级任务。 MIL被广泛用于弱超声波，十八：十九：A←P点Refinement（E，I，A，C），算法2;ADtain<$ADtain{A};监督目标定位和检测（WSOL [8，38]）和WSOD [4，7，32，34-首先，选择搜索[33]或边缘框[53]方法用于生成提案框，然后将其用作袋子，并且每个都作为实例。最后，他们通过判断图像是否包含至少一个特定类别的对象来对阳性和阴性样本进行分类。WSOL/WSOD只具有图像级标注，由于缺乏对象级标注，只关注局部区域，无法区分实例。CPL的注记是一个粗略的点位置和每个对象的类别CPR将标注点周围的采样点视为一个袋子，并训练对象级MIL以找到更好且稳定的语义中心。3. 粗点细化如图3，CPR可以被认为是将训练集上的注释转换为用于后续任务的更具传导性的形式的预处理。CPR的主要目的是寻找一个语义变异较小、对预测错误容忍度较高的语义点来代替初始标注点。在图4和算法1中，有三个关键步骤，CPR：i）点采样：点在附近的20：结束选择与标注点具有相似语义信息的点作为语义点，然后用它们的得分加权以获得语义中心作为最终的细化点。3.1. 点采样在本文中，K表示类别集的个数，ajR2和cj0，1K表示标注点的二维坐标和第j个实例的类别标号。 p =（p x，p y）表示特征图上的点。点袋建设。在图4中，为了在aj的邻域内均匀地采样点，我们定义了以aj为圆心的R圆，其中第r个圆的半径（1rR，rN+）圆被设置为r。然后我们围绕第r个圆的圆周以等间隔采样ru0（默认情况下u o =8）点，并获得Ci rc le（aj，r）。R圆的所有采样点都被定义为点一袋aj，在等式中表示为Bj。1.一、排除特征图之外的点。圆（p，r）=. πp+r·cosπ2· i，p+注释点采样; ii）CPRNet训练：基于采样点，训练网络来分类是否所述点是否与标注的点属于同一类别;（三）加点：根据CPRNet获得的分数和约束条件（详见第 2节），（3.3）r·sin<$2π·i 、、、|0≤ iR}，其中paj是p和aj 之间的欧几里得距离。w和h是给定特征图的宽度和高度3.2. CPRNet培训本节详细介绍了基于采样点包B j训练CPRNet的目标函数（j1，2，.. M）和负点Neg k（k一二... K），其中M和K是实例的数量和类别。U被定义为Bj中的点的数量。CPRNet. CPRNet采用FPN [20]，ResNet [14]作为骨干。由于点注释中缺少比例信息，因此仅使用P2或P3经过四个3×3卷积层所有类别和类别标签。对象级MIL丢失。为了在细化过程中找到语义点，我们参考WSOD [4]并设计了一个MIL损失，以使CPRNet能够证明Bj中的点是否与a j处于相同的类别中。基于Bj，提取特征向量FppB j. 如等式图5示出了对于每个p B j，应用分类分支fc cls以获得logits[Ocls]p，其然后被用作激活函数σ 1的输入以获得[Scls]p。此外，将实例选择分支fc ins应用于Fp以获得[O ins]p，然后将其用作激活函数σ2的输入以获得选择得分[S ins]p。得分[Sover]p通过以下各项的元素乘积获得：[Sins]p和[Scls]p。然后是ReLU [11]激活，最终的特征图其中h w为相应的空间尺寸，d为通道的维数。对于给定DBJ[Ocls] =fcpCLSBJCLS（Fp）∈RCLSK，[Oins] = fcCLSins（Fp）∈Rk;K点p=（px，py），Fp∈R表示p的特征向量[SB]p=[σ1（OB）]p=1/（1+eBJ）∈R;F. 如果p不是整数点，则双线性插值用于获得Fp.insBj ]p=[σ2（0ins ）]p=einsp//下一页[einsBj]p′∈R;心肺复苏失败。引入了对象级MIL丢失，使CPRNet能够在每个注释点周围找到语义点。然后，克服过度-p′∈Bj[Sover]p= [Sins]p·[Scls]p∈RK，（五）针对MIL在数据不足时的拟合问题，通过设计标注和负损失，进一步引入实例级先验作为监督。CPRNet的[SOJOJ4872目标函数是三种损失的加权和LCPR=LMIL+αannLann+αnegLneg，（3）其中α ann= 0。5和αneg=3（本文默认其中σ2是softmax函数。与WSOD中的MIL不同，sigmoid激活函数适用于σ1，因为与softmax函数相比，它适用于二进制任务。此外，sigmoid激活函数允许对点执行多标签分类（针对多个对象邻域的重叠区域4873BJS=[S]∈R。p（6）联系我们JJJMΣJΣJJJ∈LMIL=MBJ12：B←B{p};袋-水平分数SBj是通过以下等式对B j中的所有点的分数求和而获得的：六、SBj可以看作是p的分类得分[Scls]p的在Bj中由相应的选择得分[Sins]p。算法2点细化输入：训练的CPRNetE，输入图像I，注释点A，注释点的类别标签C。输出：细化点A。B注：δ1、δ2 是门槛。K是类别数Sp，k是SBjK上BJp∈Bj点p的第k个类别上的预测得分。 kj1，2，. K是第j个对象的类别标签（不是独热格式）。最后，MIL损失由预测的袋水平分数SBj和aj的分类标签cj上的焦点损失给出：1Σ1：A←{};2：F←ext ractfeature（I;E）根据第3.2;3：对于aj∈A，cj∈C，4：找到kj∈{1，2，.. K}s. t. kj=1;5：B+←{aj};CLSj=1注释丢失。由于缺乏明确的积极在MIL中进行监督的样本，网络有时会...6：Saj←σ1（fc（Faj;E））∈R;7：Bj ←袋采样（aj），根据等式1个;对实例区域外的点进行cuses，并错误地将它们视为前景。因此，我们介绍-8：对于p∈Bj，9：Sp←σ1（fccls（Fp;E））∈RK;减少注释损失莱恩，这使网络准确-10：sp←Sp，kj;11：如果sp>δ1且sp>δ2，则Saj，kj和通过标注点对阳性样本进行评分，指导MIL训练。Lann可以保证得高分并减轻错误分类，一定程度首先，Sa（j∈kj=argmax1≤k≤KSp，k，并且aj=argmina∈A||p − a||然后J J13：如果结束的计算为：j14：结束一二...M）一个jSAJ=σ1（fccls（FaJ））∈ RK.（八）十五：aj←（p∈B+Sp P）/（Pp∈B+ Sp）;L用焦点损失计算为：16：A←A{aj};安17：结束莱恩=1FL（SMAJj=1，cj）。（九）负损失。传统的MIL采用二进制对数损失，将属于其他类别的建议视为负样本。由于缺乏来自背景样本的明确监督，在MIL训练过程中，负样本没有得到很好的抑制。因此，基于Negk，负损失Lneg，焦点损失的负部分，计算如下，其中我们设置γ=2。K并且kj是第j个对象的分类标签（不是独热格式）。约束II是删除未正确分类的点。具体地，正确的分类意味着点p在given注释的类别kj上的分类得分Sp，kj高于其他类别上的得分。约束III是删除更接近同一类别中其他对象的点。因为同一类别的两个相邻对象可能会相互干扰与三Sp=σ1（fccls（Fp））∈R;K（十）约束，其余的点构成B+，L阴性 =1Mj.j.kγp，k log（1−Sp，k）。加权平均得到语义中心点作为最终的细化点，作为监督点进行训练k=1p∈Negk3.3. 第一千一百零二章点精如算法2中所述，训练的CPRNetE被用于细化注释点。基于由E预测的Bj、[S cls]p和约束（下面给出细节），选择与注释点具有相同类别（相似语义）的点，表示为B+。然后，语义中心（最终细化点），用于取代注释点，被设置为B +中的点的加权平均值。为了得到B+，引入了三个约束（算法2中的蓝线）。约束I是删除具有小分类分数的点我们过滤掉Sp，kj小于阈值δ1（由下式设定为0.1）的点p B jdefault）或δ2∈Saj，kj，其中δ2由de fault设定为0.5P2PNet [29].P2PNet是POL任务的SOTA基线，将在实验部分具体描述。通过上面提到的点采样、CPRNet训练和点细化，CPR可以有效地减轻语义变化，如图1B所示。五、4. 实验4.1. 实验设置数据集。为了进行实验比较，三个公共可用数据集用于点监督定位任务：COCO [22]、DOTA-v1.0 [39]和SeaPerson。COCO是MSCOCO 2017，它有118k训练和5k验证图像，有80个常见类别。由于测试集上的基础事实没有发布，我们在训练集上训练我们的模型，并在验证集上对其进行评估MSJFL（SBj，cj）.（七）K正+ +487441 .一、0联系我们图5. CPR的可视化。注释点（绿色）周围的语义点（红色）被加权平均，以获得语义中心（黄色）作为最终的细化点（见第二节）。3.3）。左边的两张图显示了鸟类多个姿势的结果;右边的三个图像显示了多个类别中的对象的结果。图像是从原始图像（COCO/DOTA）中剪切出来的，以获得更好的效果。DOTA（v1.0）提供了2，806张图像，包含15个对象类别。我们使用训练集进行训练，使用验证集进行评估。SeaPerson1是通过无人机相机在海边收集的微小人员检测数据集。该数据集包含12，032张图像和619，627个低分辨率注释的人。SeaPerson中的图像以10：1：10的比例随机选择作为训练集、验证集和测试集。详情见补充材料。粗点标注在实际应用中，粗点可以通过标注物体上的任意一个点来获得。然而，由于实验中的数据集已经用掩码或边界框进行了注释，根据大数定律，手动注释的点遵循高斯分布是合理的。此外，由于注释点必须在对象的边界框或掩模内，因此使用改进的高斯分布（称为整流高斯（RG）分布）进行注释。选择RG（p; 0，1）来生成实验的点注释。（p;µ，σ）=Gauss（p;µ，σ）·Mask（p）;只要该点落在匹配的地面实况框内，该点就成功地匹配地面实况框）。如果边界框有多个匹配点，则选择具有最高分数的点。当一个点有多个匹配的对象时，将选择点-长方体距离最小的对象如果一个点与一个对象匹配，则计数为真阳性（TP）。否则，计算假阳性（FP）。如果点与注释为忽略的对象匹配，则TP和FP都不会被计数，这遵循行人检测[51]和TinyPerson基准[46] 的评估标准我们采用 τ = 1 的平均精度 . 0（mAPall）作为实验比较的主要指标。我们不考虑小的τ，因为它使任务更像中心定位而不是对象定位。这里我们也报告了τ=0的结果。5，τ=2。表3中的0，可以提供信息。CPRNet的实施细节。我们的代码基于MMDetection[6]。与COCO上对象检测的默认设置相同，随机梯度下降（SGD [5]）算法用于优化1x训练计划。学习率被设置为0.0025，并衰减在第8和第11个时期分别为0.1RG（ p; µ，σ）=1n（p;μ，σ）.p（p;μ，σ）（十一）4.2. 实验比较其中μ和σ分别是高斯分布的平均值和标准差。Mask（p）0，1表示点p是否落在对象的遮罩内。如果它是从边界框注释中生成的，然后该框被视为遮罩。评价与WSOD类似，点和框之间计算的点-框距离用于评估。具体地，点a=（x，y）与边界框b=（xc，yc，w，h）之间的距离d被定义为：带有粗略点注释的POL任务分为两个关键部分：细化所述粗点注释，并用细化的点训练所述点定位器。带伪盒的探测器。为了训练点局部化器，一个直观的想法是将点到点（POL）转换为框到框（对象检测）问题。首先，以每个标注点为中心生成一个固定大小的伪盒。接下来，伪盒用于训练检测器。最后，在推理过程中，盒子的中心点预先由训练的检测器指示的信号被用作最终输出。d（ a，b）=. . x −xc <$2. y −yc2H.（十二）在[26]之后，我们进行了本地化的伪框，并在表1的第1行中给出了性能。不同的-其中（xc，yc），w，h分别是边界框的中心点、宽度和高度距离d用作POL性能的匹配准则。如果距离d小于预定义阈值τ，则点和对象（例如，τ=1。0表示1SeaPerson是一个低分辨率的小人物数据集，从外观上看几乎没有泄露个人隐私。[26]的优点是使用RepPoint [44]而不是更快的RCNN[25]，由于其效率。多类P2PNet。我们采用P2PNet2，在推理过程中对每个对象进行点注释和预测点的改进2在我们的实验中，我们重新实现了P2PNet，并进一步赋予它处理多类预测的新能力，这使我们尽最大努力使结果与原始论文中报道的结果保持一致[29]。W+48751 .一、0−−1 .一、0{}′检测器CocoDotaSeaPersonRetinaNet32.6151.5348.50FasterRCNN35.2951.1547.93RepPoint37.4247.2647.72RetinaNet w. CPR51.3563.6977.90FasterRCNN w. CPR53.2163.0077.80RepPoint w. CPR53.9760.3778.94图6.左上角和右上角的图是相对位置分布（等式2）。14）边界框中的注释点和最终细化点的热图顶部中间的图是细化点的RSV曲线（等式10）。13））在CPRNet训练期间的每个时期。下面的四个图给出了四个时期中的注释点（绿色）和细化点（黄色），显示细化点逐渐收敛到语义中心点。表3.mAP所有更多的架构上的三个数据集。通过这些细化的点作为监督，P2PNet作为点定位器的性能在表1的第3行中给出，其中它说明了语义差异问题。心肺复苏与自精化相比，CPR（如表1的第5行所示）获得了更多的性能增益，表明它对于处理语义变化更有效。为了量化点注释的语义方差，根据点到中心点的相对距离计算的相对语义方差（RSV）x′=xXC;y=Wyyc;HRSV= [V ar（x′）′（十三）表1.三个数据集中定位器的实验比较（mAP all）：COCO、DOTA和SeaPerson。RepPoint是指带有伪框的RepPoint（详细信息请参见第4.2）。POS密耳安neg映射所有1 .一、0映射所有0的情况。5映射所有二、0✓✓✓✓✓✓✓✓✓✓✓✓✓39.0739.4554.2451.8242.7255.4628.3728.2246.5646.2433.0750.2346.9047.4258.9455.6748.8159.49表2.训练损失对CPRNet的影响：MIL损失、注释损失、负损失。POS损失是为了比较。特别是当有多个类别时：本文中P2PNet的主干是Resnet-50而不是VGG 16 [28]。ii）在优化分类器时，我们采用焦点损失，而更好地处理不平衡问题;三）[V ar（y）] 2.其中（x，y）是注释点或细化点，并且（xc，yc）是对象的边界框中的对应中心点。V ar（x′）和V ar（y′）分别是数据集中所有对象的x′和y′统计上，较小的RSV意味着（x，y）保持与其对应的（xc，yc）的更稳定的相对位置，如等式（1）所示。十三岁考虑到（xc，yc）是一个严格的关键点，RSV背后的直觉是，一个类别的小RSV等价于一个严格的标注，可以有效地减少标注的语义差异。如图在图6中，注释的粗点保持较大的RSV，而经由CPR的细化点获得较小的RSV。为了显示边界框中注释点的相对位置分布，我们将Prob（x′，y′）计算为：I{x′j=p′xand yj′=p′y}概率（x′= p，y′= p）=1≤j≤M.平滑-回归使用1001损失而不是1002损失。iv）x yM（十四）在标签分配中，与默认P2PNet中的一对一匹配不同，我们为每个地面实况分配前k个正样本，并将剩余样本视为背景。然后对点进行NMS [23]后处理，以获得最终的点结果。P2PNet的性能，在表1中的第2行中给出，与伪盒（表1中的第1行）相比改进了P2PNet是POL任务的更强基线。自我精炼。为了细化粗点注释，受[3]的启发，我们提出了一种自细化技术，该技术作为一种基于自迭代学习的策略。首先，采用上述伪盒策略训练点定位器。Then, the weighted mean of the points predicted bythe localizer works as the new supervision.最后，得到细化点。其中（x′j，yj′）是数据集中对象j的注释点或细化点的相对位置，如果为真，则I为1，否则为0。Prob（x′，y′）如图2所示六、性能分析。基于伪框的定位器是几乎等同于训练将注释点附近的点视为正样本而将其它点视为负样本的检测器。一般检测器使用IoU执行标签分配，这在很大程度上取决于给定边界框的尺度信息。但是，POL的点标注不能得到精确的包围盒，导致基于伪包围盒的定位器性能不佳。P2PNet采用匈牙利算法实现纯点对点的分配，比基于伪盒的定位器性能更好。然而，P2PNet对注释的准确性非常敏感，1细化定位器CocoDotaSeaPerson--RepPoint公司P2PNET37.4238.4847.2248.3447.7276.52自我完善（我们的）CPR（我们的）P2PNETP2PNET50.8655.4660.3963.8184.9685.864876注释CPR映射所有1 .一、0粗✓38.48粗55.46中心57.47（d）不同的注释。(a) R与P3不同(b) R与P2不同(c) 细化的限制表4.消融研究。(e)不同的脊椎。点和语义差异。因此，点细化策略有效地降低了标注的语义方差能够更好地捕捉语义信息的CPR表现更好。4.3. 消融研究为了进一步分析CPRCPRNet中的训练损失。训练损失的烧蚀研究见表2。表2中第6行给出的CPR损失为55.46 mAP。i）MIL损失。如果去除MIL损失（第4行），CPRNet训练依赖于符号损失和负损失，性能下降3.64得分（51.82vs 55.46）。当我们将MIL损失替换为pos损失时，将MIL包中的所有采样点视为阳性样本（第5行），性能急剧下降12.74点（42.72vs55.46），表明MIL可以自主识别属于对象的点。ii）注释丢失。缺少注释损失（第3行），定位性能降低1.22得分（54.24比 55.46）。注释损失通过给定的准确的积极监督来指导训练。（三）负亏损。在负损失（第2行）的情况下，per-prone提高了16.01点（55.46vs 39.45），表明仅MIL损失不足以抑制背景，负损失是不可避免的。特征映射级别。CPRNet是基于FPN的单级特征映射建立的。表4a和4b显示了不同特征图级别的性能由于P3上的性能与P2的性能相似，如果没有另外指定，则选择P3用于我们在COCO中的实验。抽样范围。表4a和4b显示了不同半径R的性能，其中R是CPRNet中在P3上，当R设置为8时，获得最佳性能55.46如果采样范围减小，例如R=5，则性能显著下降到53.32，因为采样范围限于小的局部区域，导致更差的细化。当范围变大时，性能变得稳定但缓慢下降，直到R超过25（53.85），因为用于MIL的袋Bj引入更多噪声，这降低了性能。积分优化政策。对于点细化，有三个约束（在第2节中描述）。 3.3）。δ1和δ2是约束I的阈值在表4c中，它示出了三个约束一起获得性能增益。上限分析。为了进一步验证CPR，在COCO上进行CPR和基于严格注释的局部化器之间的比较，其可以被视为CPR的上限。由于在一般数据集中很难对对象进行注释（例如，COCO）的关键点。因此，我们近似地使用每个对象的包围盒的中心点表4d中的实验结果表明，CPR可以实现与基于中心点注释的定位器相当的性能（55.46vs 57.47）。定位器架构。表3显示CPR可以进一步提高不同定位器的性能，例如Faster-RCNN，RetinaNet和RepPoint。骨干如表4 e所示，由于CPRNet和P2PNet的主干Resnet-101更强，它获得了更好的性能56.43。5. 结论与展望本文对基于点的标注中由于标注点的非唯一性而引起的语义变化问题进行了重新思考。该方法首先对邻域内的点进行采样，然后通过引入MIL找到对象上的语义点，并对这些语义点进行加权平均，得到对象的语义中心，作为定位器的监督。CPR消除了语义差异，有利于POL任务向多类、多尺度扩展。多个数据集上的综合消融进一步验证了我们模型的有效性。在未来，我们将研究一个自适应的R和探索的可能性，扩展到其他任务的CPR。限制. 该性能对R敏感，R在本文中不是自适应值，并且可能在一定程度上限制CPR更好地处理对象的多尺度。更广泛的影响。与大多数目标检测和定位任务类似，不考虑数据集来自固有伪影的偏差。6. 确认本研究得到了中国科学院青年创新促进会、国家自然科学基金（NSFC）的部分资助。61836012和61771447，以及中国科学院战略重点研究计划（批准号：XDA27000000）。部分工作是在Xuehui在中国JD Explore Academy实习期间完成的。我们要感谢Jing Zhang的有益讨论和建议。特征R映射所有1 .一、0553.32855.46P31055.191555.382055.042553.85特征R映射所有1 .一、0548.641053.76P21554.262054.643054.244053.11我IIIII映射所有1 .一、0δ1δ200.5✓✓45.170.10.10.100.50.5✓✓✓✓54.9654.2552.690.10.5✓✓55.46CPRP2PNET映射所有1 .一、0ResNet-50ResNet-5055.46ResNet-50ResNet-10155.80ResNet-101ResNet-10156.434877引用[1] Boris Babenko，Ming-Hsuan Yang，and Serge J.贝隆吉在线多实例学习的视觉跟踪。CVPR，2009。3[2] Boris Babenko，Ming-Hsuan Yang，and Serge J.贝隆吉具有在线多实例学习的鲁棒对象跟踪。IEEE TPAMI，2011年。3[3] Hessam Bagherinezhad，Maxwell Horton，and Moham-mad Rastegariet al.标签精炼厂：通过标签进展改进图像网分类。CoRR，2018年。7[4] Hakan Bilen和Andrea Vedaldi。弱监督深度检测网络在CVPR，2016年。三、四[5] 我在博图。随机梯度下降技巧。NeuralNetworks：Tricksof the Trade - Second Edition （英语： Neu r alNetworks：Tricks ofthe Trade）Springer，2012. 6[6] Kai Chen，Jiaqi Wang，Jiangmiao Pang，Yuhang Cao，Yu Xiong，Xiaoxiao Li，Shuyang Sun，Wansen Feng，Ziwei Liu ， Jiarui Xu ， Zheng Zhang ， Dazhi Cheng ，Chenchen Zhu ， Tian-heng Cheng ， Qijie Zhao ， BuyuLi，Xin Lu，Rui Zhu，Yue Wu，Jifeng Dai，JingdongWang ， Jianping Shi ， Wanli Ouyang ， Chen ChangeLoy，and Dahua Lin.MM检测：打开mmlab检测工具箱和基准测试。arXiv预印本arXiv：1906.07155，2019。6[7] 陈泽，傅志航，蒋荣新等。SLV：弱监督目标检测的空间似然投票。在CVPR，2020年。3[8] 作者： Ramazan Gokberk Cinbis ， Jakob J. Verbeek 和Cordelia Schmid。基于多重多示例学习的弱监督目标定位。IEEE TPAMI，2017年。3[9] 托马斯·G 作者声明：RichardH. 莱思罗普和托马的洛扎诺-佩雷兹。用平行轴矩形求解多实例问题人工智能，1997年。2[10] 冯家昌，洪发庭，郑伟世。MIST：视频异常检测的多实例自训练框架在CVPR，2021年。3[11] 泽维尔·格洛罗特安托万·博德斯和约舒亚·本吉奥。深度稀疏整流神经网络。第十四届人工智能与统计国际会议论文集，2011。4[12] 龚宇奇，俞雪慧，丁尧，彭小可，赵健，韩振君。FPN中用于微小目标检测的有效融合因子。在 IEEEWACV，2021。2[13] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。InICCV，2017. 1[14] 何开明，张翔宇，任少卿等。用于图像识别的深度残差学习。在CVPR，2016年。4[15] 胡玉涛，姜小龙，刘旭辉等。 Nas- count：使用神经架构搜索的按密度计数。在ECCV，2020年。2[16] Zilong Huang，Xinggang Wang，Lichao Huang，ChangHuang，Yunchao Wei，and Wenyu Liu. Ccnet：Criss-cross attention for semantic segmentation.在ICCV，2019年。1[17] Catalin Ionescu ， Dragos Papava ， Vlad Olaru ， andCristian Sminchis

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于粗点监控下的目标定位

【WSN定位】基于AOA算法实现目标无源定位附matlab代码.zip

基于飞行平台的地面目标图像识别

基于yolov5的电瓶车图像识别监控系统的目标检测模块

基于卷积神经网络的视频目标检测 csdn

基于 jetson nano 的目标跟踪

基于matlab 运动目标检测算法

基于matlab的目标跟踪

关键点不规则目标检测

基于yolo目标检测人物

基于锚点的目标检测方法

基于faster rcnn 目标检测

基于yolo的目标检测

基于机器视觉的PCB板定位支撑系统的研究相关的选题还有什么

基于深度学习的运动目标检测算法

基于目标检测的出行行为分析的研究意义

基于yolo算法的目标检测毕设

帮我写一份关于斜框目标检测的专利，应用场景是监控电梯下的电动车检测

写一篇图像处理目标跟踪的国内研究现状

使用MYccl特征定位

基于YOLOv8的运动目标检测系统开发

最新资源