没有合适的资源?快使用搜索试试~ 我知道了~
密集场景下的精确检测方法
5227密集场景下的精确检测Eran Goldman1,3Roei Herzig2Aviv Eisenschtat3Jacob Goldberger1Tal Hassner4†1巴伊兰大学,2特拉维夫大学,3Trax Retail,4以色列开放大学摘要人造场景可以是密集的,包含许多物体,通常是相同的,位置很近。我们表明,在这样的场景中精确的对象检测仍然是一个具有挑战性的前沿,即使是最先进的对象检测器。我们提出了一种新的基于深度学习的精确对象检测方法,专为此类具有挑战性的设置而设计。我们的贡献包括:(1)用于估计Jaccard指数作为检测质量分数的层;(2)一个新的EM合并单元,它使用我们的质量分数来解决检测重叠模糊性;最后,(3)一个扩展的、带注释的数据集,110 K,代表包装的零售环境,在这样的极端设置下发布用于训练和测 试 。 对 ARK-110 K 的 检 测 测 试 和 对 CARPK 和PUCPR+的计数测试表明,我们的方法优于现有的最先进的方法,具有相当大的裕度。代码和数据将在www.example.com上提供www.github.com/eg4000/SKU110K_CVPR19。1. 介绍最近基于深度尽管取得了显著的进步,但即使对于领先的对象检测器来说,在拥挤图像中检测的常见用例仍然具有挑战性。我们专注于在这样密集的场景中进行检测,其中图像包含许多对象,这些对象通常看起来相似甚至相同,位置非常接近。这些场景通常是人造的,示例包括零售货架展示、交通和城市景观图像。尽管这样的环境很丰富,但它们在现有的对象检测基准中的代表性不足.因此,最先进的物体探测器受到这种图像的挑战并不奇怪。为了理解是什么使这些检测任务变得困难,考虑两个相同的物体放置在紧邻的地方,就像商店货架上的物品通常的情况一样(图1)。①的人。同等贡献。[2]在南加州大学期间完成的工作。图1. 在打包域中进行检测。这是我们的110K的典型图像,显示了密集的物体。(Top)(a)最先进的RetinaNet [27]的检测结果,显示出不正确和重叠的检测,特别是对于底部较难分离的暗物体。(b)我们的结果显示出更少的错误检测和更好的拟合边界框。(下)(c)RetinaNet [27]和(d)我们的方法的放大视图。挑战在于确定一个对象在哪里结束,另一个对象在哪里开始;最小化它们的相邻边界框之间的重叠。事实上,正如我们在图中所示。1(a,c),最先进的RetinaNet检测器[27],通常返回部分重叠多个对象的边界框或相邻对象区域的检测作为单独的对象。我们描述了一种方法,旨在准确地检测物体,即使在这样密集的场景(图。1(b,d))。我们的方法包括几个创新。我们建议学习Jaccard索引与软交叉联合(软IoU)网络层。该测量提供了关于检测盒质量的有价值的信息。我们解释了如何检测可以表示为高斯混合(MoG),反映他们的位置和他们的软IoU5228名称#图像#目标/img.#Cls.#Cls./ img.密集。不知道。BB2008年加州大学圣地亚哥分校200024.911✓✗✗[13]第13集5.1恐怖袭击22,5312.71202✗✗✓[12]第12集5.1疯狂的女人516,8401.122002✗✗✓[28]第28话328,0007.7913.5✗✗✓《企鹅》(2016)[2]82,0002511✓✗✗[34]第34话1,24437.6111✓✓✗[49]第49集6.1疯狂的女人32,2031211✗✗✓城市人(2017)[51]5000611✗✗✓PUCPR+(2017)[22]12513511✓✓✓[22]第二十二话14486111✓✓✓开放图像V4(2018)[25]1,910,0988.46002.3✗✓✓我们的E110K11,762147.4110,71286✓✓✓表1. 相关基准的关键属性。 #图像:图像数量。 #目标/ img. :每个图像的平均项目数。#Cls. :数量 对象类的数量(更多意味着由于更大的外观变化而更难检测问题)。#Cls./ img. :每个图像的平均类。密集:物体是否通常密集地堆积在一起,从而引起潜在的重叠检测问题?Idnt:图像是否包含多个相同的对象或难以分离的对象子区域?BB:可用于测量检测精度的边界框标签?成绩.然后使用基于期望最大化(EM)的方法将这些高斯聚类成组,解决检测重叠冲突。总而言之,我们的新贡献如下:• Soft-IoU层,添加到对象检测器中,以估计检测到的盒子和(未知的)地面真值盒子之间的Jaccard指数(Sec. 3.2)。• EM合并单元,将检测和软IoU分数转换为MoG,并解决密集场景中的重叠检测(第3.3)。• 一个新的数据集和基准,商店保持单元,110 k类别(110 k-110 k),用于来自世界各地的商店货架图像中的物品检测(第二节)。4).我们在110K上测试我们的探测器检测结果表明,我们的方法优于最先进的检测器。我们进一步测试了我们的方法在相关但不同的目标计数任务上,在E110 - 110K和最近的CARPK和PUCPR+汽车计数基准上[22]。值得注意的是,尽管我们的方法不是为计数而设计的,但它比最先进的方法提供了相当大的改进。2. 相关工作目标检测。关于这个问题的工作是广泛的,我们参考了最近的一项调查,以获得全面的概述[29]。简单地说,早期的检测器采用基于滑动后来的方法通过在应用复杂的分类器之前确定区域建议来缩小搜索空间[1,7,35,44,52]。基于深度学习的方法现在主导着检测结果。为了加快检测速度,开发了基于提议的检测器,如R-CNN[15]和Fast R-CNN [16],随后是Faster R-CNN [38],它引入了区域建议网络(RPN),然后通过R-FCN进一步加速Mask-RCNN [19]后来增加了分割输出和更好的检测池[38]。我们建立在这些方法上,声称在标准对象检测任务中没有优势。然而,与我们不同的是,这些两阶段方法并不是为拥挤的场景而设计的,在这些场景中,小物体以密集的形式出现。最近,一些提供了无提案的探测器,包括YOLO[36],SSD [30]和YOLO 9000 [37]。处理尺度方差,特征金字塔网络(FPN)[26]增加了向上扩展的层。RetinaNet [27]利用相同的FPN模型,引入焦点损失来动态权衡硬样本和简单样本,以更好地处理检测数据集中自然发生的类别不平衡。我们扩展了这种方法,引入了一种新的检测重叠措施,允许精确检测紧密包装的对象。这些方法使用硬标记的对数似然检测来产生每个候选图像区域的置信度。我们还预测了一个Soft-IoU置信度得分,它代表了检测边界框的准确性。合并重复检测。标准非最大抑制(NMS)仍然是事实上的对象检测持续时间合并技术,从Viola Jones [45]到最近的深度检测器[27,37,38]。NMS是一种手工制作的算法,在测试时作为后处理应用,以精确选择高分检测并删除其重叠的低置信度邻居。现有的NMS替代方案包括均值漂移[10,46],凝聚[5]和亲和传播聚类[31],或启发式变体[4,40,23]。GossipNet [21]提出在检测网络中使用可学习层来执行重复删除。最后,其他人将IoU值分为五类[43]。相反,我们对IoU预测进行了概率解释,并采用了一种非常不同的一般方法。这些方法中很少有比简单、贪婪的NMS更好的方法,有些方法还需要计算[21]。在密集的场景,解决detec-5229图2. 系统图。(a)输入图像。(b)一个基本网络,具有边界框(BB)和对象(Obj.)头(Sec. 3.1),以及我们的新的软IoU层(第3.1节)。3.2)。(c)我们的EM合并器将Soft-IoU转换为高斯热图,表示(d)由多个重叠边界框捕获的对象(e)然后分析这些盒子集群,对每个对象进行单个检测(e)(第二节)。3.3)。由于许多重叠的检测而加剧了模糊性我们提出了一种无监督的方法,旨在聚类重复检测在杂乱的区域。拥挤的场景基准。许多基准被设计用于测试对象检测或计数方法,我们在表1中调查了一些重要的是,我们不知道用于密集场景的检测基准,例如这里感兴趣的那些。流 行 的 对 象 检 测 集 包 括 ILSVRC [12] , PASCALVOC [13]检 测挑 战, MS COCO [28]和 最近 的 OpenImages v4 [25]。这些都没有提供带有打包物品的场景。最近的一些基准强调拥挤的场景,但设计用于计数,而不是检测[2,8,34]。从表1中可以看出,我们新的110K数据集,在第二节中描述4,每个图像提供的项目数量比几乎所有这些基准多一到三个数量级(唯一的例外是PUCPR+[22],它提供的图像数量少了两个数量级,并且我们超过110k个类中只有一个对象类)。最重要的是,我们庞大的,每个图像,对象数量意味着我们所有的图像包含非常拥挤的场景,这增加了检测的挑战。1.此外,在X-110 K中,相同或几乎相同的物品通常被紧密地放置在一起,使得检测重叠成为一个挑战。最后,即使在对象/非对象检测的挑战中,ESTA-110 K中的大量类也意味着外观变化,这增加了该基准测试的难度。3. 深度IoU检测网络我们的方法如图所示。2.我们建立在一个标准的检测网络设计,在第二节中描述。3.1.我们以两种方式扩展此设计。首先,我们定义了一个新的Soft-IoU层,它估计预测的边界框和(未知的)地面实况之间的重叠(第二节)。3.2)。这些软IoU分数然后由一个拟议的EM合并单位,在第二节中描述。3.3,其中3.1. 基地探测网我们的基本检测器与现有方法类似[26,27,30,38]。我们首先通过使用ResNet- 50 [20]作为骨干构建具有三个升级层的FPN网络[26]来检测对象。所提出的模型为每个RPN提供了三个全卷积输出头[38]:两个头部是标准的,也被以前的工作[27,37]使用(我们的新的第三个头部在第二节中描述。3.2)。第一个是检测头,它为每个对象产生一个边界盒回归输出,表示为4元组:(x,y,h,w)表示边界框中心、高度和宽度的2D坐标。第二,分类头提供对象性得分(置信度)标签,c∈[0,1](假设具有一个对象类的对象/无对象检测任务在实践中,我们过滤c≤0的检测。1,以避免在训练我们的Soft-IoU层时产生对噪声检测的偏见,下面将进行描述。3.2. 软IoU层在非密集场景中,应用于对象分数c的贪婪NMS可以解决重叠检测。然而,在密集图像中,多个重叠的边界框通常反映多个紧密堆积的对象,其中许多对象获得高对象性分数。正如我们后来所展示的(第二节)。5.2),在这种情况下,NMS不能充分区分重叠检测或抑制部分检测。为了处理这些杂乱的阳性检测,我们建议为每个边界框预测一个额外的值:IoU(即,Jaccard指数)。这个软IoU得分ciou∈[0,1]是由一个完全卷积层估计的,我们将其添加为第三个头连接到检测器中每个RPN的末端。给定N个预测检测,预检测之间的IoU指定的边界框bi,i ∈ {1.. N},并且其地面真值边界框b∈i被定义为:Interectio n(b,b)解决重叠边界框之间的歧义,返回每个对象的单个检测。IoUi=我Union(bi,bi)I.(一)5230i=1i=1ΣN因此,软IoU可以被认为反映了检测边界框的补充属性。3.3. EM用于推理的我们现在有N个预测的边界框位置,每个位置都有其相关的对象性c和软IoUciou得分。边界框,尤其是在拥挤的场景中,通常会聚集在一起,彼此重叠,并重叠其项目位置。我们的EM-Merger单元过滤、合并或拆分这些重叠的检测集群,以便解决每个对象的单个检测。我们首先正式定义这些检测集群。像高斯一样探测。我们将网络产生的N个边界框视为一组2D高斯:图3. 可视化EM-Merger单元的输出。这些图像(未示出)上的原始检测包含许多重叠的边界框。我们将检测表示为MoG的方法(等式2)。(5))在这里被可视化为热图,提供了项目所处位置的Eq.的简化MoG(7)被可视化为绿色椭圆体。参见第3.3有关详细信息我们选择bi作为最接近bi的注释框(在图像坐标中)。如果两者不重叠,则IoU i=0。Intersection(·)和Union(·)都对像素进行计数。我们对Eq.(1)、学习F={fi}N={N(p;μi,μi)}N,(4)其中p∈R2,2D图像坐标。因此,第i次检测由2D平均值表示,即盒子的中心点,μi=(xi,yi),以及对角方差,μi=[(hi/4)2,0;,0,(wi/4)2],反映了盒子的大小,(hi,wi)。我们将这些高斯函数联合起来,作为一个单一的混合-高斯密度(MoG):ΣNf(p)= αi fi(p),(5)i=1吉乌它与我们的软IoU层使用二进制交叉熵损失:其中混合系数αi=i吉乌,反映-L=(2)k=1k斯乌− 1Σn[IoUilog(ciou)+(1−IoUi)log(1−ciou)],我们的信心,边界框重叠,地面实况,被归一化以创建MoG。图3可视化了Eq.(5)作为热图,nii=1我将检测转化为空间区域图,其中n是每批中的样本数。因此,用于训练检测网络中的每个RPN的损失定义为:L=L分类+L回归+LsIoU。(三)这里,L分类和L回归分别是标准的交叉熵和欧几里得损失[16,36,38],并且LsIoU在等式16中定义。(二)、我们的每像素检测置信度重叠;每个区域由累积的Soft-IoU加权。选择预测:正式定义 接下来,我们通过使用MoG聚类方法[6,17,18,50]将N高斯(检测)重新求解为精确的非重叠边界框检测我们把解决最终检测的问题看作是找到一组K-N高斯,客观性与软 IOU。在预处理中使用的客观评分G={gj}K={N(p;μ′,μ′j)}K(六)j=1j =1vieve方法预测对象/非对象标签,而我们的Soft-IoU预测检测到的边界框的IoU及其基础事实。因此,例如,与对象部分重叠的边界框仍然可以具有高对象性得分c,表示对象出现在边界框中的高置信度。对于相同的检测,由于部分重叠,我们预期ciou事实上,对象/非对象分类器被训练成-5231使得当聚合时,所选择的高斯近似于等式1的原始MoG分布f。(5),由所有N个检测形成也就是说,如果g定义为ΣKg(p)= βj gj(p),(7)j=1然后我们寻求K高斯G的混合,其中与遮挡和平移不同一个好的对象因此,分类器对我们的Soft-IoU层敏感的属性是不变的。客观性和d( f,g)=ΣNi=1KαiminKL(fi||gj),(8)j=1523211最小化,其中KL是KL发散[24],用作两个检测框之间的非对称距离。选择检测的EM方法。我们近似的解决方案,以最小化方程。(8)使用基于EM的方法。E步骤将每个盒子分配给最近的盒子集群,其中盒子相似性由对应高斯之间的KL距离定义。E步分配定义为:Kπ(i)=a rgminKL(fi||gj)。(九)j=1然后,M步骤通过以下方式重新估计模型参数:Σβj=αii∈π−1(j)阈值这一步可以被看作是模型选择,它确定了检测到的对象的实际数量,K′≤K。为了提取最终检测,对于每个K′高斯,我们考虑两个标准偏差处的椭圆围绕其中心,在图中可视化。3绿色然后,我们搜索N个检测的原始集合(第二节)。3.1)对于那些中心μ=(x,y)落在这个椭圆内的人。通过取该集合中检测的中间维度,将高斯变换为检测窗口。4. 110K基准测试我们组装了一个新的标记数据集和基准,其中包含超市货架的图像。我们专注于这样的零售环境有两个主要原因。首先,为了最大限度地提高销售额和商店房地产的使用率,货架是regg-经过精心优化,以紧密包装的方式呈现许多物品′µj=βji∈π−1(j)中文(简体)有效的安排[3,33]。 因此,我们的图像代表-发送了密集环境的极端例子;正是Σ′ ′⊤Σ我们感兴趣的场景。j=βαiji∈π−1(j)i+(µi−µj)(µi−µj)。第二,零售物品自然分为产品、品牌和子品牌对象类。不同的品牌和产品注意,这些矩阵计算在2D空间中是快速的。此外,我们所有的高斯函数都表示轴向检测,因此它们都具有对角协方差。在这种情况下,两个高斯之间的KL距离具有更简单的形式,其计算起来甚至更有效。一般EM理论保证方程中描述的迭代过程。(9)–(10),is monotonically decreasing in the (8)收敛于局部极小值[11]。我们确定收敛时,方程的值。(8)小于1e−10。我们发现这个过程几乎总是在10次迭代内收敛,因此我们将最大迭代次数设置为该次数。EM参数通常使用快速聚类来初始化,以防止收敛到差的局部最小值。我们用凝聚的层次聚类[39]初始化它,其中每个检测最初代表它自己的一个聚类,聚类依次合并,直到剩下K个聚类我们顺便注意到,最近有几次尝试开发深度聚类方法[47,48]。这样的方法被设计用于对高维数据进行聚类,训练自动编码器以将输入数据映射到其中聚类更容易的低维特征空间中。相反,我们使用EM,因为这些方法与我们的设置无关,其中原始数据是二维的。高斯作为检测。一旦EM收敛,估计的高斯表示一组K个检测。作为检测数量的上限,我们使用K=size(I)/(µw µh),近似于适合图像的非重叠平均大小的盒子的数量。作为后处理,我们抑制了与其他高斯模型重叠的不太自信的高斯模型,都被设计得与众不同典型的商店可以销售数百种产品,从而呈现具有许多类间外观变化的检测器。另一方面,子品牌往往只能通过细微的包装差异来区分。这些细微的外观变化增加了检测器必须面对的干扰的范围(例如,空间变换、图像质量、遮挡)。正如我们在表1中所显示的,在每张图像中出现的物体的数量和密度、其物品类别的可变性以及其场景的性质方面,X-110 K与现有的替代品有很大的不同图11提供了来自E110 - 110 K的示例图像。1、2和5。图像采集。这些110K图像是从世界各地的数千家超市商店收集的,包括美国、欧洲和东亚的地点。几十个付费的同事用他们的个人手机摄像头获取了我们的图像。最初拍摄的图像分辨率不低于500万像素,但后来被JPEG压缩到100万像素。除此之外,手机和相机型号没有受到管制或记录。图像质量和视图设置也不受管制,因此我们的图像代表不同的尺度,视角,照明条件,噪音水平和其他可变性来源。边界框注释由熟练的注释员提供。我们选择了经验丰富的注释者而不是不熟练的Mechanical Turkers,因为我们发现这种方式获得的框更准确,并且不需要投票方案来验证正确的注释[28,42]。然而,我们确实对每个图像及其检测标签进行了视觉检查,以过滤明显的定位错误。基准协议。110 K图像部分-5233i=1方法FPS DPS方法AP AP. 75AR 300P R=. 5MAE RMSE表分为训练、测试和验证部分。训练由70%的图像(8,233幅图像)及其关联的1,210,431个边界框组成; 5%的图像(588)用于验证(带有90,968个边界框)。剩下的2941张图片(432312个边界框)用于测试。随机选择图像,确保来自同一商店的同一货架展示不会出现在这些子集中的一个以上。评价我们采用与COCO [28]使用的评估指标类似的评估指标,报告IoU=.50:.05:.95的平均精度(AP)(他们的主要挑战指标),IoU=.75的AP,AP。75(他们的严格度量),平均召回率(AR)300,IoU=.50:.05:.95(300是对象的最大数量)。我们进一步报告了在召回率= 0时从精确率-召回率曲线中采样的值。5,IoU=0.75(P R=. (五)。在我们的图像中,许多密集的项目是在计数基准[2,22]中设置的reminiscent。我们通过借用我们的全速接近.492.556.55414.522 23.992表3. 探测到了米格-110K。 粗体数字是最好的结果。用于这些任务的错误度量:如果{K′i}n是预测每个测试图像中的对象的数量,i∈[1,n],和{i}n是每个图像的地面实况数字,则i=1第一节平均绝对误差(MAE)为n。 我|Ki−ti|和均方根误差(RMSE)为1<$n(K′-t)2.5. 实验5.1. 运行时间分析nii i图4. 结果曲线。(a)IoU=0.75时,在110K下的PR曲线(曲线越高越好)。(b)漏诊率与每幅图像假阳性的对数-对数曲线[51](较低的曲线更好)。-110 K基准。所有方法,除了表2比较了平均每秒帧数(FPS)和每秒检测(DPS)的基线方法和我们的方法的变化。运行时间是在同一台机器上使用英特尔(R)酷睿(TM)i7- 5930 K CPU@3.50GHz GeForce和GTX泰坦X GPU测量的。我们的基本检测器是在RetinaNet [27]之后建模的,因此它们的运行时是相同的。添加我们的Soft-IoU层不会影响运行时。EM-合并是缓慢的,尽管在第二节中描述3.3,主要是因为GPU和CPU/RAM之间的我们的初步测试表明,GPU优化版本将几乎与基本检测器一样快。5.2. 在110K基准上的实验基线方法。我们比较了我们提出的方法和最近的国家的最先进的Monkey检测器在训练集Por tion Por-110 K上训练。以下两个基线方法使用其作者发布的原始实现进行了测试:[27]第28话,我的朋友 YOLO9000不适合超过50个对象的图像。我们提供了YOLO9000opt的结果,它是YOLO9000,其损失函数经过优化和重新训练,支持每个图像检测多达300个盒子。我们还报告了以下消融研究,详细介绍了我们方法中各个组成部分的贡献• 猴子:由于在110K图像中紧密包装的物品,随机投掷边界框将偶然地正确预测检测。为了测试这种简单的方法,我们假设我们知道对象编号K′,平均值和标准值-[38]第38集5.22.3793猴子0.000 0.0100N/A N/A[2017年]第37届中国国际汽车工业展览会5317[38]第三十八话0.045.010.0660107.46 113.42RetinaNet(2018)[27]0.5162[37]第三十七话0.094.073.111084.166 97.809碱基检测器0.5162RetinaNet [27]455.389.530.54430.702+ Soft-IoU0.5162基础NMS点四一三点三八四.484.49134.382+ EM-Merger(在CPU上)0.2373软IoU NMS点四一八点三八六.483.49234.729美元5234图5.对氚-110K的定性检测结果。 请参阅项目网页更多的结果和图像在更高的分辨率。偏差宽度µw、σw和高度µh、σh。猴子从均匀分布中对K′边界框的2D左上角进行采样,并分别从高斯分布N(h;µh,σh)和N(h;µw,σw)中对• Base NMS:我们的SEC基本检测器。3.1与Stan-应用于客观性分数的标准NMS,c.• Soft-IoU NMS:具有Soft-IoU的基本检测器(第3.2)。标准NMS应用于软IoU分数,而不是客观分数。• Base EM-Merger:我们的基本检测器,现在使用SEC的EM-Merger。3.3,但将其应用于原始ob-jetness scores,c.• 我们的完整方法:将EM合并单元应用于深度IoU分数,ciou。为了测试MAE和RMSE,我们报告检测到的对象的数量K′,并将其与每个图像的真实项目数进行比较。在RetinaNet中,检测的数量非常高,所以我们首先过滤低浓度的检测证据使用交叉验证确定该置信阈值,以优化该基线的结果。对歼-110K的探测结果。定量检测结果见表3,结果曲线见图1。4、与定性结果进行选择、比较5235方法MAE RMSECARPK上的计数结果表4.CARPK和PUCPR+计数结果[22]。我们使用RetinaNet [27]的完整方法,最好的基线系统,在图中提供。五、显然,尽管我们的场景很拥挤,但随机的投掷检测完全失败了,正如猴子接近零的准确性所证明的那样Faster-RCNN [38]和YOLO 9000opt [37]显然不适合检测如此多的紧密堆积的物体。RetinaNet [27]的性能要好得多,实际上优于我们的基础网络,尽管共享类似的设计(第二节)。第3.1节)。这可能是由于RetinaNet更好的框架优化我们的整个系统性能优于其所有基线,具有很大的利润率。它的大部分优势似乎来自我们的EM合并(SEC。3.3)。将EM-合并应用于客观性分数或我们的软IoU的准确性进行比较,证明了软IoU提供的附加信息。当检查计数结果时,这一贡献尤其有意义,这表明软IoU分数提供了比对象分数更好的过滤检测框的方法。将检测精度与计数精度进行比较是进一步指导性的。我们的方法和最接近的亚军RetinaNet之间的计数精度差距大于检测精度的差距(尽管两者的差距都很大)。计数准确性的下降至少可以部分地解释为他们使用贪婪的NMS与我们的EM合并。事实上,Fig。图5展示了与我们的方法预测的每个项目的单个检测相比,RetinaNet产生的许多重叠和/或错误定位的检测5(a,e))。最后,我们注意到,我们的最佳结果仍然远非完美:以“大”为代表的密集设置-5.3. 关于CARPK和PUCPR+的实验我们测试我们的方法从其他基准的数据,看看我们的方法推广到其他领域,远离商店货架和零售对象。为此,我们使用最近的CARPK和PUCPR+ [22]基准。这两个数据集都提供了从高处拍摄的停车场图像。我们使用他们的测试协议,将每个图像的检测数量与这些基准提供的地面真实数字进行比较。准确性是使用MAE和RMSE报告的,如我们的110K(第110节)。4).统计结果。我们将我们的方法与其他人报告的结果进行比较[22,41]:更快的R-CNN [38],YOLO [36]和One-Look Regression [32]。现有的基准还包括为计算这两个基准而设计和测试的两种方法:[22]第41话,一个 人 的 幸 福 。 此 外 , 我 们 使 用 YOLO9000opt[37] 和RetinaNet[27]训练和测试计数准确性。表4报告了所有测试方法的MAE和RMSE。尽管不是为计数而设计的,但我们的方法比最近为该任务设计的方法更准确这些计数数据集和我们的E110K之间的一个显著差异是在我们的图像中更接近物体。该问题对基线探测器有显著影响,如表4和表3所示。由于对这些重叠进行了更好的过滤,我们的模型在性能上的退化要低得多16. 结论现代目标/无目标探测器在现有基准上的性能是显著的,但仍然有限。我们专注于日常零售环境中典型的密集场景,并提供带有物品检测框的零售货架图像的新基准--110 K。我们在此基准上的测试表明,这样的图像挑战了最先进的检测器。为了应对这些挑战,我们在基准测试的基础上,提供了两项技术创新,旨在提高此类环境中的检测精度:第一层是软IoU层,用于估计预测的和(未知的)地面实况框之间的重叠。第二个是基于EM的单元,用于解决边界框重叠模糊性,即使在这些重叠很常见的紧凑场景中。我们测试了我们的方法对110K和两个现有的基准计数,并显示它超越现有的检测和计数方法。尽管如此,即使是最好的结果在110 - 110 K上也远远没有饱和,这表明这些密集的场景仍然是未来工作的一个具有挑战性的前沿。110K图像似乎具有很大的挑战性,以便进一步改进。1关于这些基准的定性结果,见项目网页。《Faster R-CNN》(2015)[38]24.3237.622016年《YOLO》[36]48.8957.55一次回归(2016年)[32]59.4666.84[22]第二十二话23.8036.792017年《YOLO9000opt》 [37]45.3652.02[27]第22话:我的世界16.6222.30IEP计数(2019)[41]51.83-我们的完整方法6.778.52在PUCPR+《Faster R-CNN》(2015)[38] 39.8847.672016年《YOLO》[36]156.00200.42一次回归(2016年)[32]21.8836.73[22]第二十二话22.7634.462017年《YOLO9000opt》 [37]130.40172.46RetinaNet(2018)[27]24.5833.12IEP计数(2019)[41]15.17-我们的完整方法7.1612.005236引用[1] 博格丹·阿列克谢,托马斯·德塞拉尔斯和维托里奥·法拉利。测量图像窗口的客观性。Trans.模式分析马赫内特尔,34(11):2189[2] Carlos Arteta,Victor Lempitsky,and Andrew Zisserman.在野外数数。在欧洲会议中Comput. Vision,2016.[3] 朱迪·贝尔和凯特·特纳斯无声销售:视觉营销的最佳实践和有效策略。Bloomsbury Publishing USA,2017.[4] Navaneeth Bodla,Bharat Singh,Rama Chellappa,andLarry S Davis. Soft-NMS-用一行代码改进对象检测。在Proc. Int. Conf. Comput. 视野IEEE,2017年。[5] 卢博米尔·布尔德夫,苏布兰苏·马吉,托马斯·布罗克斯,和吉滕德拉·马利克.使用相互一致的姿态激活来检测人。 在欧洲会议中Comput. 视野施普林格,2010年。[6] Pierrick Bruneau,Marc Gelgon,and Fabien Picarougne.用 变 分 贝 叶 斯 方 法 简 约 高 斯 混 合 模 型 。 PatternRecognition,43(3):850[7] Joao Carreira和Cristian Sminchisescu Cpmc:使用约束参数最小切割的自动对象分割。译模式分析马赫内特尔,34(7):1312[8] Antoni B Chan , Zhang-Sheng John Liang , and NunoVas- concelos.隐私保护人群监测:没有人模型或跟踪的情况下计算人数。在Proc. Conf. Comput.视觉模式识别,2008年。[9] 戴纪峰,易力,何开明,孙建R-FCN:通过基于区域的全卷积网络进行对象检测。在神经信息。过程系统,2016年。[10] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度的直方图。在Proc. Conf. Comput.视觉模式识别IEEE,2005年。[11] Arthur P Dempster,Nan M Laird,and Donald B Rubin.不完全数据的最大似然法。英国皇家统计学会会刊。B辑(方法),第1-38页,1977年。[12] J. Deng,W.东河,巴西-地索赫尔湖J. Li,K. Li和L.飞飞。ImageNet:一个大规模的分层图像数据库。在Proc.Conf. Comput.视觉模式识别,2009年。[13] Mark Everingham , Luc Van Gool , Christopher KIWilliams,John Winn,and Andrew Zisserman.pascal视觉 对 象 类 ( voc ) 的 挑 战 。 国 际 计 算 机 Vision , 88(2):303 - 338,2010.[14] Pedro F Felzenszwalb , Ross B Girshick , and DavidMcAllester.基于可变形零件模型的级联目标检测。 在proc Conf. Comput. 视觉模式识别IEEE,2010。[15] Ross Girshick,Jeff Donahue,Trevor Darrell和JitendraMalik。丰富的特征层次结构,用于精确的对象检测和语义分割。在Proc. Conf. Comput.视觉模式识别,2014年。[16] 罗斯湾娘娘腔。快速R-CNN。在Proc. Int. Conf. Comput.视野IEEE计算机学会,2015年。[17] 雅各布·戈德伯格,海伊特·K·格林斯潘,杰瑞米·德莱弗斯.利用无迹变换简化混合模型.Trans.模式分析马赫内特尔,30(8):1496-1502,2008.[18] Jacob Goldberger和Sam T Roweis。混合模型的层次在神经信息。过程系统,2005年。[19] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick. 面 罩 R-CNN 。 在 Proc. Int. Conf.Comput.愿景,2017年。[20] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习 在proc 确认补偿视觉模式识别,2016年。[21] Jan Hendrik Hosang , Rodrigo Benenson , and BerntSchiele.学习非最大抑制。在会议记录里。视觉模式识别,2017年。[22] Meng-Ru Hsieh,Yen-Liang Lin,Winston Hsu.基于空间正则化区域概率网络的无人机目标计数。在Proc. Int.Conf. Comput.愿景,2017年。[23] 蒋博瑞,罗瑞轩,毛嘉源,肖特特,蒋云英获取用于精确对象检测的定位置信度在欧洲会议中Comput.愿景,2018年。[24] 所罗门·库尔贝克和理查德·A·莱布勒。关于信息和充分性。数学统计年鉴,22(1):79[25] Alina Kuznetsova 、 Hassan Rom、 Neil Alldrin 、 JasperUi-jlings 、 Ivan Krasin 、 Jordi Pont-Tuset 、 ShahabKamali、Stefan Popov、Matteo Malloci、Tom Duerig和Vittorio Ferrari。开放图像数据集v4:统一的图像分类,对 象检测,和视 觉关系检测 的规模。arXiv:1811.00982,2018。[26] 林宗义、杜拉拉、葛希克、何开明、哈里哈兰、贝隆吉.用于对象检测的特征金字塔网络 在proc Conf. Comput.视觉模式识别,2017年。[27] Tsung-YiLin , Priyal Goyal , Ross Girshick , KaimingHe,and PiotrDoll a'r. 密集目标检测的焦面损失。 Trans.模式分析马赫内特尔,2018年。[28] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft COCO:上下文中的公用对象。在欧洲会议中Comput. 视野Springer,2014.[29] 刘立,欧阳万里,王晓刚,保罗·费古思,陈洁,刘欣旺,马蒂·皮耶提克艾宁。 用于通用对象检测的深度学习 : 一 个 调 查 。 arXiv 预 印 本 arXiv : 1809.02165 ,2018。[30] Wei Liu , Dragomir Anguelov , Dumitru Erhan ,Christian Szegedy , Scott Reed , Cheng-Yang Fu , andAlexander C.伯格。SSD:单次触发多盒探测器。 在欧洲会议上。Vision,2016.[31] 达米安·莫洛卡,马库斯·罗尔巴赫,朱迪·霍夫曼,胡荣航,凯特·萨恩科,特雷弗·达雷尔.大规模目标检测的空间在Proc. Int. Conf. Comput. Vision,2015.[32] T Nathan Mundhenk , Goran Konjevod , Wesam ASakla,and Kofi Boakye.一个大型上下文数
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功