无边界框的对象定位算法

21 浏览量更新于2023-10-17 收藏 1.09MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6479定位不带边界框的J a vierRibera，D a vidGüera，YuhaoChen，Ed w ardJ. 普渡大学Delp视频和图像处理实验室（VIPER）摘要卷积神经网络（CNN）的最新进展在定位图像中的对象方面取得了显着的成果在这些网络中，训练过程通常需要提供边界框或期望对象的最大数量在本文中，我们解决的任务，估计对象的位置，没有注释的边界框，通常是手绘和耗时的标签。我们提出了一个损失函数，可用于任何全卷积网络（FCN）来估计对象位置。该损失函数是两个无序点集之间的平均Haus-dorff距离的修改。所提出的方法没有边界框，区域建议或滑动窗口的概念。我们评估我们的方法与三个数据集，旨在定位人我们优于最先进的通用对象检测器和方法微调瞳孔跟踪。1. 介绍图像目标定位是计算机视觉中的一项重要任务。目标检测中的一种常见方法是获得感兴趣目标周围的边界框在本文中，我们对获得边界框不感兴趣。相反，我们将对象定位任务定义为获得与每个对象的位置相对应的单个2D坐标对象的位置可以是我们感兴趣的任何关键点图1显示了图像中局部化对象的示例。与其他关键点检测问题不同的是，我们事先并不知道图像中关键点为了使该方法尽可能通用，我们不假设点之间有任何物理约束，这与姿势估计等情况这种对象定位的定义更适用于对象非常小或基本重叠的应用程序在这些情况下，边界框可能不是由数据集提供的，或者它们可能对groundtruth不可行。边界框注释繁琐、耗时且昂贵[37]。例如，注释ImageNet [43]图1.利用人头、瞳孔和植物中心进行目标定位。（下）热点图和估计值为十字。在亚马逊的Mechanical Turk上众包时，每个边界框需要42秒，在[6]中，Bellet al.介绍了一种新的数据集，用于材料识别和分割。通过收集该数据集中的点击位置标签，而不是完整的每像素分割，它们将注释成本降低了一个数量级。在本文中，我们提出了一种修改的平均Hausdorff距离作为CNN的损失函数来估计对象的位置我们的方法不需要在训练阶段使用边界框，并且在设计网络架构时不为了简单起见，我们只描述了一个对象类的方法，虽然它可以平凡地扩展到多个对象类。我们的方法是对象不可知的，因此本文中的讨论不包括任何有关对象特性的信息我们的方法将输入图像映射到一组坐标，并使用不同类型的对象对其进行验证我们用三个数据集来评估我们的方法一个数据集包含从购物中心的监控摄像头获取的图像第二个数据集包含人眼的图像，我们定位瞳孔的中心第三个数据集包含在1998年12月20日拍摄的6480从无人驾驶飞行器（UAV），我们定位高度闭塞的植物中心。我们通过关键点检测进行对象定位的方法并不是边界框检测的通用替代品此外，这种方法的局限性是边界框标记包含一些尺度感，而关键点不包含。我们工作的贡献是：• 我们提出了一种用于目标定位的损失函数，我们称之为加权Hausdorff距离（WHD），它克服了像素损失的限制，如 L2和Hausdorff距离。• 我们开发了一种方法来估计图像中的对象的位置和数量，没有任何概念的边界框或区域的建议。• 我们制定的对象定位问题，最小化点之间的距离，独立于-估计中使用的模型。这允许使用任何完全卷积的网络架构设计。• 我们的性能优于最先进的通用对象检测器，并在没有任何特定领域知识、数据增强或迁移学习。2. 相关工作普通物体探测器。深度学习的最新进展[16，27]提高了定位任务的准确性，例如对象或关键点检测。通过通用对象检测器，我们指的是可以训练以检测任何对象类型的方法，例如Faster-RCNN [15]，Single ShotMultiBox Detector（SSD）[31]或YOLO [40]。在FastR-CNN中，候选区域或建议通过选择性搜索等经典方法生成[59]。尽管网络的激活在区域提议之间共享对象检测器中的区域建议网络（RPN），如Faster R-CNN [15，41]，允许端到端训练的模型。Mask R-CNN [18]通过添加用于预测对象掩码的分支来扩展Faster R-CNN，但它与现有的边界框识别分支并行运行。Mask R-CNN可以通过生成具有指示关键点存在的单个类的分割掩码来估计人类姿势关键点。 Mask R-CNN中的损失函数是逐位置使用的，使得关键点检测对分割掩码的对齐高度敏感。SDD提供固定大小的边界框和指示框中对象存在的分数所描述的方法要么需要groundtruthed绑定框来训练CNN，要么需要设置最大被分析的图像中的对象的数量。在[19]中，观察到通用对象检测器（如Faster R-CNN和SSD）对于小对象的性能非常差。计数和定位物体。计算图像中对象的数量不是一项简单的任务。在[28]中，Lem-pitskyet al.估计其积分对应于对象计数的密度函数。在[47]中，Shaoet al.提出了两种定位物体的方法。一种方法先计数再定位，另一种方法先定位再计数。定位和计数人员对于许多应用都是必要的，例如监控系统中的人群监控、新业务调查和应急管理[28，60]。文献中有多项研究，其中检测和跟踪人群视频中的人[2，7]。这些检测方法通常使用每个人周围的绑定框作为基础事实。在许多人重叠的情况下，例如体育赛事或公共交通站的高峰时段聚集，为人群中的每个人获取边界框可能是劳动密集型的且不精确的更现代的方法通过估计密度图来避免边界框的需要，密度图的积分产生总人群计数。在涉及密度图的方法中，密度图的标签是从人的头部的标签构建的。这通常是通过将高斯核集中在每个头部的位置来完成的Zhang等人[62]使用多列CNN估计密度图像，该CNN在不同尺度上学习特征。在[44]中，Sam等人。使用多个独立的CNN来预测不同人群密度下的密度图。额外的CNN对人群场景的密度进行分类，并将输入图像中继到适当的CNN。Huang等人. [20]建议将有关身体部位结构的信息结合到传统的密度图中，以将人群计数重新表述为多任务问题。其他作品如Zhanget al. [61]使用额外的信息，如地面透视图。学生跟踪和精准农业的方法通常针对特定领域。在瞳孔跟踪中，瞳孔的中心必须在真实世界照明条件下获得的图像中解析[13]。广泛的应用，从商业应用，如视频游戏[52]，驾驶[48，17]或显微手术[14]依赖于准确的瞳孔跟踪。在远程精确农业中，定位作物田间的植物中心是至关重要的。农艺学家使用植物性状，如植物间距来预测未来的作物产量[56，51，57，12，8]，植物科学家培育新的植物品种[3，35]。在[1]中，Aichet al.通过首先分割植物区域，然后计算每个分割块中的植物数量来计算小麦植物。豪斯道夫距离。Hausdorff距离可以用来测量两组点之间的距离[5]。Hausdorff距离的修改[10]已用于各种多任务，包括字符识别，6481[33]、人脸识别[23]和场景匹配[23]。Schutze等人[46]用平均Hausdorff距离评价多目标优化问题的解。在[24]中，Elkhiyariet al.根据Hausdorff距离的多个变量比较CNN提取的特征，以完成人脸识别任务在[11]中，Fanet al.使用Chamfer和Earth Mover的距离以及新的神经网络架构，通过估计固定数量点的位置进行3D对象重建。Hausdorff距离也是医学成像界评价分割边界质量的常用度量[54，63，30，55]。3. 平均Hausdorff距离我们的工作是基于Hausdorff距离，我们在本节中简要介绍。考虑两个无序的非-图2.点集X={X1，…x5}（实心点）和Y={y1，...，y4}（虚线点）。尽管两点之间的距离有明显的差异，Hausdorff距离相等，因为最差离群值相同。平均Hausdorff距离更常用：点X和Y的空集以及两个点x∈X和y∈Y之间的距离度量d（x，y）。函数d（·，·）可以是任何度量。在我们的例子中，我们使用欧几里得分布-钱。集合X和Y可以具有不同数量的dAH（X，Y）=1|X|Σx∈Xmind（x，y）+y∈Y1|Y|Σy∈Ymind（x，y），x∈X（四）点设R2是所有可能点的空间在其一般形式中，X和Y之间的Hausdorff距离定义为：.Σd H（X，Y）= max超级inf d（x，y），超级inf d（x，y）.哪里|X|和|Y|是X和Y中的点的数量，分别为。注意，性质（3a）、（3b）和（3c）仍然是的，但（3D）不是。此外，平均Hausdorff距离相对于X或Y中的任何点都是可微的。设Y包含地面实况像素坐标，X是我们的估计。理想情况下，我们希望使用dAH（X，Y）x∈Xy∈Yy∈Yx∈X（一）作为卷积训练过程中的损失函数，当考虑离散化和有界的边界时，例如图像中所有可能的像素坐标，上确界和下确界是可实现的，并且分别成为最大值和这将Hausdorff距离限制为神经网络（CNN）。我们发现两个局限性时，incor-将平均Hausdorff距离作为损失函数。首先，具有线性层的CNN隐式地确定点的估计数量|X|作为最后一层的大小。这是一个缺点，因为点的实际数量取决于图像本身的内容第二，FCN，如U-d（ X，Y）≤ dmax=maxx∈N，y ∈Nd（x，y），（2）Net [42]可以指示输出层中具有较高激活的对象中心的存在，但它们不会返回其对应于当使用欧几里德距离时图像的对角线如[5]所示，Hausdorff距离是一个度量。因此，X，Y，Z具有以下性质：dH（X，Y）≥0（3a）dH（X，Y）=0X=Y（3b）dH（X，Y）=dH（Y，X）（3c）像素坐标。为了使用反向传播学习，损失函数必须相对于网络输出可微4. 加权Hausdorff距离为了克服这两个限制，我们修改平均Hausdorff距离如下：dH（X，Y）≤dH（X，Z）+dH（Z，Y）（3d）dWH1（p，Y）=公司简介6482Σpxx∈Ωmind（x，y）+y∈Y等式（3b）由X和Y闭合得出，因为在我们的任务中像素坐标空间是离散的。当设计一个函数来测量X和Y的相似程度时，这些属性是非常理想的[4]。Hausdorff函数的一个缺点是其对异常值的高敏感性[46，54]。图2显示了两个有限点集和一个离群值的示例。为了避免这种情况，哪里1|Y|ΣMα[ px d（ x，y）+（1− px）dmax]，y∈Yx∈（五）ΣS=px，（6）x∈Ω6483Mα[f（a）]=a∈A.1|一|Σa∈Afα（ a）1α、（7）α和证据可以在补充材料中找到。理想情况下，参数α→−∞，使得Mα（·）=||·||-∞成为最小算子[26]。然而，这将使第二项相对于是广义平均值，并且将k设置为10−6。我们将dWH（p，Y）称为加权豪斯多夫距离（WHD）。px∈[0，1]是网络在像素坐标x处的单值输出。网络的最后激活可以在0和1之间使用sigmoid非线性的注意，p不需要被归一化，即，x∈Px= 1是不必要的。注意广义平均Mα[·]对应于α= −∞时的最小函数。我们证明适用于平等的修改-等式（4）以获得如下等式（5）：1. 当px <$0 <$x ∈ <$0时，第一项分母中的k提供了数值稳定性.2. 当px={0，1}，α= −∞，且θ= 0时，加权网络对于给定的y，如果有另一个点x1具有高激活并且更接近y，则远离y的点x0中的p x 0的变化将被M −∞（·）忽略。实际上这使得训练困难，因为最小值相对于其输入不是平滑函数。因此，我们用广义平均Mα（·）来逼近最小值，其中α0.α越负，WHD变得越类似于AHD，代价是变得不那么平滑。在我们的实验中，α=-1。没有必要在第一项中使用Mα（·），因为px不在min内因此，该术语已经可以相对于p.如果输入图像需要调整大小以输入到网络中，我们可以将WHD归一化以考虑这种失真。将原始图像大小表示为（S（1），S（2）），o oHausdorff距离变成平均Hausdorff距离调整大小的图像大小为（S（1），S（2））。在等式（5）中，我们距离我们可以将其解释为网络索引完全确定物体的位置特斯群岛当d（p，Y）≥0时，全局最小值计算原始像素空间中的距离，d（x，y），其中x，y∈N，WH（dWH（p，Y）= 0）对应于px= 1，如果x∈Y.ΣS（1）/S（1）0否则为0S=OR0S（2）/S（2）.（八）o r3. 在第一项中，我们乘以px以惩罚图像中附近没有地面实况点y的区域中的高激活换句话说，损失函数惩罚了不应该存在的估计点。4. 在第二项中，通过使用表达式f（·）：=pxd（x，y）+（1− px）dmax我们强制执行，(a) 如果p x0<$1，则f（·）<$d（x0，y）。这意味着点x0将有助于AHD中的损耗（公式（4））。(b) 若px0≠0，x0/=y，则f（·）≠max. 然后，如果α= −∞，则点x0不会对损失有贡献，因为“最小值”M x ∈ [ · ]将忽略x 0。如果另一个点x1更接近y，px1>0存在，x1将被否则，Mx∈M[·]将很高。这意味着地面实况周围的低激活将被扣分。注意，f（·）不是唯一会强制执行这两个约束（f|px=1=d（x，y）和f|px=0=d max）。我们选择了线性函数，因为它的简单性和数值稳定性。WHD中的这两个术语都是必要的。如果去掉第一项，则三维解为p x=1x∈如果去掉第二项，则平凡解为p x=0x∈这两个箱子的价值4.1.优于像素损失一个简单的替代方法是使用一个单热点映射作为标签，定义为对于x∈Y，lx= 1，否则l x = 0，然后使用pi xel wise损失，例如平均平方误差（MSE）或L2范数，其中 L2（l，p）=Σx∈Σ|p x−l x|2 MSE （l，x）。像素损失的问题在于，不提供两个点x∈N和y∈Y之间的距离除非x=y。换句话说，它是平坦的，为广大的主要-像素的完整性，使得训练不可行。在[58]中，通过使用以每个x∈Y为中心的高斯分布的MSE损失，局部缓解了这个问题。相比之下，等式（5）中的WHD将随着x接近y而减小，使得损失函数在全局最小值之外提供信息。5. CNN架构和位置估计在本节中，我们将描述我们使用的全卷积网络（FCN）的架构，以及我们如何估计最终的对象位置。我们想强调的是，网络设计并不是这项工作的一个有意义的贡献，因此我们没有做任何优化它的尝试我们的主要贡献是使用加权Hausdorff距离作为损失函数。我们采用U-Net架构[42]并为此任务最小限度地修改它类似于U-Net的网络已被证明能够准确地将输入图像映射到输出图像，当在条件对抗网络设置中训练时[22]或当使用精心调整的损失函数时[42]。图3显示了Σ6484图3.用于对象定位的FCN架构，最小程度上改编自U-Net [42]架构。我们添加了一个小的全连接层，它结合了最深的特征和估计的概率图来回归点的数量。U-Net沙漏设计。为了简单起见，未示出编码器中的每个层与解码器中的其对称层之间的残差连接。该FCN具有两个分化良好的区块。第一个块遵循CNN的典型架构。它包括重复应用两个3×3卷积（填充1），每个卷积后面都是一个批归一化操作和一个整流线性单元（ReLU）。在ReLU之后，我们应用一个步长为2的2×2最大池化操作进行下采样。在每个下采样步骤中，我们将特征通道的数量加倍，从64个通道开始，最后5个层使用512个通道。第二个模块包括重复应用以下要素：一个双线性上采样，一个与下采样块的特征图的连接，以及两个3 ×3卷积，每个卷积后面都是一个批量归一化和一个ReLU。最后一层是卷积层，到网络的单通道输出，p.为了估计图像中对象的数量，我们添加了一个分支，该分支结合了来自最深层特征的信息以及来自估计概率图的信息。该分支将两个特征（1×1×512的特征向量和256×256的概率图）合并到一个隐藏层中，并使用128维的特征向量输出一个号码。然后我们应用一个ReLU来确保输出是正的，并将其四舍五入到最接近的整数，以获得我们的图4.第一行：输入图像。第二行：覆盖在输入图像上的网络输出（文本中的p）。这可以被认为是对象位置的显著图。第三行：估计的对象位置用红十字标记。对于物体，网络必须能够估计可变数量的物体位置。因此，我们可以设想WHD也用于非FCN网络，只要网络的输出用作等式（5）中的p我们用于训练网络的训练损失是等式（5）和用于对象计数回归的平滑L1损失的最后的训练损失是L（p，Y）=dWH（ p，Y）+Lreg（C-C（ p）），（9）其中Y是包含图像中对象的地面真值坐标的集合，p是网络的输出，C=|Y|，C（p）是估计的对象Lreg（·）是回归项，我们使用平滑L1或Huber损失[21]，定义为.0的情况。5x2，用于|X|<1最终估计的对象的数量，C。虽然我们使用这种特殊的网络架构，Lreg（x）=|-0。| − 0. 五、为|X| ≥ 1（十）可以使用任何其它体系结构。唯一的要求是网络的输出图像必须与输入图像大小相同FCN的选择源于其输出作为WHD（等式（5））中的权重（px）在以前的作品中[24，11]，平均Haussdorf距离的变体成功地用于直接估计点集的非FCN网络然而，在这些情况下，估计集的大小由最后一层的大小固定。定位一个未知号码当回归误差很高时，这种损失对离群值是鲁棒的，同时在原点是可微的。该网络输出显著性图p，其指示为px∈[0，1]表示像素x. 图4显示了第二行中的p在评估过程中，我们的最终目标是获得Y，i。例如，所有物体位置的估计。为了将 p 转换为 Y，我们对 p 进行阈值化以获得像素T={x∈N}。|p x> τ}。我们可以使用三种不同的方法来决定使用哪个τ：64851. 对所有图像使用常数τ2. 使用Otsu阈值[36]为每个图像找到自适应τdif。3. 使用基于Beta混合模型的阈值处理（BMM）。该方法使用[45]中描述的算法将两个Beta分布的混合拟合到p值，然后将具有最高平均值的分布的平均值作为τ。图4在第三行中示出了对显著性图p进行阈值化的结果的示例。然后，我们将高斯混合模型拟合到点T。这是使用期望最大化（EM）[34]算法和估计的植物数量C来完成的。拟合的高斯分布的均值被认为是最终估计值Y。图4的第三行显示了估计的物体位置与红色十字。注意即使由FCN产生的地图具有良好的质量，即，每个对象位置上都有一个群集，如果出现以下情况，EM可能不会产生正确的对象位置：|C−C|>0。五、示例可以在图4的第一列中观察到，其中单个头被错误地估计为两个头。6. 实验结果我们用三个数据集来评估我们的方法第一个数据集包括从购物中心的监控摄像头获取的2，000张图像商场它包含人群头部的注释位置。该数据集可在http://personal.ie.cuhk.edu.hk/www.cloy/downloads_mall_cloet.html上公开获取[32]。分别将80%、10%和10%的图像随机分配到训练、验证和测试数据集第二数据集是提出在 [13个国家] 与罗马字母V，可在http://www.ti.uni-tuebingen.de/上公开查阅Pupil-detection.1827.0.html.它包含2，135图像与一只眼睛，目标是检测瞳孔的中心。它也被随机分为训练，验证和测试数据集分别为80/10/10%图5.具有15，208株植物的农田的正射校正图像。红色区域用于训练，绿色区域用于验证，蓝色区域用于测试。训练区域中有5，000个，验证区域中有5，000个，测试区域中有5，000个请注意，其中一些作物可能高度重叠。我们将在https://engineering.purdue.edu/高粱/高粱-植物中心-2016.我们相信这个数据集对社区很有价值，因为它由于植物之间的高度封闭性而提出了挑战所有图像的大小都调整为256×256，因为这是我们的架构允许的最小尺寸。地面实况物体的位置也相应地按比例缩放。至于数据增强，我们只使用随机水平-跳个不停。对于植物数据集，我们还垂直翻转了我们在等式（7）中设置α= −1。我们也尝试过α= −2，但没有明显的改善，但我们并没有试图找到一个最佳值。我们重新训练每个数据集的网络，即，我们不使用预先训练的权重。对于商场和工厂数据集，我们使用了32的批量大小和Adam优化器[25，39]，学习率为10−4，动量为0.9。对于瞳孔数据集，我们通过删除五个中心节点来减小网络的大小层，我们使用了64的批量大小，随机梯度下降，学习率为10−3，动量为0.9。在每个时期结束时，我们在验证集上评估等式（ 4 ）中的平均 Hauss-dorf 距离（AHD），并选择验证时具有最低AHD的时期。作为指标，我们报告精度，召回率， F 分数，AHD ，平均绝对误差（ MAE ），均方根误差（RMSE）和平均绝对百分比误差（MAPE）：‚N.N第三个数据集由农田的航空影像组成1Σ。 1 Σ。. 2从40米高空的无人机上拍摄。这些图像被拼接在一起，生成一个6000×12000的0的正射图像。75厘米/像素分辨率如图5所示。Mae=N i=1|，RMSE =，|,RMSE =,NN. .i=1. ei.（十一）这张照片中所有植物中心的位置都是地面真实的，总共有15，208个独特的植物中心。这个马赛克图像被分割，剩下的80%区域1MAPE= 100NΣi=1Ci/=0. ei.Ci（十二）用于训练，中间的10%用于验证，右边的10%用于测试。在每个区域内，生成随机图像作物。这些随机裁剪具有在100和600像素之间的均匀分布的高度和宽度。我们在这个世界上提取了50，000个随机的图像作物，其中ei=Ci−Ci，N是图像的数量，Ci是第i个图像中的真实对象计数，Ci是我们的估计。如果估计的位置最多在距地面实况点的距离r处，则对真阳性进行计数。如果估计的位置没有任何6486距离最大为r的地面实况点。如果真实位置在至多r的距离处确实具有任何估计位置，则对假阴性进行计数。精度是我们估计的点中足够接近真实点的比例。回忆是我们能够检测到的真实点的比例。F分数是精确率和召回率的调和平均值。请注意，即使我们估计每个地面真值点不止一个对象位置，也可以实现100%的精确度和召回率。这不是一个理想的本地化。为了考虑到这一点，我们还报告了指示对象数量是否不正确的指标（MAE，RMSE和MAPE）。AHD可以被解释为以像素为单位的平均位置误差。图8示出了作为r的函数的F分数。注意，r只是一个评估参数。在培训或测试期间不需要。MAE、RMSE和MAPE如表1所示。请注意，我们对所有任务都使用相同的架构，除了瞳孔数据集，我们删除了中间层。此外，在瞳孔检测的情况下，我们知道图像中总是有一个对象因此，回归是不必要的，我们可以消除回归公式（9）中的项，并固定Ci=Ci=1i。对象定位的一种简单的替代方法是使用通用对象检测器，如Faster R-CNN [41]。我们可以通过构建以每个标记点为中心的固定大小的绑定框来训练这些检测器。然后，每个边界框的中心可以被视为es。估计位置。我们使用大小为20×20（近似平均头部和瞳孔大小）的边界框，锚点大小为16×16和32×32。请注意，这些参数可能是次优的，即使它们被选择为匹配对象的类型。我们用于softmax分数的阈值是0.5，用于交集的阈值是0.4，因为它们最小化了验证集上的AHD我们使用VGG-16架构[49]，并使用随机梯度下降进行训练，学习率为10−3，动量为0.9。对于瞳孔数据集，我们总是选择得分最高的边界框我们通过实验观察到，Faster R-CNN在检测非常困难的情况下，小的物体彼此非常接近。表2-4显示了Faster R-CNN在商场、学生和工厂数据集上的结果请注意，商场和工厂数据集具有许多小而高度重叠的对象，这对FasterR-CNN来说是最具挑战性这种行为与[19]中的观察结果一致，其中，所有通用对象检测器的性能都很差，在最佳情况下，Faster R-CNN我们还尝试使用均值漂移[9]代替高斯混合（GM）来检测局部最大值。然而，均值漂移易于检测多个局部极大值，并且GM对离群值更具鲁棒性。在我们的实验中，我们观察到精确度和召回率比使用GM差得多。更重要的是，使用Mean图6.对阈值τ的F分数的影响。图7. Beta混合模型拟合的px值和BMM方法使用的阈值τ。Shift使验证速度降低了一个数量级。Mean Shift算法在我们的一张图像上运行的平均时间是12秒，而使用scikit-learn实现时，使用期望最大化拟合GM大约需要0.5秒[38]。我们还研究了参数τ的影响，以及在第5节中介绍的选择它的三种方法。有人可能会认为这个参数可能是一些指标之间的权衡，应该进行交叉验证。在实践中，我们观察到τ不能平衡精确度和重调用，因此精确度-召回率曲线没有意义。相反，我们在图8中绘制F分数作为r的函数。此外，交叉验证τ将意味着为所有图像固定“最佳”值。图6显示，我们可以使用自适应阈值方法（Otsu或BMM）做得更好。请注意，BMM阈值（虚线）总是优于Otsu（实线），并且大多数固定τ。为了证明BMM方法的合理性，请注意，在图4中，估计图中的大多数值都非常高或非常低。这使得Beta分布比正态分布（如Otsu方法中所使用的）更适合图7显示了拟合的BMM和通过BMM方法自适应选择的τ648799.595.788.680.060.040.0F-score表2.头部定位结果使用商场数据集，使用r= 5。20.00 2 46 8 10 12 14r（像素）表3.瞳孔检测结果，使用r= 5。查准率和查全率是相等的，因为只有一个估计对象和一个真实对象。图8.作为r的函数的F分数，真实和估计的对象位置之间的最大距离，以认为它是正确的或不正确的。更高的r使得正确定位对象更容易。表1.我们的方法用于对象定位的结果，使用r= 5。在等式（4）、（11）-（12）中定义了Δ未示出瞳孔数据集的回归度量，因为始终存在单个瞳孔（C=1）。图8显示了其他值的F分数。表4. 使用植物数据集的植物定位结果，使用r= 5。米制商场瞳孔植物平均最后，由于我们的方法同时定位和计数对象，因此可以用作计数技术。我们还使用 [62] 中提供的ShanghaiTech Part B数据集在人群计数任务中评估了我们的技术，并实现了19.9的MAE。即使我们没有超过专门针对人群计数进行微调的最先进的方法[29]，我们也可以用我们的通用方法获得相当我们预计未来的改进，如架构变化或使用迁移学习，以进一步提高性能。加权Haus-dorff距离损失和训练模型的PyTorch实现是使 ... 有用可以在 www.example.com 上找到https://github.com/javiribera/locating-objects-without-bboxes。7. 结论我们已经提出了一个损失函数的任务定位图像中的对象，不需要边界框。该损失函数是对平均豪斯多夫距离（AHD）的修改，该平均豪斯多夫距离（AHD）测量两个无序的点集为了使AHD相对于网络输出可微，我们在估计对象位置时考虑了网络网络的输出是对象位置的显著性图和对象的估计数量。我们的方法不限于图像中对象的最大数量，不需要边界框，也不使用区域建议或滑动窗口。这种方法可以用于边界框不可用的任务，或者对象的小尺寸使得边界框的标签不切实际的任务。我们已经用三个不同的数据集评估了我们的方法，并且优于通用对象检测器和特定任务的技术。未来的工作将包括在单个网络中开发多类对象位置估计器，并评估更现代的CNN架构。鸣谢：这项工作是由美国高级研究计划能源（ARPA-E）资助的。能源部本文作者的观点和意见不一定反映美国政府的观点和意见。政府或其任何机构。我们感谢艾曼·哈比卜教授提供本文所用的正射照片。联系方式：Edward J. Delp，ace@ecn.purdue.edu瞳孔数据集商城数据集植物数据集%度量Faster-RCNN我们精度81.1%百分之九十五点二召回76.7%百分之九十六点二F-score百分之七十八点八95.7%方法精度召回AHD斯沃斯基[53]百分之七十七百分之七十七-[13]第十三话百分之七十七百分之七十七-Faster-RCNN99.5%99.5%2.7像素度量Faster-RCNN我们精度百分之八十六点六88.1%召回百分之七十八点三百分之八十九点二F-score82.2%百分之八十八点六数据集数据集数据集精度95.2%百分之九十九点五88.1%94.4%召回百分之九十六点二百分之九十九点五百分之八十九点二95.0%F-score95.7%百分之九十九点五88.6%94.6%6488引用[1] S. 艾希 I. 艾哈迈德 I. 奥布西安尼科夫， I. 斯塔夫内斯，A.若苏特湾Strueby，H.杜杜角波兹尼亚克，S.衬衫Deepwheat：通过深度学习从作物图像中估计表型性状。 IEEE Winter Conference onApplications of Computer Vision，2018年3月。内华达州的州际线[2] M. Andriluka、S.罗斯和B。席勒通过检测进行人员跟踪和通过跟踪进行人员检测。IEEE计算机视觉与模式识别，2008年6月阿拉斯加州安克雷奇[3] J. L. Araus和J. E.凯恩斯田间高通量表型分析：新的农作物育种前沿。Trends in Plant Science，19（1）：52[4] E. M.阿金湖P. Chew，D. P. Huttenlocher，K. Ke-dem和J. S.米切尔一种比较多边形形状的有效可计算度量。IEEE Trans- actions on Pattern Analysisand Machine Intelligence，13（3），March 1991.[5] H. 阿图什河Lucchetti和R.J. B. 韦茨ρ-Hausdorff距离的拓扑Annali di Matematica Pura ed Appliata，160（1）：303-320，December 1991.[6] S. Bell，P. Upchurch，N. Snavely和K.巴拉利用上下文数据库中的材料在野外进行材料识别（补充材料）。IEEE计算机视觉与模式识别会议论文集，2015年6月。马萨诸塞州波士顿[7] M. D. Breiiffel，F.赖希林湾Leibe，E. Koller-Meier和L. V.Gool在线多人跟踪-通过检测从一个单一的，未校准的相机。IEEE Transactions on PatternAnalysis and Machine Intelligence，33（9）：1820[8] B. S. Chauhan和D. E.约翰逊行距和除草时期影响旱稻产量。大田作物研究，121（2）：226[9] D. Comaniciu 和 P. 米尔 Mean Shift ： A RobustApproach Toward Feature Space Analysis. IEEETransactions on Pattern Analysis and MachineIntelligence，24（5）：603[10] M.- P.Dubuisson和A. K.贾恩。一种改进的Haus-dorff距离用于目标匹配. 模式识别，第566-568页[11] H.范，H. Su和L. Guibas一种从单幅图像重建三维物体的IEEE计算机视觉和模式识别会议论文集，第2463- 2471页，2017年7月。檀香山，嗨。[12] D. E. 法纳姆行距、种植密度和杂交种对玉米籽粒产量和水分的影响。 Agronomy Journal ， 93：1049[13] W. Fuhl，T. Kubler，K. 西佩尔W. 罗森斯蒂尔，以及E.卡斯内奇ExCuSe：真实世界场景中的鲁棒瞳孔检测。图像和专利计算机分析国际会议论文集，第39-51页，2015年9月。马耳他瓦莱塔[14] W. Fuhl ， T. 桑蒂尼角 Reichert ， D.Claus ，A.Herkommer，H. Bahmani，K. Rifai，S. Wahl和E.卡斯内奇非侵入式医生瞳孔检测未修改的显微镜目镜。生物学和医学中的计算机，79：36[15] R.娘娘腔。快速R-CNN。IEEE计算机视觉国际会议论文集，第1440-1448页[16] I. Goodfellow，Y. Bengio 和A.考维尔深度学习MIT Press，November 2016.[17] J. Gu，X. Yang，S. De Mello和J.考茨动态面部分析：从贝叶斯滤波到递归神经网络。IEEE计算机视觉和模式识别会议论文集，第1548-1557页，2017年7月。檀香山，嗨。[18] K. 他，G. Gkioxari，P. Do l l a'r，andR. 娘娘腔。面罩R-CNN。arXiv：1703.06870，2017年4月。[19] J. Huang，V.拉托德角孙，M。Zhu，中国茶青冈A.科拉提卡拉A.法特希岛Fischer，Z. Wojna，Y.宋，S. Guadar-rama和K.墨菲现代卷积对象检测器的速度/精度权衡。IEEE计算机视觉和模式识别会议论文集，2017年7月。檀香山，嗨。[20] S. Huang，X.Li，Z.Zhang，F.Wu，S.加奥河，巴西-地纪和J. Han 身体结构感知深度人群计数。 IEEETransactions on Image Processing，27（3）：1049[21] P. J. Huber 位置参数的鲁棒估计数学统计年鉴，第73[22] P. Isola，J.- Y. Zhu，T. Zhou和A. A.埃夫罗斯使用条件对抗网络的图像到图像翻译。IEEE计算机视觉和模式识别，2017年7月亲爱的，你好.[23] K. L. K. Lin 和W.萧人脸识别的空间特征加权Hausdorff距离。Pat-tern Recognition，36（8）：1827[24] H. E. Khiyari和H. 韦克斯勒使用卷积神经网络和集合距离的年龄不变人脸识别。信息安全杂志，8（3）：1746489[25] D. P. Kingma和J. BA. Adam：随机最佳化的方法。Proceedings of the International Conference forLearning Representations ， abs/1412.6980 ， April2015.加利福尼亚州圣地亚哥[26] C. S.库布鲁斯利Banach空间Lp.《计量理论的基本原理》，第83页。Springer，Cham，2005.[27] Y. LeCun，Y. Bengio和G.辛顿深度学习Nature，521：436[28] V.Lempitsky和A.齐瑟曼。学习计算图像中的物体。 Proceedings ofthe AdvancesinNeuralInformation Processing Systems，第1324- 1332页，2010年12月。加拿大温哥华[29] Y. Li，X. Zhang和D.尘CSRNet：用于理解高度拥挤场景的扩展卷积神经网络。IEEE计算机视觉和模式识别会议论文集，第1091-1100页[30] S.廖，Y. Gao，中国粘蝇A. Oto和D.沈表征学习：用于前列腺磁共振分割的统一深度学习框架。Proceedings of the Medical Image Computing andComputer-Assisted Intervention ，第 254-261 页，2013年9月。日本名古屋。[31] W. Liu，L.安格洛夫，D。埃尔汉角塞格迪，S。里德C. Fu

下载后可阅读完整内容，剩余1页未读，立即下载