广义交的度量和损失

184 浏览量更新于2023-10-17 收藏 794KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

并上的广义交：边界盒回归的度量和损失Hamid Rezatoeli1，2Nathan Tenghu1JunYoung Gwak1Amir Sadeghian1，3 Ian Reid2Silvio Savarese11美国斯坦福大学计算机科学系2澳大利亚阿德莱德大学计算机科学学院3美国hamidrt@stanford.edu摘要交并（IoU）是对象检测基准中最常用的评价指标然而，在优化用于回归边界框的参数的常用距离损失和度量的最优目标是度量本身。在轴对齐的2D边界框的情况下，可以示出IoU可以直接用作回归损失。然而，IoU具有平台，使得在非重叠边界框的情况下优化是不可行的。在本文中，我们通过引入一个广义版本作为新的损失和新的度量来解决IoU通过将这种广义的IoU（GIoU）作为一种损失纳入最先进的对象检测框架，我们使用标准的，基于IoU的，和新的，基于GIoU的，对流行的对象检测基准（如PASCAL VOC和MS COCO）的性能指标，显示出其性能的一致||.||= 8.412IoU= 0.26GIoU= 0.23||.||= 9.071IoU = 0.27GIoU = 0.24||.||= 8.412IoU= 0.49GIoU= 0.41（一）||.||= 9.071IoU = 0.59GIoU = 0.59（b）第（1）款||.||= 8.412IoU= 0.65GIoU= 0.65||.||= 9.071IoU = 0.66GIoU = 0.621. 介绍边界框回归是许多2D/3D计算机视觉任务中最基本的组件之一诸如目标定位、多目标检测、目标跟踪和实例级分割等任务依赖于精确的边界框回归。利用深度神经网络提高应用程序性能的主要趋势是提出更好的架构骨干[15，13]或更好的策略来提取可靠的局部特征[6]。然而，一个被广泛忽视的改进机会是用基于交集的度量损失（IoU）来取代替代回归损失，如101和102-范数图1.两组示例（a）和（b）具有由（a）两个角（x1，y1，x2，y2）和（b）cen表示的边界框。ter和size（xc，yc，w，h）。对于每个集合中的所有三种情况，（a）2-范数距离，||. ||.||. ||1, between the representationof two rectangles are exactly same value, but theirIoU和GIoU的价值观非常不同。IoU，也称为Jaccard指数，是用于比较两个任意形状之间的相似性的最常用的IoU对比较对象的形状属性进行编码，例如：宽度，高度和两个边界框的位置，到区域属性，然后计算一个归一化的措施，重点1是他们的658659体积（volume）。这个属性使得IoU对于所考虑的问题的规模是不变的。由于这种吸引人的属性，用于评估分割[2，1，25，14]，对象检测[14，4]和跟踪[11，10]的所有性能指标都依赖于此度量。然而，可以表明，在最小化通常使用的损耗，e.G. n-范数，定义在2D/3D中的两个边界框的参数表示上，并改进其IoU值。例如，考虑图1中的简单2D场景。1（a），其中预测的边界框（黑色矩形）和地面真值框（绿色矩形）由其左上角和右下角表示，即（x1，y1，x2，y2）。为了简单起见，让2-norm，两个盒子的其中一个角之间是固定的。因此，第二个角位于以绿色矩形的第二个角为中心的具有固定半径的圆上的任何预测的边界框（由灰色虚线圆示出）将与地面真值框具有完全相同的2-范数距离;然而，它们的IoU值可能会有很大的不同（图1）。1（a））。同样的论点可以扩展到任何其他的表示和损失，例如.图1（b）.直观地，这些类型的目标的良好局部最优可能不一定是IoU的局部最优。此外，与IoU相反，基于上述参数表示定义的n范数目标对于问题的规模不是不变的为此，几对边界框具有相同的重叠水平，但由于不同的比例，例如，从不同的角度来看，会有不同的客观价值。此外，一些表示可能会因用于表示的不同类型的参数之间缺乏正则化而烦恼。例如，在中心和大小表示中，（xc，yc）定义在位置空间上，而（w，h）属于大小空间。复杂性增加更多的参数被纳入，例如。旋转，或向问题添加更多维度时。为了缓解上述一些问题，最先进的物体检测器引入了锚框的概念[22]作为假设良好的初始猜测。他们还定义了一个非线性表示[19，5]，以天真地补偿尺度变化。即使有了这些手工修改，优化回归损失和IoU值之间仍然存在差距。在本文中，我们探索了两个轴对齐的矩形之间的IoU的计算，或者通常是两个轴对齐的n-正交位之间的IoU的计算，其具有直接的解析解，并且与流行的信念相反，在这种情况下，IoU可以反向传播[24]，即。可以直接作为目标函数进行优化。因此，优选使用IoU作为2D对象检测任务的目标函数。给定在优化度量本身与作为替代损失函数，最优选择是度量本身。然而，IoU作为一个指标和损失，主要问题：如果两个对象不重叠，则IoU值将为零，并且将不反映两个形状彼此相距多远。在非重叠对象的这种情况下，如果IoU被用作损失，则其梯度将为零并且不能被优化。在本文中，我们将通过将概念扩展到非重叠情况来解决IoU我们确保这个推广（a）遵循与IoU相同的定义，I.E.将所比较的对象的形状属性编码到区域属性中;（b）保持IoU的尺度不变性质，以及（c）在重叠对象的情况下确保与IoU的强相关性。我们介绍这个广义版本的IoU，命名为GIoU，作为一个新的met-ric比较任何两个任意形状。我们还提供了一个分析解决方案，用于计算两个轴对齐的矩形之间的GIoU，允许它在这种情况下被用作损失。将GIoU损失扩展到最先进的对象检测算法中，我们使用两种标准，即基于IoU的[4，14]，以及新的基于GIoU的性能指标。本文的主要贡献总结如下：• 我们引入这个广义版本的IoU，作为一个新的度量比较任何两个任意形状。• 我们提供了一个分析解决方案，使用GIoU作为两个轴对齐的矩形或一般n-正交位之间的损失1。• 我们将GIoU损失纳入最流行的对象检测算法，如Faster R-CNN，屏蔽R-CNN和YOLO v3，并显示它们在标准对象检测基准上的性能改进。2. 相关工作目标检测精度测量：交集大于并集（IoU）是在对象检测中使用的事实上的评估度量。它用于确定一组预测中当使用IoU作为评估指标时，必须选择准确性阈值。例如，在PASCAL VOC挑战[4]中，广泛报道的检测精度测量，即。平均精度（mAP）是基于固定的IoU阈值计算的，I.E. 0的情况。五、然而，任意选择IoU阈值不能完全反映不同方法的定位性能。高于阈值的任何定位精度被同等对待。为了使该性能指标对IoU阈值的选择不那么敏感，MS COCO基准挑战[14]在多个IoU阈值上对mAP进行平均。1在Supp中提供扩展。材料660边界框表示和损失：在二维物体检测中，包围盒参数的学习是关键。在文献中已经提出了各种边界框表示和损失Redmon等人在YOLO v1[19]中，提出了一种对边界框参数的直接回归，并进行了一个小的调整，以预测边界框大小的平方根，从而纠正尺度敏感性。Girshick等人[5]在R-CNN中，通过预测使用选择性搜索算法计算的先前边界框的位置和大小偏移来参数化边界框表示[23]。为了减轻表示的尺度敏感性，在对数空间中定义边界框大小偏移。然后，一个2-范数目标，也被称为MSE损失，被用作优化的目标。后来，在Fast R-CNN [7]中，Girshick提出了101-smooth loss，以使学习对离群值更加鲁棒。Ren等人[22]建议使用一组密集的先验边界框，称为锚框，然后回归到边界框位置和大小的小变化。然而，这使得训练边界框分数更加困难，因为正样本和负样本之间存在显著的类别不平衡。为了缓解这个问题，作者后来引入了焦点损失[13]，它与我们论文的主要焦点正交。最流行的物体探测器[20，21，3，12，13，16] uti-边界框表示和上面提到的损失的一些组合。这些相当大的努力已经在对象检测中产生了显著的改进。我们表明，使用GIoU可能有一些机会进一步改进本地化，因为它们的边界框回归损失并不直接代表核心评估指标，即。借条使用近似或替代函数优化IoU：在语义分割任务中，已经做出了一些努力来优化IoU，[18]或者说，是一种“无功而返”的行为。类似地，对于对象检测任务，最近的工作[8，24]已经尝试直接或间接地结合IoU以更好地执行边界框回归。然而，它们遭受在非重叠情况下优化IoU中在本文中，我们通过引入一个广义版本的IoU，这是直接纳入作为一个损失的对象检测问题的弱点IoU3. 并上的广义交用于比较两个任意形状（体积）A，B之间的相似性的交集（IoU）∈Rn通过以下方式获得算法1：并集上的广义交输入：两个任意凸形状：A，B∈S∈Rn输出：GIoU1对于A和B，找到最小的包围凸对象C，其中C<$S ∈Rn|A ∩ B|2 IOU=|A ∪ B||C\（A ∪B）|3GIoU=IoU−|C|• 作为一种距离，例如。LIoU= 1−IoU，是一个度量（根据数学定义）[9]。这意味着LIoU满足度量的所有属性，例如非负性，身份对称性和三角形不等式。• IoU对问题的规模是不变的。这意味着两个任意形状A和B之间的相似性与它们的空间S(the证据在Supp中提供。材料）。然而，IoU有一个主要的缺点：• 如果|A∩B|= 0，IoU（A，B）= 0。在这种情况下，IoU不反映两个形状是在彼此附近还是彼此非常远。为解决这一问题，我们建议将IoU，即Generalized Intersection over UnionGIoU。对于两个任意凸形（体）A，B<$S∈Rn，我们首先找到最小凸形C<$S ∈Rn包括A和B2。用于比较两种特定类型的几何形状，C可以是相同的类型。例如，两个任意椭圆，C可以是包围它们的最小椭圆。然后，我们计算C所占据的体积（面积）（不包括A和B）除以C所占据的总体积（面积）之间的比率。这表示关注A和B之间的空体积（面积）的归一化测量。最后，通过从IoU值中减去该比率来获得GIoU。GIoU的计算总结在Alg. 1.一、GIoU作为一种新的度量标准，具有以下特性：31. 类似于 IoU ， GIoU 作为距离，例如。 LGIoU=1−GIoU，保持度量的所有属性，例如非负性，不可逆单位，对称性三角形不等式2. 与IoU类似，GIoU对问题的规模是不变的。IOU=|A∩ B||A ∪ B|（一）3. GIoU总是IoU的下界，即。A、B区SGIoU（A，B）≤IoU（A，B），并且这个下界两个吸引人的特征，使得这种相似性测量在评估许多2D/3D计算机视觉任务时很受欢迎，如下所示：当A和B的形状2非凸情形的扩展已在supp中提供。材料3他们的证据已经在supp中提供。材料66111 12 222 1 21相似性和接近性，即，limA→BGIoU（A，B）=IoU（A，B）。4. A，B算法二：IoU和GIoU作为边界框损失输入：预测的Bp和地面实况Bg边界框坐标：Bp=（xp，yp，xp，yp），Bg=（xg，yg，xg，yg）。具有对称范围，即， A、B⊆S，−1≤11221122GIoU（A，B）≤1。输出：LIoU，LGIoU。1对于预测框Bp，确保xp> xp且yp> yp：2 1 2 1xp=min（xp，xp），xp=max（xp，xp），I) 与IoU类似，值1仅在两个1 1 2 2 1 2yp=min（yp，yp），yp=max（yp，yp）.对象完全重叠，即，如果|A∪B|为|A∩B|、1122G g12g g g g2 计算B的面积：A=（x2−x1）×（y2−y1）。那么GIoU=IoU= 13计算Bp 的面积：Ap=（xp− xp）×（yp− yp）。2 1 2 1II) GIoU值渐近收敛到-1时，占据区域之间的比率4计算Bp和Bg之间的交集I：xI=max（xp，xg），xI=min（xp，xg），yI=max（yp，yg），yI=min（yp，yg），两种形状，|A∪B|体积（面积）1 .11222（xI−xI）×（yI−yI）如果 xI>xI，yI>yI封闭的形状|C|趋于零，即，2 1 21I=2 1 2 1Lim|→0|→0|C|GIoU（A，B）=−1。0否则。5 求最小封闭盒Bc的坐标：xc=min（xp，xg），xc=max（xp，xg），11 12 2 2总之，这种概括保持了主要的正确性-yc=min（yp，yg）， yc=max（yp，yg）.111222在纠正其弱点的同时，因此，GIoU可以在所有性能指标中适当替代IoU6计算Bc的面积：Ac=（xc− xc）×（yc− yc）。7IoU=I，其中U=Ap+Ag−I。在2D/3D计算机视觉任务中使用本文在分析了现有文献的基础上，我们只专注于2D对象检测，我们可以很容易地为GIoU推导出一个分析解决方案，U8GIoU=IoU−Ac− U梭度量和损失。扩展到非轴对齐的3D情况是留给未来的工作。3.1. GIoU作为边界框回归到目前为止，我们引入了GIoU作为任意两个任意形状的度量。然而，与IoU的情况一样，没有解析解来计算两个任意形状之间的相交和/或找到它们的最小封闭凸对象。幸运的是，对于2D对象检测任务，任务是比较两个轴对齐的边界框，我们可以证明GIoU有一个简单的解决方案。在这种情况下，交点和最小的封闭对象都具有矩形形状。可以表明，它们的顶点的坐标只是被比较的两个边界框之一的坐标，这可以通过使用最小和最大函数比较每个顶点的坐标来获得要检查两个边界框是否重叠，还必须检查一个条件。因此，我们有一个精确的解决方案来计算IoU和GIoU。由于反向传播的最小，最大和分段线性函数，如。Relu的算法是可行的，可以证明Alg.2有一个行为良好的衍生物。因此，IoU或GIoU可以直接作为损失，即。LIoU或LGIoU，用于优化基于深度神经网络的对象探测器在这种情况下，我们直接优化一个指标作为损失，这是度量的最佳选择然而，在所有非重叠情况下，IoU具有零梯度，这会影响训练质量和收敛速度。相比之下，GIoU在所有可能的情况下都有梯度，包括不重叠的情况。此外，使用性质3，9 LIoU=1 −IoU，LGIoU = 1 − GIoU。我们表明，GIoU与IoU有很强的相关性，特别是在高IoU值。我们也证明了这种相关性定性图。2通过从两个2D矩形的坐标中获取超过10K的随机样本。在图2中，我们还观察到，在低重叠的情况下，例如，IoU≤0。2且GIoU≤0。2、与IoU相比，GIoU有机会发生更大的变化。为此目的，在这些情况下，与IoU相比，GIoU在任何可能的状态下都可能具有更陡的梯度。因此，opti-将GIoU视为损失，LGIoU可以是比LIoU更好的选择，无论最终使用哪种基于IoU的我们的实验结果证明-证实这一说法。损失稳定性：我们还调查是否存在任何极端的情况下，使损失不稳定/未定义给定的任何值的预测输出。10.80.60.40.20-1-0.8-0.6 -0.42019 - 06 - 24 00：00：00GIoU图2.重叠和非重叠样本的GIoU和IOU之间的相关性。重叠样本线IoU =GIoU非重复采样线IoU = 0GIoU 0IOU662一一一一一一C一考虑到地面真值包围盒，Bg是面积大于零的直角，即。Ag>0。Alg. 2（1）和Alg.2（4）分别保证预测面积Ap和交点I为非负值，I.E. Ap≥0且I≥0<$Bp∈R4.所以U>0对Bp=（xp，yp，xp，yp）∈R4的任意预测值.在他们自己的部门提供。PASCAL VOC 2007 ： Pascal Visual Object Classes（VOC）[4]基准是分类、对象检测和语义分割中使用最广泛的数据集之一。它由9963张图像组成，50/50分割用于训练和测试，其中来自20个预定义的对象11 22这确保了IoU中的分母不能为零对于输出的任何预测值。此外，对于任何价值-当Bp=（xp，yp，xp，yp）∈R4时，并总是较大的类别已经用边界框注释。MS COCO：图像字幕、识别、检测和分割的另一个流行基准是11 22而不是交叉点，即， U ≥ I。因此，Llou总是有界的，即，0≤ LIoU≤1 <$Bp∈R4.为了检验L-GIoU的稳定性，我们引入了额外项，即L-GIoU。一个c−U，应该总是一个定义和有界的值。可以很容易地看出，对于所有预测值，最小包围盒Bc不可能小于Bg在那里-因此， A-U 中的分母总是一个正的非零值，因为Ac≥Ag<$Bp∈R4且Ag≥0。此外，对于任何预测值，最小包围盒的面积不能小于并集，即。Ac≥ U<$Bp∈R4. 因此，GIoU中的额外项为正值有界的因此，LGIoU总是有界的，即。0≤ LGIoU≤2<$Bp∈R4.当IoU = 0时的L GIoU行为：对于GIoU的损失，我们最新的Microsoft Common Objects in Context（MS-COCO）[14]。COCO数据集由超过20万张图像组成，包括训练集、验证集和测试集，以及来自80个类别的超过50万个注释对象实例评估方案。在这纸，我们采取与MS COCO2018挑战赛[14]相同的绩效指标来报告我们的所有结果。这包括计算不同类别标签上特定IoU阈值的平均精度（mAP），以确定真阳性和假阳性。此基准测试中使用的主要性能度量由AP表示，它是不同IoU阈值的值，即IoU={. 5、. 55，· · ·，. 95}。具有L GIoU = 1−GIoU= 1 +Ac−U−IoU。的情况此外，我们修改此评估脚本以使用GIoU当Bg和Bp不重叠时，即，I= 0且IoU= 0，而不是将IoU作为判断真阳性的指标GIoU损失简化为LGIoU = 1 +Ac−U= 2−U。和假阳性。因此，我们报告了另一个值，在这种情况下，通过最小化LGIoU，我们实际上最大化术语U。该项是0通过在不同的GIoU阈值，GIoU ={. 5、. 55，···，. 95}。我们还报告了和1，即，0≤U≤1，当面积IoU和GIoU阈值的mAP值等于0。75岁最小包围框Ac的面积被最小化，而并集U=Ag+Ap，或者更精确地说，预测边界框Ap的面积被最大化。为了实现这一点，预测边界框Bp的顶点应该在鼓励Bg和Bp重叠的方向上移动，使得IOU0 的情况。4. 实验结果我们通过将其纳入最流行的2D对象检测器（如Faster R-CNN [22] ， Mask R-CNN [6] 和 YOLO v3[21]）来评估我们的新边界框回归损失LGIoU为此，我们更换其默认回归损失与 LGIoU ，即。我们在 Faster /Mask-RCNN[22，6]和YOLO v3 [21]中替换了MSE。我们还将基线损失与LIoU4进行了比较。数据集。我们训练所有检测基线并报告两个标准物体检测基准的所有结果I.E. PASCAL VOC [4]和Microsoft Common Objects inContext（MS COCO）[14]挑战。他们的训练方案和评估的细节，4所有源代码，包括评估脚本，培训代码，表中显示为AP75所有检测基线也已使用MS COCO 2018数据集的测试集，其中注释无法用于评估。因此，在这种情况下，我们只能使用标准性能指标报告结果，即。借条4.1. YOLO v3训练方案。我们使用了作者5发布的YOLO v3的原始Darknet实现。对于基线结果（使用MSE损失的训练），我们在所有实验中使用DarkNet- 608作为骨干网络架构，并使用报告的默认参数和每个基准的迭代次数严格遵循其训练协议。为了使用IoU和GIoU损失训练YOLO v3，我们只需将边界框回归MSE损失与LIoU和LGIoU损失解释Alg.二、考虑到分类的额外MSE损失，我们用有界距离来代替诸如MSE距离的无界距离损失，例如，LIoU或LGIoU，我们需要针对分类损失正则化新的边界框回归然而，我们进行了非常小的努力来规范这些新的回归损失，训练模型和PyTorch、TensorFlow和663darknet可在https://giou.stanford.edu上获得。5可在以下网址查阅：https://pjreddie.com/darknet/yolo/664表1. 使用自身损失（MSE）以及LIoU和LGIoU损失训练的YOLOv3 [ 21 ]的性能之间的比较。结果报告在PASCAL VOC 2007测试集上。表2. 使用自身损失（MSE）以及LIoU和LGIoU损失训练的YOLOv3 [ 21 ]的性能之间的比较。结果报告在MS COCO的5K上。、损失评价APAP75、损失评价APAP75IOUGIoUIOUGIoUIOUGIoUIOUGIoU[21]第二十一话.461.451.486.467[21]第二十一话0.3140.3020.3290.317LIoU.466.460.504.498LIoU0.3220.3130.3450.335相对改善%1.08%2.02%3.70%6.64%相对改善%2.55%3.64%4.86%5.68%LGIoU.477.469.513.499LGIoU0.3350.3250.3590.348相对改善%3.45%4.08%5.56%6.85%相对改善%6.69%7.62%9.12%9.78%MSE分类损失。PASCAL VOC 2007。遵循原始代码表3.使用自身损失（MSE）以及使用LIoU和LGIoU损失训练的YOLO v3 [ 21 ]性能之间的比较。结果报告在MS COCO 2018的测试集上。损失评估AP AP 75训练协议，我们使用每个损失来训练网络[21]第21话在高达50K迭代使用最佳网络模型LIoU相对改善%.3212.18%.3484.31%使用PASCAL VOC对每种损失进行了评估LGIoU.333.3622007年测试，结果已在表中报告1.一、相对改善%5.71%8.01%同时考虑基于标准IoU和新的GIoU基于性能指标，结果在Tab. 1表明使用LGIoU作为回归损失训练YOLO v3与其自身的回归损失（MSE）相比可以大大提高其性能。此外，将LIoU作为回归损失并入可以略微改善YOLO v3在这个基准上。然而，与由LGIoU训练的情况相比，这种改进较差。可可小姐。按照原始代码训练集和MS COCO 2014的验证集的88%，多达502k次迭代。然后，我们使用剩余的12%的验证集评估结果，并在Tab中报告结果。二、我们还通过将结果提交到COCO服务器，在MS COCO 2018挑战赛上对它们进行了比较。使用基于IoU的性能指标的所有结果均在表中报告。3 .第三章。与PAS-CAL VOC实验类似，结果表明，使用以下方法训练YOLO v3时，其性能得到了一致的LGIoU作为回归损失。我们还研究了每个组成部分，即。边界框回归和分类阳离子损失，有助于最终的AP性能测量，当然.我们相信，当使用L GIoU损失时，YOLO v3的定位准确性显着提高（图2）。3（a））。然而，通过当前对正则化参数的简单调整，平衡边界框丢失与分类损失，分类分数可能不是最佳的，与基线相比（图。第3（b）段）。由于基于AP的性能度量受小分类误差的影响很大，我们相信通过更好地搜索正则化参数可以进一步改善结果。4.2. 更快的R CNN和Mask R CNN训练方案。我们使用了Facebook research 发布的Faster R-CNN [22]和Mask R-CNN [6]6的最新PyTorch实现。这段代码类似于最初的Caffe2实现7。对于基线结果（使用RIS1-smooth训练），我们在所有实验中使用ResNet-50作为Faster R-CNN和Mask R-CNN的骨干网络架构，并使用报告的默认参数和每个基准的迭代次数为了使用IoU和GIoU损失来训练Faster R-CNN和Mask R-CNN，我们在最终的边界框细化中替换了它们的101平滑损失0.80.750.70.650 1 2训练迭代（一）34105302520151050 1 2训练迭代（b）第（1）款3 4105阶段与LIoU和LGIoU损失解释Alg.二、类似于YOLO v3实验，我们进行了最小的效果，为了使新的回归损失相对于诸如分类和分割损失之类的其他损失正规化。对于所有实验，我们简单地将LIoU和LGIoU损失乘以因子10PASCAL VOC 2007。由于该数据集中没有可用的实例掩码注释，因此我们没有在该数据集上评估Mask R-CNN。因此，我们只训练图3.当YOLO v3 [21]使用其标准（MSE）损失以及LIoU和LGIoU损失进行训练时，分类损失和准确性（平均IoU）相对于训练迭代。使用上述边界框的更快R-CNN6https://github.com/roytseng-tw/Detectron.pytorch7https://github.com/facebookresearch/DetectronIoU损失GIoU损失YOLO损失IoU损失GIoU损失YOLO损失准确性IoU类损失6650.60.50.40.30.20.100.5 0.6 0.7 0.8 0.9 1IoU阈值图4.针对不同IoU阈值的mAP值，即. 5≤IoU≤. 95，对于使用101-smooth（绿色）训练的Faster R-CNN表5. 比较使用自己的损失（101-smooth）以及LIoU和LGIoU损失训练的Faster R-CNN [ 22 ]的性能。结果报告在MS COCO 2018的验证集上。损失，评估AP AP 75IOUGIoUIOUGIoU[22]第二十二话.360.351.390.379LIoU.368.358.396.385相对改善%2.22%1.99%百分之一点五四1.58%LGIoU.369.360.398.388相对即兴。百分比（%）2.50%2.56%2.05%2.37%表6. 比较使用自己的损失（101-smooth）以及LIoU和LGIoU损失训练的Faster R-CNN [ 22 ]的性能。在MSCOCO2018的测试集中报告了结果。损失公制AP AP75正则化子数据集测试集的最终结果已在表中报告。4.第一章根据基于标准IoU和基于新GIoU的性能测量，结果在Tab. 4表明，使用LGIoU作为边界框回归损失来训练Faster R-CNN，与其自身的回归损失（平滑）相比，可以始终如一地提高其性能。此外，将LIoU作为回归损失，在这个实验台上提高Faster R-CNN的性能mark.与使用LGIoU训练的情况相比，该改进较差，参见图 4 ，其中我们针对 IoU 阈值的不同值，即， .5≤IoU≤。九十五可可小姐。同样，我们训练了两个Faster R-CNN，和掩码R-CNN使用上述绑定的每一个在MS COCO 2018训练数据集上进行95K次迭代的框回归损失。表5和表7分别报告了MS COCO 2018验证集上Faster R-CNN和Mask R-CNN的最佳模型结果。我们还通过将结果提交到COCO服务器，在MS COCO 2018挑战赛上对它们进行了使用基于IoU的性能指标的所有结果也报告在表6和表8中。表4. 比较使用自己的损失（101-smooth）以及LIoU和LGIoU损失训练的Faster R-CNN [ 22 ]的性能。结果报告在PASCAL VOC2007测试集上。表7. Mask R-CNN [6]的性能比较使用其自身的损失（E1-smooth）以及LIoU和LGIoU损失进行训练。结果报告在MS COCO 2018上。损失，评估AP AP 75IOUGIoUIOUGIoU[6]第六话.366.356.397.385LIoU.374.364.404.393相对改善%2.19%2.25%1.76%2.08%LGIoU.376.366.405.395相对即兴。百分比（%）2.73%2.81%2.02%2.60%表8. Mask R-CNN [6]的性能比较使用其自身的损失（E1-smooth）以及LIoU和LGIoU损失进行训练。在MSCOCO2018的测试集中报告了结果。损失公制AP AP75[6]第六话.368.399LIoU.377.408相对改善%2.45%2.26%LGIoU.377.409相对改善%2.45%2.51%与上述实验类似，通过使用LGIoU作为回归损失，检测准确度提高了101- smooth [22，6]。然而，不同损失之间的改善量小于以前的实验。这可能是由于几个因素。首先，检测和-Faster R-CNN [22] 和 Mask R-CNN [6] 上的 chor 框比YOLO v3 [21]更密集，导致LGIoU比LIoU具有优势的情况不太频繁，作为非重叠的边界框。其次，边界盒正则化参数已经被简单地调整在PASCAL VOC上，导致 MS COCO上的次优结果[14]。IoU损失违约损失地图、损失评价APAP75IOUGIoUIOUGIoU[22]第二十二话.370.361.358.346LIoU.384.375.395.382相对即兴。百分比（%）3.78%3.88%百分之十点三四10.40%LGIoU.392.382.404.395LIoU（蓝色）和LGIoU（红色）损失。[22]第二十二话.364.392LIoU.373.403相对改善%2.47%2.81%20 k iter数据集训练集的回归损失LGIoU.373.404国家。然后，我们搜索性能最好的模型，相对改善%2.47%3.06%不同参数的验证集，例如num-训练迭代和边界框回归损失666图5.使用YOLO v3 [ 21 ]进行COCO验证的示例结果，使用（从左到右）LGIoU，LIoU和MSE损失进行训练。地面实况用实线表示，预测用虚线表示。图6.使用Mask R-CNN [ 6 ]进行COCO验证的两个示例结果，使用（从左到右）LGIoU，LIoU，Llo1-平滑损失进行训练。地面实况用实线表示，预测用虚线表示。5. 结论在本文中，我们介绍了一个推广到IoU作为一个新的度量，即GIoU，用于比较任何两个任意形状。我们证明了这个新指标具有IoU所具有的所有吸引人的属性，同时解决了它的弱点。因此，它可以是依赖于IoU度量的2D/3D视觉任务中的所有性能测量我们还提供了用于计算两个轴对齐的矩形之间的GIoU的解析解。我们证明了可以计算GIoU作为距离的导数，并且它可以用作边界框回归损失。通过将其整合到最先进的目标检测算法中，我们使用常用的性能指标和我们的新准确性指标，不断提高其在PASCAL VOC和MS COCO等流行目标检测基准上的性能，即基于GIoU的平均精度。由于度量的最佳损失是度量本身，因此我们的GIoU损失可以在需要2D边界框回归的所有应用中用作最佳边界框回归损失。在未来，我们计划研究的可行性，推导出一个解析解的GIoU的情况下，两个旋转的长方体。这种扩展并将其视为一种损失，可能具有很大的潜力来提高3D对象检测框架的性能。引用[1] H. Alhaija，S.马斯蒂科韦拉湖Mescheder，A.盖革，以及C.罗瑟增强现实与计算机视觉：城市驾驶场景的高效数据生成。国际计算机视觉杂志（IJCV），2018年。2[2] M.科德茨，M。奥姆兰，S。拉莫斯，T.雷费尔德，M。恩茨韦勒R.贝南森，美国弗兰克，S。罗斯和B。席勒用于语义城市场景理解的cityscapes数据集。IEEE计算机视觉与模式识别会议（CVPR），2016年。2[3] J.戴，Y. Li，K. He和J. Sun. R-fcn：通过基于区域的全卷积网络的目标检测。神经信息处理系统的进展，第379-387页，2016年。3[4] M. 埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I. 威廉斯，J.Winn和A.齐瑟曼。 pascal可视对象类（voc）chal-667lenge. International Journal of Computer Vision ， 88（2）：303二、五[5] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于准确的对象检测和语义分割。在IEEE计算机视觉和模式识别会议论文集，第580-587页，2014年。二、三[6] K. 他，G. Gkioxari，P. Doll a'r 和R. 娘娘腔。面具r-cnn。在计算机视觉（ICCV），2017年IEEE国际会议上，第2980-2988页。IEEE，2017年。一、五、六、七、八[7] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 770-778，2016中。3[8] B.江河，巴西-地Luo，J. Mao，T. Xiao和Y.蒋获取定位置信度以实现准确的目标检测。欧洲计算机视觉会议（ECCV）研讨会，2018年。3[9] S.科苏布关于jaccard距离三角不等式的一个注记。arXiv预印本arXiv：1612.02696，2016年。3[10] M. Kristan等人。视觉对象跟踪vot2016挑战结果。欧洲计算机视觉会议（ECCV）研讨会，第777-823页，10月8日。2016. 2[11] L. Leal-Taix e′，A. 米兰岛D. Reid，S. Roth和K. 辛德勒 Motchallenge 2015 ：多目标跟踪的基准。CoRR，abs/1504.01942，2015。2[12] T.- Y. Lin，P.多尔河格希克角他，B.Hariharan和S.贝隆吉用于对象检测的特征金字塔网络。在计算机视觉和模式识别（CVPR），2017年IEEE会议上，第936-944页。IEEE，2017年。3[13] T.- Y. Lin，P. 戈亚尔河格希克角He和P. 娃娃。密集目标检测的焦面损失IEEE关于模式分析和机器智能的交易，2018。第1、3条[14] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra-manan ， P.Dolla'r 和 C.L. 齐特尼克Microsoftcoco：上下文中的通用对象欧洲计算机视觉会议，第740-755页Springer，2014. 二、五、七[15] S.柳湖，加-地Qi，H. Qin，J. Shi，and J.贾用于实例分段的路径聚合网络。在IEEE计算机视觉和模式识别会议集，第8759-8768页，2018年。1[16] W. Liu，L.安格洛夫，D。埃尔汉角塞格迪，S。里德角，澳-地Y. Fu和A. C.伯格。Ssd：单发多盒探测器。欧洲计算机视觉会议，第21施普林格，2016年。3[17] M. B. A. R. T. Matth e w和B. 布拉什河l o v a′ sz-softmax损失：一个易于处理的代理优化的交集超过工会措施的神经网络。IEEE计算机视觉和模式识别会议（CVPR），2018年。3[18] M. A. Rahman和Y.王.优化深度神经网络中的交集-over-并集用于图像分割。在视觉计算国际研讨会上，第234-244页，2016年。3[19] J.雷德蒙，S.迪夫拉河，巴西-地Girshick和A.法哈迪。你只看一次：统一的实时物体检测。在Pro-668IEEE计算机视觉和模式识别会议的会议记录，第779-788页，2016年。二、三[20] J. Redmon和A.法哈迪。Yolo9000：更好、更快、更强。arXiv预印

下载后可阅读完整内容，剩余1页未读，立即下载