基于秩的指标的黑盒微分法优化

120 浏览量更新于2023-10-20 收藏 846KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7620用黑盒微分法Michal Rol'ınek1*，V'ıt Musil2岁，AnselmP aulus1，Marin Vlastelica1，Claudio Michaelis3，Geor gMartius11德国图宾根市马克斯-普朗克智能系统研究所2意大利佛罗伦萨大学3德国图宾根大学michal. tuebingen.mpg.de摘要基于秩的度量是用于计算机视觉模型的性能评估的一些最广泛使用的尽管多年的努力，直接优化这些指标仍然是一个挑战，由于其不可微和不可分解的性质。我们提出了一个有效的，理论上合理的，和一般的方法区分基于秩的指标与小批量梯度下降。此外，我们解决了优化的不稳定性和稀疏性的监督信号，都出现了使用基于秩的指标作为优化目标。基于召回率和平均精度的损失被应用于图像检索和对象检测任务。我们在标准图像检索数据集上获得了与最先进技术相竞争的性能，并不断提高了接近最先进对象检测器的性能。1. 介绍基于等级的度量经常用于评估各种计算机视觉任务的性能。例如，在图像检索的情况下，这些度量是*这些作者的贡献相等。这是必需的，因为在测试时，模型会根据图像与查询的相关性对图像进行排名。基于秩的度量在具有不平衡类分布或每个图像多个类的一个突出的例子是对象检测，其中多个基于等级的度量的平均值用于最终评估。最常见的指标是召回率[12]，平均精度（AP）[68]，归一化贴现累积增益（NDCG）[6]和斯皮尔曼系数[9]。直接优化基于排名的指标是诱人的，但也是众所周知的困难，由于不可微（分段常数）和不可分解的性质，这样的指标。一个简单的解决方案是使用几个流行的替代函数之一，如0-1损失[33]，ROC曲线下的面积[1]或交叉熵。过去二十年的许多研究都采用了直接优化方法，包括直方图分箱逼近[4，20，49]，有限差分估计[23]，损失增广推理[40，68]，梯度近似[56]一直到使用大型LSTM来适应排名操作[10]。尽管在直接优化[4，7，40]方面取得了明显进展，但这些方法在最常用的目标检测[8，25，37，64]和图像检索[51]的实现中心中被明显忽略。原因包括贫穷图1：分段常数秩基损失的微分。损失景观的二维部分（左）以及两个强度增加的有效可微插值（中间和右侧）。7621随序列长度的缩放、缺乏在现代硬件上有效的公开可用的实现、以及优化本身的脆弱性。在干净的公式中，通过基于秩的损失的反向传播减少到提供分段常数排序函数的有意义的梯度。这是一个插值问题，而不是梯度估计问题（真实梯度几乎处处为零）。因此，结果插值的属性（其梯度被返回）应该是中心焦点，而不是梯度本身。在这项工作中，我们通过黑盒反向传播[60]插入排名函数，这是最近在组合求解器的背景下提出的一个框架。这个框架是第一个给出插值方案数学保证的框架.它适用于分段常数函数，源于最小化离散目标函数。为了使用这个框架，我们减少了排名功能的组合优化问题。在ef-fect，我们继承了[60]的两个重要特征：递归保证和仅使用排名函数的不可微黑盒实现来计算梯度的能力。这使得使用实现-排名函数的集合已经存在于流行的机器学习框架中，这导致直接实现和显著的实际加速。最后，直接对排序函数求微分为设计损失函数提供了额外的灵活性。有了一个概念上的纯差分解决方案，我们可以关注另一个关键方面：声损失设计。为了避免临时修改，我们深入研究了基于排名的指标的直接优化的注意事项。我们提供了多种方法来解决这些警告，最值得注意的是，我们引入了基于边距的版本基于排名的损失，并从数学上推导出召回-基于损失函数，提供密集监督。对图像检索进行了实验评价我们优化基于召回的丢失的任务，以及我们直接优化平均精度的在检索实验中，我们使用更简单的设置实现在检测任务上，我们显示出与使用交叉熵损失的高度优化的实现相比的一致改进，而我们的损失是以开箱即用的方式使用的。我们发布了用于实验1的代码。2. 相关工作优化基于排名的指标由于基于排名的评估指标现在是多个研究领域的核心，因此其直接优化已经成为社区的极大兴趣。传统方法通常依赖于1https://github.com/martius-lab/blackbox-反向传播不同风格的损失增强推理[38这些方法需要解决一个组合问题作为一个子程序，其中的问题的性质是依赖于粒子的秩为基础的度量。因此，提出了这些子问题的有效算法[40，56，68]。最近，可微直方图分箱近似[4，20，21，49]由于提供了更灵活的框架而受到欢迎完全不同的技术，包括学习排名分布[58]，使用策略梯度更新规则[45]，完全使用深度LSTM [10]或感知器类错误驱动更新来学习排序操作[7]。度量学习有大量关于检索任务的度量学习的工作，其中定义合适的损失函数起着至关重要的作用。Bellet等人[2] Kulis et al. [30]对度量学习技术和应用进行了更广泛的调查局部损失的方法范围从采用对损失[3，29]，三重损失[24，52，56]到四重损失[31]。虽然这些工作中的大多数都集中在如上所述的局部可分解损失上，但存在多条工作线以直接优化全局基于等级的损失[10，49，58]。良好的批量抽样策略的重要性也是众所周知的，并且是多项研究的主题[12，42，52，63]，而其他研究则专注于生成新的训练例子[41，56，70]。目标检测现代目标检测器在训练期间使用不同损失的组合[14，19，32，34，47，48]。虽然最大的性能增益源于改进的架构[13，19，46，48]和特征提取器[18，71]，但一些工作专注于制定更好的损失函数[15，32，50]。自从在PascalVOC对象检测挑战赛[11]中引入平均精度（mAP）以来，它已成为检测基准的主要评估指标。因此，使用度量作为其他不太合适的目标函数的替代品已经在几项工作中进行了研究[7，23，45，56]。3. 背景3.1. 基于秩的度量对于一个正整数n，我们用n表示{1，. . .，n}。向量y=[y1，. -是的-是的，yn]∈Rn，记为rk（y），是置换π∈<$n，满足yπ−1（1）≥yπ−1（2）≥· · · ≥yπ−1（n），（1）I.E.排序y.注意，对于任何两个分量重合的那些向量，秩不是唯一定义的。在正式的介绍中，我们减少我们的注意力，以适当的排名，其中的关系不发生。7622我我我我我我第i个元素的秩rk是1加上序列中超过其值的成员数，即。rk（y）i=1+|{j：yj>yi}|.（二）3.1.1平均精度对于一个固定的查询，让y∈Rn是一个向量的相关性得分的n个例子。我们用y∈{0，1}n表示其中rel（y）在等式中给出。3 .第三章。在数据集D的每个元素xi都是可能的查询的设置中，我们如下定义地面真值矩阵如果xj与查询x i属于同一个类，则设置y（j）= 1，否则设置0。模型建议的分数再次表示为yi=[φ （ xi，xj，θ）：j ∈ D]。为了在整个数据集D上评估模型，我们对所有查询xi取r@K的平均值，即他们的地面事实标签（相关/不相关），rel（y）={i：y=1}（3）R@K=1|D|Σi∈Dr@K . y，y.（八）相关示例的索引集。平均精度由下式给出：再一次，R@K∈[0，1]，对于每个K。最高分1意味着相关示例总是在前K个预测中找到。AP（y，y）= 1| 相对量|其中，i处的精度定义为ΣPrec（i）、（4）i∈rel（y∈ R）3.2. 组合求解器的黑箱微分为了区分排名功能，我们采用了一种有效的反向传播方法，通过组合，Prec（i）=|{j∈rel(y∗):yj≥yi}|rk（y）i（五）rial solvers它把算法或解决问题，如最短路径，旅行，并描述了相关实例在这些实例中所占的比例得分最高的例子在分类任务中，数据集通常包括注释图像。我们将其形式化为对（x，y）销售员-问题，和各种图形切割成不同的-神经网络架构的实体构建块。通过较小的简化，这样的求解器（例如，对于MULTICUT问题）可以形式化为连续输入y∈Rn（例如，固定边权其中xi是输入图像，yi是二进制类向量，其中，对于每个i，每个（y∈）c∈ {0，1}表示图像xi是否属于类c∈ C。然后，对于每个示例xi，模型提供建议类的向量相关性得分yi=φ（xi，θ），其中θ是模型的参数为了评估平均精度（mAP），我们考虑对于每个类c∈ C，得分y（c）=[（yi）c]i和标签y（c）=[（y）c]i的向量。然后我们取所有类别mAP = 1 μ m 。∗Σ图）并返回离散输出s∈S<$Rn（例如，形成切口的边缘子集的指示符向量），使得其最小化表示为内积y·s的组合目标（例如，削减成本）。请注意，注-[60][61][62][63][ 64][65][66][ 67][68][69总之一个黑盒求解器是y<$→s（y）使得s（y）=arg min y·s，（9）s∈S其中S是离散的容许分配集合（例如，形成切口的边缘的子集）。|C|APc∈Cy（c），y（c）.（六）计算背面时的关键技术挑战-ward pass是分段的有意义的微分，注意，mAP∈[0，1]，最高分1对应于完美分数预测，其中所有相关示例都在所有不相关示例之前。3.1.2召回召回率是一个经常用于信息检索的指标再次让y∈Rn和y∈{0，1}n是数据集上给定查询的分数和地面真值标签用于常数函数y→L（s（y）），其中L是网络的最终损耗。[60]这是一个家庭的故事。连续和（几乎处处）可微函数，由单个超参数λ >0参数化，控制“对原始函数的忠实性”和“梯度的信息性”之间的权衡，见图2。1.一、对于固定的λ，计算点s处的这种插值的梯度，并进一步向下传递网络（而不是真正的零梯度），如下所示：正整数K，我们设置.L（s（y））：=−1 （s-sλ）（10）7623r@K（y，y）=1如果Rk（y）i≤Kλ否则，（七）其中sλ是求解器的输出，对输入的构造修改。所述修饰是76242其中，输入的梯度信息是：采用了有关完整的细节，包括插值紧密性的数学保证，请参见[60]。这种方法的主要优点是只需要求解器的黑盒实现（即。（Forward Pass）方法向前+向后一般排名O（n，n）C++Mohapatra等人时间复杂度O（n）Chen等人[7]O（np）CYue et al.时间复杂度O（n2）计算反向传递需要。这意味着FastAP [4].Σ时间复杂度O（n+p）可以使用强大的优化求解器，而不是依赖于关于次优可微松弛4. 方法4.1. 黑盒差异化为了应用黑箱微分法进行排序，需要找到一个合适的组合目标。设y∈Rn是一个由n个实数组成的向量（分数），rk∈n是它们的秩。黑盒和求解器和排名在下面的命题中被捕获。1.提案在由Eqs. （1）和（2），我们有rk（y）= arg min y·π。（十一）π∈n换句话说，映射y→rk（y）是线性组合目标的最小化者，正如等式（1）所示。9要求。命题1的证明依赖于一个经典的重排不等式[16，定理368]. 以下.Σ[10]O（n+p）hC表1：不同可微排序方法的计算复杂度反例和正例的数目分别用n和p表示。活泼地对于SoDeep，h表示LSTMRaMBO是第一个直接区分具有真正次二次复杂度的一般排名的方法。这是所采用的框架的内置功能（例如，火炬。ARGSORT）。因此，我们继承了O（nlogn）的计算复杂度，以及在GPU上的快速矢量化实现。据我们所知，所得到的算法是第一个既具有真正的次二次复杂度（对于前向和后向传递）又具有通用排名函数的算法，如在Tab中所示。1（但不是说[40]有一个较低的复杂性，因为他们专注于AP，而不是一般的排名）。定理是它的较弱的公式，足以为我们目的.定理1（重排不等式）。对任意正整数n，任意实数的选择rsy1≥···≥yn，任意置换π∈n，y1·1+···+yn·n≤y1π（1）+···+ynπ（n）。此外，如果y1，. -是的-是的，y是不同的，对于单位置换π，等式成立。命题1的证明。设π是使（11）最小化的置换。这意味着，y1π（1）+···+ynπ（n）（12）是可能的最小值。使用逆置换π−1（12）重写为yπ−1（1）·1+···+yπ−1（n）·n（13）因此，由于定理1，在（13）中最小使得（1）成立。这表明π= rk（y）。由此产生的梯度计算在算法1中提供，并且仅需要几行代码。我们称之为排名度量黑盒优化（RAMBO）的方法。再次注意黑盒排名操作的存在。在实际执行中，我们可以委托7625drkdrkλ算法1RaMBO：用于排名的黑盒微分将排名器定义为计算排名函数FORWARDPASS（y）的rk（y）：=秩（y）保存y和rk（y）用于反向传递return rk（y）functionBACKPASS（dL）从正向传递加载y和rk（y）负载超参数λyλ：= y +λ·dLrk（yλ）：=<$Ranker（yλ）<$return−1rk（y）−rk（yλ）4.2. 声损失设计解决不可微性是直接优化所需要的全部吗？很遗憾，没有。为了得到性能良好的损失函数，需要进行一些细致的考虑 . 下面我们列出了几个问题（P1）（P1）基于等级的度量的评估通常在整个测试集上执行，而直接优化方法依赖于小批量近似。然而，这并不产生无偏梯度估计。特别小的小批量导致优化非常差的762622我我α1 .一、00的情况。8带移位的简单排序0的情况。60的情况。40的情况。248 16 32 128 512 409616384批量图3：在优化过程中，朴素的基于等级的损失可能会崩溃。在训练过程中移动分数会导致分数的边缘和合适的尺度红线表示图2：平均精密度的小批量估计。预期的mAP（即，优化损失）是数据集上的真实mAP的过度乐观估计;特别是对于小批量。显示采样小批量估计值的平均值和标准偏差负分数和绿色正分数。图三.这也隐含地消除了不稳定的尺度不变性.使用之前的符号，我们修改分数mAP的近似，见图。二、作为←→yi=.yi+αyi−α如果y=0如果y=1（十四）（P2）当排名中出现许多关系时，基于排名的指标是脆弱的。作为一个例子，注意任何基于秩的度量在一条很宽的领带此外，一旦一个积极的例子被评为高于所有消极的例子，即使是最轻微的当切换到测试集时，这引起了对统计中潜在变化的高度敏感性在[4，20]中也指出了需要特别注意关系。其中α是规定的保证金。在实现中，我们将排名操作替换为rkα，rk（y）=rk。←→y.（十五）4.5.召回损失设计像往常一样，设y为分数，y为真值标签如（P3）中所述，r@K的值仅取决于最高评分的相关元素。我们克服了稀疏的监督-通过引入一个改进的度量（P3）一些指标只提供稀疏的监督。为例如，r@K的值只有在最高值时才能提高。K（y，y）=|{i∈rel(y∗):ri< K}| 、（十六）排名正面的例子会提升排名，而其他正面的例子则没有这样做的动机。同样，平均精确度并没有激励降低负面示例的可能高分，除非也有一些| rel(y∗)|其中rel（y= 1）表示相关元素的集合（3），并且ri表示超过第i个元素的不相关元素的数量。从形式上讲，在小批量中有积极的例子。自pos-积极的例子通常是罕见的，这可能是有问题的。ri= rkα（y）i-rkα （y+）i对于i∈rel（y∈ R），（17）4.3. 乐谱记忆为了减轻小批量对近似全网损失（P1）的负面影响，我们引入了一个简单的运行内存。它存储最后τ个先前批次的元素的分数所有条目都连接起来进行损失评估，但梯度仅流过当前批次。这是在[4，49]中引入的“批量扩展”机制的一个更简单的变体由于只存储分数，而不存储网络参数或计算图，因此此过程具有最小的GPU内存占用。4.4. 分数边际我们对关系（P2）周围的脆性的补救措施受到三重损失的启发[52];我们引入了分数的变化，其中rkα（y+）i表示第i个元素仅在相关元素内的秩。请注意，r@K取决于预期的所有相关元素。然后我们将K处的损失定义为L@K（y，y）=1−r@K（y，y）。（十八）接下来，我们选择这些损失的权重wK≥0Σ∞Lrec（y，y）=wKL@K（y，y），（19）K=1在K的值上。命题2（见补充材料）对给定的权序列wK计算（19）的封闭形式。在这里，我们展示了两个自然递减权重序列的封闭形式解：E进行培训以获得利润。特别地，我们将负向移动添加到正向标记的分数，并将负向标记的分数正向移动，如学习成绩训练中的移位分数感应边限学习成绩崩溃EmAP7627≈，L记录（y，y）=i∈rel（y∈R）Ei∈rel（y∈R）.Σ中文（简体）如果wKK1KlogK（二十）7628其中，n（k）= log（1 + k）。这也从理论上解释了为什么一些前vious works [7，23]发现优化排名度量的对数而不是度量本身是在我们的例子中，对数是由最自然的重量衰减1/K产生的。4.6. 平均精度损失设计具有可区分的排名，通用AP不需要任何进一步的修改。实际上，对于任何相关元素索引i∈rel（y∈ n），其精度服从rkα（y+）iPrec（i）=rkα （y）i（二十一）图4：斯坦福在线产品图像检索考试-例。其中rk（y+）i是所有相关元素中第i个元素的秩然后AP损失读取对于每个批处理元素。我们对每个向量进行归一化，LAP（y， y）=1− Ei∈rel（y∈ R） Prec（i）.（二十二）表示单位球面上的一点。然后，批次中所有不同元素对的余弦相似性为为了计算平均精度损失LmAP的平均值，我们简单地取C类的平均值。以缓解稀缺造成的监管稀疏对于正例（P3），我们还考虑了所有类别的AP损失更具体地说，我们将矩阵y（c）和y（c）分别视为级联向量y和y，并设置LAPC=LAP（y，y）。（二十三）这一做法与[7]是一致的。5. 实验我们评估了RaMBO在目标检测和几个图像检索基准上的性能。实验表明，我们的方法区分通过mAP和召回通常是与国家的最先进的结果，并在某些情况下产生更好的性能。我们将在发布时发布代码。在整个实验部分中，我们报告的RaMBO的数字是三次重启的平均值。5.1. 图像检索为了评估拟定的召回损失（公式20）源自RaMBO，我们在CUB-200-2011 [62]，斯坦福在线产品[55]和店内服装[35]基准上运行图像检索实验。我们比较了近年来的各种方法，其中多个达到了最先进的性能。性能最好的方法是ABE-8 [27]，FastAP [4]和Proxy NCA[41]。架构对于所有实验，我们遵循最标准的设置。我们使用预训练的ResNet50 [18]，其中我们将最终的softmax层替换为完全连接的嵌入层，从而产生512维向量并且对于属于同一类的那些元素，将地面实况相似性设置为1，否则设置为0每个元素与其自身的明显相似性被忽视。我们使用相似性计算每个批次元素相对于所有其他批次元素的Lrec损失，并将其平均以计算最终损失。请注意，我们的方法不采用任何采样策略来从一批中存在的对/三元组中挖掘合适的对/三元组。然而，它在两个数据集上与[4]共享一个批制备策略参数我们使用Adam优化器[28]，对嵌入层使用放大的学习率。我们始终将批处理大小设置为128，以便每个实验都能运行GPU，16GB内存。关于不同数据集的训练时间表和超参数的确切值的完整细节在补充材料中。数据集为了准备数据，我们将图像大小调整为256×256 ，并在训练过程中随机裁剪并翻转为224×224，在评估时使用单中心裁剪。We use the Stanford Online Products dataset consistingof 120, 053 images with 22, 634 classes crawled from Ebay.这些类被分为12个超类（例如，杯，bicycle），其用于按照[4]中提出的程序进行小批量制备我们遵循[55]中提出的评估方案，使用对应于11，318类的59，551张图像进行训练，使用对应于11，316类的60，502张图像进行测试。In-shop Clothes数据集由54，642张图像和11，735个类组成。这些类被分成23个超类（例如.男士/牛仔，女士/连衣裙），我们如前所述用于小批量制备。我们使用了25882幅图像，对应于3997幅图像，培训班和14，218+12，612图像corre-前三检索查询7629R50R50R@K1101001000[42]第四十二话G42.058.273.889.1[42]第四十二话G42.163.582.594.8[42]第四十二话G62.179.891.397.4[59]第五十九章：你是谁？G65.582.392.397.6[59]第59话G63.981.792.297.7[54]第54话G67.783.893.097.8[43]第四十三话G67.083.793.2-HDC384 [67]G69.584.492.897.7[61]第六十话G70.985.093.598.0[63]第63话R5072.786.293.898.0[41]第四十一话：G73.7---[44]第四十四话G74.286.994.097.8HTL128[12]G74.888.394.898.4ABE-8512 [27]G76.388.494.898.2FastAP512[4]R5076.489.195.498.5RaMBO512日志R5077.890.195.998.7RaMBO512日志记录R5078.690.596.098.7表2：与Stan-ford在线产品的最新技术水平的比较[42]。在这个数据集上，由于测试集中的类数量最多，RaMBO比其他最先进的方法提供了更好的性能。响应3，985个类，每个类用于测试（拆分为一个查询+ gallery set）。给定查询集合，我们从图库集合中检索相应的图像。CUB-200-2011数据集包括200种鸟类的11788张图片我们再次遵循[55]中提出的评估协议，使用由5，864张图像组成的前100个类进行训练，剩余的100个类包含5，924张图像进行测试。结果对于表中的所有检索结果，我们添加嵌入维作为上标，骨干架构作为下标。字母R、G、V分别代表ResNet [22]、GoogLeNet [57]和VGG-16 [53]。我们报告了RaMBO512log和RaMBO512log log的结果，主要区别在于对数运算是否应用于等式中的秩一次或两次。（20）、在Stanford Online Products上，我们报告R@K为K∈选项卡中的{1，10，100，1000}。二、数据集包含最多类的事实似乎有利于RaMBO，因为它优于所有其他方法。图1中给出了一些实例。4.第一章在CUB-200-2011 中，我们报告R@K ，其中K∈{1，2，4，8}在选项卡中。3 .第三章。为了公平起见，我们包括代理的性能NCA与ResNet50 [18]骨干，即使结果仅在在线实现中报告[51]。对于这种实现，代理NCA和RaMBO是性能最好的方法。表3：与CUB- 200-2011数据集上的最新技术水平的比较[62]。我们的方法RaMBO与代理NCA的（非官方）ResNet50实现不相上下。R@K1 10 20 30 50[36]第三十六话53.073.076.077.0 80.0HDC384[67]G62.184.989.091.2 93.1[66]第六十六话R1878.493.795.8 96.7-HTL128 [12]G80.994.395.897.2 97.8[44]第四十四话G83.195.196.997.5 98.0ABE-8512 [27]G87.396.797.998.2 98.7FastAP-Matlab512[4]R5090.9 97.7 98.598.8九十九点一FastAP-Python512 [5]2R5083.8？95.5？96.9？97.5？98.2？RaMBO512日志R5088.197.097.9九十八点四九十八点八RaMBO512日志记录R5086.396.297.497.9 98.5表4：与In-shop Clothes [35]数据集上最先进方法的比较。RaMBO与集成方法ABE-8相当。通过FastAP的Matlab实现实现了领先的性能。在店内服装上，我们报告R@K，K∈选项卡中的{1，10，20，30，50}4.第一章性能最好的方法可能是FastAP，尽管有关复制的情况杜卡迪令人费解2. RaMBO与ABE-8 [27]的性能相匹配，ABE-8是一种复杂的集成方法。我们遵循[27]的报告策略，在定期训练间隔内对测R@K1248[42]第四十二话G26.437.749.862.3[42]第四十二话G36.148.659.370.0[42]第四十二话G47.258.970.280.2[59]第五十九章：你是谁？G52.864.474.783.9[59]第59话G50.361.972.682.4[54]第54话G51.063.374.383.2[43]第四十三话G48.261.471.881.9[41]第四十一话G49.261.967.972.4智能采矿64[17]G49.862.374.183.3[63]第63话G63.874.483.190.0HDC384[67]G53.665.777.085.6[61]第六十话G54.766.376.083.9HTL128 [12]G57.168.878.786.5[44]第四十四话G57.568.778.386.2ABE-8512 [27]G60.671.580.587.7[51]第51话 R5064.075.484.290.5RaMBO512日志R5063.574.884.190.4RaMBO512日志记录R5064.075.384.190.67630试集进行评估，并报告7631长度100k1M10M100MCPU33 Ms331毫秒3.86秒36.4秒GPU1.3 ms7 ms61毫秒0.62秒表5：在AP 50中测量的Pascal VOC 07测试集上的物体检测性能。主干X代表ResNeXt，CE代表交叉熵损失。在最大化R@1的时间点的性能。5.2. 对象检测我们遵循一个通用协议，通过使用Faster R-CNN [48]测试新组件，这是对象检测中最常用的模型，所有实验都使用标准超参数。我们与高度优化的mmdetection工具箱[8]中的基线进行比较，仅交换分类器的交叉熵损失具有LmAP和LAPC的加权组合。数据集和评价进行所有实验在广泛使用的PascalVOC数据集上[11]。我们在Pascal VOC 07和VOC 12训练集上训练模型，并在VOC 07测试集上测试它们。性能是在AP50中测量的，AP 50是针对与任何地面实况边界框具有至少50%的交集重叠的边界框该模型在单个GPU上训练了12个epoch，批大小为8。初始学习率0.1在9个历元之后减小了10倍对于LAP损失，我们使用τ=7，α=0。15，λ=0。五、损失LmAP和LAPC以2：1的比率加权。我们评估了在VOC 07和VOC 07+12上训练的更快的R-CNN，其中有三种不同的主干（ResNet 50，ResNet101和ResNeXt 101 32 x4 d [18，65]）。在我们的AP损失的情况下进行训练可以得到一致的改善（见表1）。5），并将标准的Faster R-CNN推到非常接近最先进的值（1084。1）通过更复杂的架构实现[26，69]。5.3. 速度由于RaMBO可以使用排序函数实现，因此计算速度非常快（参见Tab. 6）并且可以用于非常长的序列。计算具有320 k个元素的序列的AP损失，如在对象检测实验中，对于前向/后向传递花费少于5 ms。这是<0的情况。批处理总计算时间的5%2FastAP公共代码[5]提供Matlab和PyTorch实现。令人困惑的是，这两种实现给出了非常不同的结果。我们联系了作者，但我们和他们都无法在两个看似相同的实现中确定这种差异我们报告这两个数字。表6：平均精度的处理时间（使用普通的PYTORCH实现）取决于单个Tesla V100 GPU和1个Xeon Gold CPU内核在2.2GHz下向前/向后计算的序列长度。R@1CUB200店内在线产品完整的RAMBO64.0 88.178.6无批处理内存62.5 87.072.4没有裕度63.2 xX表7：边缘消融实验（第4.4）和批处理内存（Sec.4.3）在CUB 200、In-shop和Stanford Online Products数据集上的检索。方法兰博λ保证金AP50Faster R-CNN74.2Faster R-CNNC0.574.6Faster R-CNNC0.1C75.2Faster R-CNNC0.5C75.7Faster R-CNNC2.5C74.3表8：RaMBO在目标检测任务中的消融。5.4. 消融研究我们在多个消融研究中验证了我们的损失设计的有效性表7显示了检索任务的边距和批存储器的相关性。事实上，一些没有边际的运行出现了分歧。在表1中还示出了余量对于mAP损失的重要性。8.此外，我们可以看到方案[60]的超参数λ不需要精确调整。λ的值在选定λ = 0的因子5内。五是超越底线。6. 讨论所提出的方法RaMBO通过其直接优化所需度量的概念纯度而被挑选出来，同时简单、灵活和计算效率高。仅由基本的损失设计原则驱动，并且没有严格的工程努力，它可以与最先进的图像检索方法竞争，并持续改进接近最先进的对象检测器。令人兴奋的机会，未来的工作在于利用的能力，有效地优化排序度量的序列与数百万元素。方法骨干培训CE兰博Faster R-CNNResNet500774.275.7Faster R-CNNResNet5007+1280.481.4Faster R-CNNResNet10107+1282.482.9Faster R-CNNX101 32×4d07+1283.283.67632引用[1] B. T. Bartell，G. W. Cottrell和R. K. Belew。多个分级检索系统的自动组合。ACMConference on Research andDevelopment in Information Retrieval，SIGIR'94，第173-181页。Springer，1994年。1[2] A. Bellet，A. Habrard和M.塞班特征向量和结构化数据的度量学习综述。arXiv预印本arXiv：1306.6709，2013年。2[3] J. 布罗姆利岛Guyon，Y. LeCun，E. Sa？ckinge r和R.Shah. 使用“连体”时间延迟神经网络的签名验证。神经信息处理系统进展，NIPS'94，第737-744页，1994。2[4] F. Cakir，K.他，X。夏湾，澳-地Kulis和S.Scaroff 深度metric学习排名。在IEEE计算机视觉和模式识别会议上，CVPR'19，第1861-1870页，2019年。一、二、四、五、六、七[5] F. Cakir，K.他，X。夏湾，澳-地Kulis和S.Scaroff 深度Metric 学习排名。 https://github.com/kunhe/FastAP-metric-learning，2019.提交：7ca48aa。七、八[6] S. 查克拉巴蒂河 Khanna ， U. Sawant 和 C. Bhat-tacharyya。非平滑排名损失的结构化学习。InKDD，2008. 1[7] K. 陈，J.Li，W.Lin，J.你看，J。王湖，加-地杜安Z.陈先生，C.他和J. Zou。利用ap损耗实现精确的单级目标检测。在IEEE计算机视觉和模式识别会议上，CVPR'19，第5119-5127页，2019年。一、二、四、六[8]K. Chen，J. Wang，J.庞湾，澳-地 Cao，Y. Xiong，X.李鹏说，S. 太阳，W。冯，Z. Liu，J. Xu，Z.Zhang，L. 程先生，C. Zhu，T.成角，澳-地Zhao，B. Li，X.卢河，巴西-地Zhu，Y.吴先生，J. Dai，J. Wang，J.施，W。欧阳C. C. Loy和D.是林书MM检测：打开MMLab检测工具箱和基准. arXiv预印本arXiv：1906.07155，2019。提交：9d767a03c0ee60081fd8a2d2a200e530bebef8eb。1、8[9] R. Cohendet，C. H. Demarty，N. Duong，M. Sjo¨ber g，B.约内斯库和T.- T.做MediaEval 2018：预测媒体的记忆力。arXiv：1807.01052，2018。1[10] M. 恩吉尔贝湖 Chev allie r， P.佩雷斯和 M 。线 .Sodeep：一个学习排名损失代理的排序深度网。在IEEE计算机视觉和模式识别上，CVPR'19，第10792-10801页，2019年。一、二、四[11] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地威廉斯，J.Winn和A.齐瑟曼。pascal视觉对象类（voc）的挑战。国际计算机视觉杂志，2010年。二、八[12] W. GE. 深度度量学习与分层三元组丢失。在欧洲计算机视觉会议上，ECCV一、二、七7633[13] G. Ghiasi，T. Y. Lin和Q. V. Le. Nas-fpn：学习可缩放的特征金字塔结构用于对象检测。在IEEE计算机视觉和模式识别会议上，CVPR'19，2019。2[14] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于准确的对象检测和语义分割。在IEEE计算机视觉和模式识别会议，CVPR'14，第580-587页，2014年。2[15] E.戈德曼河Herzig，A. Eisenschtat，J.戈德伯格，以及T.哈斯纳在密集场景中进行精确检测。在IEEE计算机视觉和模式识别会议上，CVPR'19，2019。2[16] G. H. 很难，J。E. Littl ew ood和G. 波利亚。不平等。剑桥大学出版社，英国剑桥，1952年。4[17] B. 哈伍德湾库马尔湾，澳 - 地卡内罗岛 Reid ，T.Drummond等人深度度量学习的智能挖掘。在IEEE国际计算机视觉会议，ICCV'17，第2821-2829页，2017年。7[18] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议上，CVPR'18，第770-778页，2016年。二、六、七、八[19] K. 他，G. Gkioxari ，P.Doll a'r 和R. 娘娘腔。MaskR-CNN 。在 IEEE International Conference onComputer Vision，ICCV'17，第2980-2988页，2017年。2[20] K.他，F. Cakir，S. Adel Bargal和S. Scaroff 哈希-ing作为领带意识学习排名。在IEEE计算机视觉和模式识别会议上，CVPR一、二、五[21] K. 他，Y.Lu和S.Scaroff 局部描述符优化平均精度。在IEEE计算机视觉和模式识别上，CVPR2[22] W.他，X。- Y. Zhang，F. Yin和C.- L.刘某面向多方向场景文本检测的深度直接回归。在IEEE计算机视觉国际会议上，ICCV'17，2017。7[23] P. Henderson和V.法拉利针对平均精度的对象类检测器的端到端训练。在亚洲计算机视觉会议上，第198施普林格，2016年。一、二、六[24] E. Hoffer和N.艾伦使用三重网络的深度度量学习。在基于相似性的模式识别国际研讨会上，第84-92页。施普林格，2015年。2

下载后可阅读完整内容，剩余1页未读，立即下载