图像检索中的贝叶斯三重损失及不确定性量化

192 浏览量更新于2023-10-13 收藏 1.82MB PDF 举报

图像检索

不确定性量化

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

112158ΣΣǁǁ||ΣΣ贝叶斯三重损失：图像检索中的不确定性量化FrederikWarburg†，Martin Jørgensen‡，Javier Civera§，andSørenHauberg††丹麦技术大学‡牛津大学§萨拉戈萨大学†{frwa，sohau}@ dtu.dk，‡martinj@robots.ox.ac.uk，§jcivera@unizar.es摘要图像检索中的不确定性量化对下游决策至关重要，但它仍然是一个具有挑战性的，在很大程度上尚未探索的问题。目前用于估计不确定性关系的方法校准不良、计算昂贵或基于启发式。我们提出了一种新的方法，将图像嵌入视为随机特征，而不是确定性特征。我们的两个主要贡献是（1）匹配三元组约束的可能性，并且评估锚点更接近于正的概率而不是负的概率;以及（2）在特征空间上的先验，其证明了传统的l2归一化。为了确保计算效率，我们推导出变分近似的后验，称为贝叶斯三重损失，产生国家的最先进的不确定性估计和匹配的预测性能，目前国家的最先进的方法。1. 介绍基于图像的检索系统在具有挑战性的任务中表现出令人印象深刻的性能，例如人脸验证[43，52，56]，实例检索[63]，地标检索[38]和位置识别[1，41]。这些系统通常将图像嵌入到高级特征中，并使用最近邻搜索进行检索。虽然这是有效的，但检索没有置信度的概念，这在安全关键应用中特别成问题例如，依赖视觉位置识别的自动驾驶汽车应该能够过滤掉从无信息图像中提取的位置在不太关键但仍然相关的应用中，量化检索不确定性可以通过不显示查询的低置信度结果来显著改善人机界面中的用户体验实际的检索系统没有一个小的一组预定义的类作为输出目标，而是需要高层次的功能，推广到看不见的类。例如，视觉位置识别系统可以部署在尚未训练的城市中[58]。这是通过保持编码器固定并依赖于最近邻搜索来实现的该管道不容易匹配当前的后验推理方法，并且当前用于检索的不确定性估计器在本质上通常是不切实际的和启发式构造一个完全图1：我们将嵌入建模为分布而不是点估计，这样数据的不确定性就会传播到检索中。我们短语的贝叶斯模型，反映了三重损失，这使我们能够学习的随机特征。贝叶斯检索系统，适合现有的计算管道，我们首先回顾基本方程E∆2=E[∆]2+trace （ cov[∆] ），∆∈RD ，（一）其直接从方差的定义得出由此我们可以看出，两个随机特征之间的期望平方距离E ∆ 2随该距离的协方差cov[∆]而增长，而协方差cov[∆]又取决于特征的不确定性（图1）。这种直觉构成了本文的基础在本文，我们建议使用随机图像嵌入，丁斯，而不是通常的确定性。给定图像X，我们考虑可能特征P（F X）的后验分布。从这个分布，我们得到直接的不确定性估计，并可以分配概率的事件，如“两个图像属于同一个地方”。为了实现这一点，我们推导出一个可能性对应的概率，传统的三重约束得到满足，和一个先验的特征空间，模仿传统的L2归一化。为了构建在训练和测试时间都是计算高效的系统，我们导出对后验P（F X）的变分近似，使得在实践中，我们将图像编码为特征空间中的分布。在几个数据集上，我们证明了所提出的模型在预测性能方面与最先进的模型相匹配，同时获得了最先进的不确定性估计。11215922.ΣY Y y2. 相关工作图像检索在过去几年中一直是一个热门的研究问题，由于其许多应用[46，63]。早期的方法依赖于手工制作的局部特征，主要通过词袋聚合[22，39，45]。最近的模型由深度卷积主干和聚合层[1，41]组成，该聚合层根据图像的内容相似性将图像映射到低维嵌入[1，3，35，38，41通过（近似）最近邻方法找到与查询最相似的图像检索系统应用分类损失（例如，[30，62]）或度量损失（例如，[15]）。度量损失对批次中样本之间的关系进行操作，而分类损失包括将嵌入转换为类logits向量的权重矩阵[34]。我们的重点是度量损失，其中对比损失[19]是最基本的。然而，这种损失具有相同的裕度阈值适用于所有训练对的限制，即使它们的相似性可能存在很大的变化三重损失[59]通过仅将锚点a约束为比a更接近正p来解释这种变化的类间差异。负n减去余量m，a-p<（二）许多工作已经扩展了对比度和三重损失以包含更多关于嵌入空间的结构信息，例如四重损失[5]，N对损失[47]，角度损失[55]，边缘损失[60]，信噪比（SNR）对比度损失[61]和多相似性（MS）损失[57]。这些方法往往得到启发式或经验性实验的支持，但缺乏理论基础。此外，在最近的一项研究中，Musgrave et al. [34]表明，这些更复杂的损失函数仅提供了对比损失和三重损失的边际改进出于这个原因，我们专注于三重态损失，但原则上我们的方法可以扩展到镜像其他损失。深度网络中的不确定性由于大量参数而难以量化[13]。目前正在许多计算机视觉任务的背景下研究不确定性量化，其中包括深度完成[12，18]，语义分割[18，23，27]，对象检测[6，17]，对象姿态估计[37]和多任务学习[24]。在实践中，贝叶斯近似，如深度集成[29]，蒙特卡罗退出（MC退出）[14]和条件自动编码器[26]已经显示出最有希望。虽然可扩展[18]，但这些方法并不直接应用于图像检索，因为模型通常不具有适当的似然函数。Der Kiureghian和Ditlevsen [9]将预测不确定性的来源确定为模型（认识不确定性）和数据（任意不确定性）。后者可以分为同方差（所有输入数据不变）和异方差（取决于特定输入的变量）。我们专注于heteroscedastic不确定性，因为这与图像检索特别相关，如图1所示。使用深度网络进行图像检索的不确定性量化是一个具有挑战性且未得到充分解决的主题。学习随机嵌入，而不是确定性的已经解决，即。对于图像[4，36，44]，人体姿势[49]和交叉模态数据[8，48]。大多数先前的工作都集中在分类[4]或成对损失上。Oh等人 [36]使用来自学习的高斯分布的蒙特卡罗（MC）采样来评估一对图像之间的匹配概率。他们的方法是成功的低维嵌入（D =3）。通过直接优化两个高斯嵌入属于同一类的可能性，可以避免昂贵的蒙特卡罗采样[44]。在我们的工作中，我们将这种直觉扩展到三胞胎。与成对损失相反，已知三重损失可解决不同的类间相似性和相异性[34]。Sun等人[49]建议两个二进制交叉熵项的比率取这些的对数给出关于三重态损失形式的表达式然而，他们的方法依赖于MC样品。Taha等人。[51]将三重损失视为回归损失，并估计MC退出的认知不确定性。在后来的工作中，Taha et al. [50]建议使用每个图像的噪声参数来学习异方差与我们的建议相反，没有提供模型，在该模型下，所提出的三重损失是一个适当的可能性。我们将我们的方法与MC采样方法（具有MC dropout的三重回归[51]）和隐式方法（隐式学习噪声参数的三重回归[50]）进行基准测试，在几个数据集中显示出显着更好的不确定性估计，同时匹配标准三重损失的3. 贝叶斯三重损失我们建议将图像嵌入为分布而不是点估计。给定这些随机嵌入，我们问：锚点更接近正的概率是多少，而不是负的，即Pa−p2a−n2−m，（3）其是三元组约束（2）的概率等价物为了实现这个想法，我们首先推导出一个似然函数对应的方程。3 .第三章。由于我们希望这与三重丢失的直觉密切相关，因此我们的似然性对图像的三重进行操作我们为数据集中的所有三元组定义可能性L（Ω）=P（I（X，Y，Z）|X，Y，Z），⑷X∈ΩY∈ΩZ ∈Ω其中，X、Y、Z是来自数据集的图像，并且I是三元组的标记（称为三元组标记）。我们注意到，三元组标签可以取三个值，分别具有来自同一类的1、2或3个图像。由于I（X，Y，Z）只取离散有限集上的值，我们将似然函数定义为多项式分布。传统的三重丢失忽略了所有图像来自相同或不同类别的情况，因为这些情况不是信息性的。做出相似的模特选择，112160三重= 10-3= 10-4PXΣD→∞N ∈{σ一一pnppnn.Σ一一ppnn图2：三种1D场景中贝叶斯三联体损失的直觉。附图下方的箭头指示平均值的梯度方向和幅度，而附图下方的箭头指示平均值的梯度方向和幅度。上面的分布指示方差的梯度（向下表示更大的扩散，向上表示更大的峰值）。可能性降低到仅考虑具有一对的三胞胎P（I（X，Y，Z）|X，Y，Z）= P1{I（X，Y，Z）=2}。（五）因此，所有概率质量都是三元组，其中两个图像来自同一类，一个来自不同类，就像传统的三元组丢失一样。使用标准的三元组符号，我们设置等于Eq。3，因此，我们导出了一个适当的似然函数，该函数描述了锚点更接近正而不是负的概率。我们采用这种更简单的符号，在整个其余的文件，使它清楚的图像是来自同一类，但强调的可能性是通过方程定义的所有三胞胎。五、图3示出了与传统的三重丢失相比的所提出的负对数似然。我们的可能性是平滑和有界的，使其对离群值更具鲁棒性我们体验D是特征尺寸。两个正态分布随机变量之间的平方距离遵循比例非中心χ2分布[32]。似然（6）是两个这样的分布平方距离的线性组合，其不具有已知的密度，并且我们采用近似。根据中心极限定理[31]，τ将近似于a对于大的D，即高斯分布。林山口τ−µ−mΣ=Φ（−m），（8）其中Φ是标准正态分布的CDF，μ和σ是τ的平均值和标准差。在补充，我们的实验表明，这种近似是非常准确的，即使在低维。我们仍然需要找到τ的前两个矩来应用这个近似。我们在补充，这里只列出步骤。平均值确定为E[τ]=E[p（p−2a）]−E[n（n−2a）]。（九）我们利用对称性先写E[p（p−2a）]=E[p2]−2E[ap]=E[p2]−2E[a]E[p]，（10）因为a和p是独立。对于E[τ]的第二项使用相同的参数，我们得到E[τ]= E[p2]−2 E[a] E[p]− E[n2]+2 E[a] E[n]与传统的三重丢失相似的训练时间，并且没有经历阻碍学习的零梯度=E[p2]−E[n2]−2E[a]（E[p]−E[n]）= µ2+ σ2−µ2−σ2−2µ a（µ p−µn）。（十一）0.220.1p p n n方差需要更长的推导，所以我们在这里只给出结果，1Var（τ） 2 22 2 2 2 20.00.4 0.5 0.6 0.70.800.4 0.5 0.6 0.7 0.82=σp（σp+2µp）+σn（σn+2µn）−4σaµp µn−2µ。µ（µ2+µ2）−2µ σ2−2µ σ2Σ（12）图3：传统的三重态损失（蓝色）与我们的负对数似然（橙色和绿色）。负对数似然是平滑且有界的，从而产生更好的鲁棒性。3.1. 三重人格有了可能性形式，我们继续到达显式表达式。我们假设嵌入是各向同性高斯而不是点，使得x（µx，σ2I），其中x a，p，n（见图1）。这将在下一节中进行论证重新排列方程3给出P（a-p<$2-a-n<$2-m）=P（τ<-m），（6）D损失损失112161其中τ=（ad−pd）2−（ad−nd）2，（7）d=1+2（σ2+µ2）（σ2+µ2）+（σ2+µ2）。因此，给定三元组中的每个图像的均值和方差估计，我们可以分析地计算τ的均值和方差。然后通过具有这些参数的高斯似然来评估似然（5图2显示了三个一维场景的似然函数的直观性在左图中，顺序是正确的（锚点更接近于正值而不是负值）。梯度如果方差为负，则减少了每个随机嵌入的不确定性（用分布上方的箭头在中间的图中，排序不正确（锚点更接近负值而不是正值），导致更高的不确定性。图下方的箭头指示梯度方向和幅度w.r.t.手段在所有的场景中，锚的平均值和正的被吸引，而负的平均值被排斥。112162DXN∈N|ǁ ǁ ∈ǁ ǁ ∈nMMM3.2. 归一化先验图像检索中的常见做法是对嵌入进行l2归一化，因为这通常会提高检索性能[1，40，41]。另一个实际的好处是，对于12-归一化向量，欧几里德距离和余弦相似性具有单调关系，因此可以互换而不改变检索顺序。余弦相似性在计算上是有效的，因为它减少到归一化向量的点积[40]。我们调查了两个先验来模仿这种归一化。在高维中，标准高斯分布集中在半径为D的球体周围。因此，我们可以通过在嵌入上施加高斯先验来模拟12归一化特别地，先验p（X）=（X〇，1/）集中在单位球面周围，并且因此可以被视为隐式的1/2归一化。我们还考虑了一个明确的归一化先验，通过选择一个统一的单位球先验3.3. 近似后后验嵌入通常是难以处理的，并且为了计算效率，我们采用变分近似[2]。我们选择一个参数化的近似后验q作为来自与先验相同的家族的各向同性分布对于高斯先验，我们选择q（X）=（μ X，σ2I）。对于均匀球形先验，我们选择近似后验作为von MisesFisher分布q（X）=vMF（µX，κX） [10]。分布参数在这里由神经网络描述。在补充中，我们推导出边际可能性的预期下限（ELBO），该下限位于此处的右侧log P（I（X，Y，Z））≥Eq（X）q（Y）q（Z）[log P（I（X，Y，Z）|X，Y，Z）]−KL（q（X）p（X））−KL（q（Y）p（Y））−KL（q（Z）p（Z））。（十三）对于所选的分布族，KL散度具有封闭形式的表达式[11，33]。4. 网络架构与培训对于每个图像，我们学习各向同性分布，而不是点嵌入。我们对待高斯和冯米塞斯费舍尔嵌入相同，这里只描述高斯设置。类似于Taha et al.[50]，我们使用一个共享的骨干网络，然后是一个平均值和方差头（见图1）。4）. 平均头是一个广义平均（GeM）[41]聚集层，后面是一个输出µRD的全连接层。方差头由一个GeM层和两个具有ReLU激活函数的全连接层我们发现用softplus估计σ2是有利的激活而不是估计logσ2。我们有单独的宝石图4：我们的网络架构概述。因此，我们确保概率模型和非概率模型的输出参数数量相同，使得D µ+D σ=D。我们专注于各向同性分布，并设置Dσ= 1。对于三重态损失，我们遵循通常的做法，并将点估计值l2归一化，即x/x2RD。对于贝叶斯三重损失，我们对均匀先验的平均嵌入μ/μ 2RDμ进行了2-归一化，并使用高斯先验的单个正可训练参数进行缩放。我们使用了一个类似于Arand- jelovic等人的硬否定挖掘策略。[1]的文件。给定查询图像，我们在缓存中找到最接近的负图像我们只呈现具有违反三元组约束的三元组的模型（2）。我们每1000次迭代就用5000个新图像更新Arandjelovic等人[1]和Warburg et al.[58]报告定期更新缓存以避免过度拟合的重要性这通过减少呈现给模型的琐碎示例的数量来加速学习5. 评估指标在k（R@k）处的召回测量在其最近的k个邻居中具有至少一个正的这是图像检索常用的度量然而，该度量不考虑邻居之间的阳性和阴性的比率。因此，我们还评估了k（mAP@k）处的平均精度，它测量了k个最近邻居的精度[1]。这些指标评估了我们模型的预测性能预期校准误差（ECE）描述了模型的不确定性与其预测准确性的对应程度基于预测的置信度，将预测划分为M个等间隔的区间对于每个binBm，将准确度与模型置信度进行比较，并通过bin大小进行加权我们重新制定这个指标，以适应检索问题。置信查询应具有高mAP，而不置信查询应具有低mAP。因此，我们可以让ECE@k测量mAP@k和方差的第M个对数之间的加权距离我们设定M=10。ECE=Σ |BM||mAP@k（B）−conf（B）|.（十四）m=1层的方差和平均头，因为我们发现它有利于学习不同的p-范数的方差头和平均头。在现实世界的应用中，预测性能和不确定性量化之间的这种权衡是重要的。6. 实验和结果我们在三个具有挑战性的图像检索数据集进行实验对112163于每一个实验，我们比较112164×图5：我们的贝叶斯嵌入给出最高（前两行）和最低不确定性（最后两行）的查询图像。与高不确定性相关联的场景大多对应于鸟类与背景融合并且难以辨别的场景。最确定的两种对应于崖燕，很容易通过它们粘在墙壁或悬崖上的泥巢特征辨别出来在所有的图像中，鸟类从背景中脱颖而出，并具有独特的图案。传统的三重损失[59]与提出的贝叶斯三重损失与高斯先验（贝叶斯三重）和von-Mises Fisher先验（贝叶斯vMF）。我们还将我们模型的不确定性估计与三重回归[ 50 ]和MC dropout [ 51 ]产生的不确定性估计进行了比较我们在两个强骨干上进行评估，即Resnet50 [20]（D = 2048）和大型Densenet161 [21]（D= 2208），以说明贝叶斯三重态损失提供了跨不同架构的校准不确定性估计。Densenet161是专门选择的，因为它在主干中应用了dropout，这允许我们将不确定性估计与MC dropout进行比较。为了与三元回归[51]进行比较，我们始终使用0的脱落率。2如[51]中所报道的所有模型都是简单的-在Pytorch中存储，并使用Adam优化器[25]进行训练，学习率为10- 5，权重衰减为0。001，以及指数学习速率调度器，其将学习速率每历元降低1%。我们使用25个三联体的批次，每个三联体由一个锚点、一个正图像和五个负图像组成在所有的实验中，我们将图像大小调整为224 224在训练过程中，我们通过随机旋转（最多10◦），调整大小的裁剪（[0。4; 1]的图像大小）、颜色抖动和水平翻转。我们在所有实验中使用KL比例因子10−66.1. CUB 200-2011我们首先评估模型的检索性能和校准性能。CUB200-2011数据集由200种鸟类的11，788张图像组成从不同的角度捕捉鸟类，使其成为图像检索的一个具有挑战性的数据集我们将前100个类划分为训练集，最后100个类划分为测试集，类似于Musgrave等人。[34]。因此，经过训练的模型没有看到测试集中的任何鸟类物种，并且所学习的特征必须在物种之间很好地泛化表1显示了具有Resnet50和Densenet161主干的模型的CUB200数据集的检索性能我们注意到，更大的主干提高了所有模型的检索性能。MC dropout在预测性能和不确定性量化方面比其他模型表现更差。三重损失和三重回归具有比所提出的贝叶斯模型稍好的预测性能，然而这两个贝叶斯模型，特别是与高斯嵌入，产生显着更好的不确定性估计。为了更好地了解哪些图像具有高方差估计和低方差估计，图 5显示了具有最高和最低方差的12个查询。（绿色/红色）边框指示是否正确检索了图像该网络正确地将高方差与鸟类与其周围环境融合的图像相关联，并将低方差与居中或易于通过其颜色或图案区分的鸟类相关联。对于应用，用户通常会对查询与其最近邻居之间的距离cov[∆]协方差取决于查询的方差及其最近邻。图6示出了呈现高或低协方差的查询和最近邻的六个示例。当存在多只鸟或当鸟融入其周围环境时，该模型分配低置信度。高浓度信仰与具有独特图案或颜色的鸟有关图7示出了具有高斯嵌入的贝叶斯模型DING比产生不确定性估计的其他方法更好地校准查询被分成10个等大小的箱。对于每个bin，最确定最不确定112165--低置信度高置信度图6：六个查询图像（顶部）及其NN（底部），均为真阳性。我们的贝叶斯模型将低置信度分配给具有多只鸟类或鸟类与周围环境融合的图像。具有可区分的图案或颜色的鸟具有高置信度。表1：CUB200数据集在1、5和10时的召回率（R）、平均精密度（M）和预期校准误差（ECE）贝叶斯三元组（Exp）是指用于最近邻搜索的期望距离而不是欧几里德距离0.60.40.20.00.9 0.7 0.5 0.30.10.9 0.7 0.5 0.3 0.1这个实验表明，我们提出的贝叶斯三重丢失产生的检索性能相当于两个强骨架的三重丢失此外，实验表明，我们的模型产生非常好的校准的不确定性估计的基础上，ECE指标，校准图，和定性可视化。6.2. 斯坦福汽车-196接下来，我们将研究模型在分布外（OOD）示例上的表现这是图像检索系统的一个重要能力，因为连续地重新训练模型是不可行的，并且在许多实际应用中，看不见的类别可能被添加到数据库中或用作查询图7：三重回归（TripReg）、MC脱落（MCDrop）、高斯分布的贝叶斯三重丢失（BayesTrip）和von Mises-Fisher分布的贝叶斯三重丢失（vMF）的校准图。实线表示mAP@5 ，阴影区域涵盖 mAP@1 至 mAP@10 。请注意，对于两个主干，高斯分布嵌入如何被更好地校准，特别是对于不确定的查询。计算mAP@1、5、10，分别用阴影区域的顶部、实线和阴影区域的下部表示。黑色虚线示出了完美校准的模型。随着时间为了测试模型的OOD能力，我们使用了斯坦福Car-196 [28]数据集和在CUB 200数据集上训练的模型Car-196数据集由196类汽车的16185张图像组成它传统上是一个分类数据集，但可以通过使用前98个类别作为训练集，最后98个类别作为测试集[34]来转换为检索数据集首先，我们评估模型推广到Car-196测试集的效果。表 2 示出了两个贝叶斯模型匹配（并且对于具有ResNet50骨架的vMF嵌入ECE度量表明，贝叶斯模型的校准明显更好在贝叶斯模型中，高斯模型R@1R@5R@10M@1M@50.6480.648 0.5050.6430.863 0.916 0.643 0.5030.6350.855 0.911 0.6350.6120.842 0.902 0.6120.6320.857 0.912 0.6300.7170.894 0.9350.7170.3490.591 0.700 0.349 0.2000.7110.8970.9390.7110.7130.8980.938 0.7130.6830.879 0.926 0.6830.6170.838 0.902M@100.4400.4370.4260.3970.4240.5370.1430.5240.5280.5020.437ECE@1ECE@5ECE@10TripletTripRegBayesvMFBayesTriplet贝叶斯三元组三重（MC=50）TripReg贝叶斯 vMF贝叶斯三元组贝叶斯三元组（Exp）0.1960.1380.1190.1370.3310.0640.0370.0200.3970.0890.0990.0720.2900.1810.0220.1760.1010.4280.3020.1390.0590.0250.4800.3630.2000.0230.075Densenet161密度yResNet50112166表2：CAR196数据集在1、5和10时的召回率（R）、平均精密度（M）和预期校准误差（ECE）图8：三重回归（TripReg）、具有高斯嵌入的贝叶斯三重模型（BayesTrip）和Resnet50（R50）和Densenet161（D161）的MC Dropout的查询与其最近邻之间的距离的协方差的直方图请注意，对于贝叶斯模型，分布内（蓝色）和分布外（橙色）协方差的分离程度显著更高。图9：三重回归（TripReg）和具有高斯嵌入的贝叶斯三重损失（BayesTrip）的分布内和分布外的最小可能性。汽车不在分布查询中，鸟在分布查询中嵌入给出更好的不确定性估计，而vMF嵌入给出稍微更好的预测性能。其次，我们证明了贝叶斯模型可以检测OOD查询。为此，我们构建了一个由鸟类图像组成的数据库我们检索最近的邻居鸟查询- 我们期望与ID查询相比，OOD查询的最近邻的距离具有较高的不确定性。图8示出了具有高斯嵌入的贝叶斯模型是显著的。在区分ID查询和OOD查询方面更好我们的六贝叶斯模型（图）9）揭示OOD查询（汽车），而对于在三元组回归中，在最不确定的查询尽管这些查询是具有挑战性的，但我们预计模型对来自完全不同领域的图像不太自信该实验表明，贝叶斯模型生成的置信度可以很好地推广到分布外的示例，并且可以用于区分来自分布内外的查询。同样，贝叶斯模型将预测性能与其他方法相匹配，并实现了最先进的不确定性估计。6.3. Mapillary Street Level Sequences（MSLS）最后，我们表明，贝叶斯模型也有竞争力的检索性能和国家的最先进的不确定性估计大型数据集。MSLS[58]是目前可用的最大和最多样化的位置识别数据集，包括1。来自六大洲30个城市的600万张图片就地识别的目标是从与查询图像相同的地方检索图像（其中相同的地方通常被定义在25m的半径内）。这是具有挑战性的，由于大量的独特的地方和大范围的外观变化，每个地方，如天气，动态，结构，视点，季节和白天/黑夜的变化。我们使用[ 58 ]中推荐的训练/测试分割，在24个城市进行训练，在其他6个不同的城市进行测试。贝叶斯模型实现了与传统三重损失相当的性能，甚至在使用von Mises-Fisher分布时优于传统三重损失（表3）。此外，委员会认为，R@1R@5R@10M@1M@50.4510.723 0.8130.4510.4472017年12月31日0.4710.733 0.8270.4710.2700.4310.696 0.795 0.4310.4950.751 0.837 0.4950.4700.717 0.8130.4810.744 0.836 0.4810.4780.740 0.834 0.474 0.2840.4670.724 0.814 0.467M@100.1790.1780.1910.1630.2120.1910.2050.2040.192ECE@1ECE@5ECE@10TripletTripReg贝叶斯vMF贝叶斯 Triplet三元组（MC=50）TripReg贝叶斯vMF贝叶斯三元组0.2920.1170.0940.4790.1620.2710.5550.2250.3430.1780.2630.1600.1010.3670.4560.2880.1340.4380.5360.3550.208TripRegDensenet161BayesTrip112167低置信度高置信度图10：MSLS数据集的低置信度（第1-顶部行显示查询，最下面的行显示它们的NN。我们的模型对具有强烈阳光、模糊和模糊的隧道和植被的图像的置信度较低相比之下，对于地标建筑物给出高置信度表3：MSLS数据集上1、5和10时的召回率（R）、平均精密度（M）和预期校准误差（ECE）具有高斯嵌入的贝叶斯模型为两个主干提供了最先进的不确定性估计图10示出了具有高斯嵌入的贝叶斯模型如何将低置信度与由于刺眼的阳光、模糊或隧道中的模糊重复图案而难以检索的图像相关联。此外，该模型能够为具有独特结构外观的图像分配高置信度，如最后两列所示。该实验表明，贝叶斯模型在非常大且具有挑战性的数据集中具有竞争力的性能，与标准三重损失的预测性能相匹配，并产生最先进的不确定性估计。6.4. 预测性能和不确定性量化之间的权衡在许多应用中，可靠的不确定性是一个要求。这对于需要提供可证明性保证的方法来说是很常见的。在安全关键应用中，不确定性是重要的，因为它可以确保来自用户的及时干预，例如：当图像检索用于机器人定位的闭环时。当代的概率方法通常表现出比非概率方法性能略有下降，但在上述示例中值得进行权衡。我们确实观察到了类似的趋势，其中贝叶斯三重损失在预测性能方面与最先进的水平相当或略低于最先进的水平，但在不确定性量化方面是最先进的。一个原因是预测的每-性能的一个重要方面是，我们比其他方法具有更少的用于均值预测的自由参数：为了确保公平的比较，我们限制不同的模型具有相同数量的参数，这意味着我们使用一些预测σ的能力。这削弱了我们做出平均预测的能力7. 结论我们已经提出将图像嵌入建模为随机特征而不是点估计。我们推导出一个新的可能性，遵循直觉的三重损失，但随机功能的作品。我们引入了一个先验的特征空间，连同我们的可能性，使我们能够学习高斯分布或冯Mises-Fisher分布的随机特征。所提出的方法，贝叶斯三重损失，产生国家的最先进的不确定性估计，而不牺牲预测性能相比，三重损失。图像检索中的不确定性的量化对于安全关键应用是至关重要的，而可靠的不确定性估计也打开了许多其他的门，例如与可解释性或用户友好的检索界面有关的门。我们推测，可靠的不确定性估计也可以用于硬负挖掘和避免查询扩展中的离群值[7]。致谢。这项工作得到了VILLUMFONDEN的研究资助（15334）的部分支持。该项目已获得欧盟地平线2020研究和创新计划下的欧洲研究理事会（ERC）（赠款协议编号757360），西班牙政府（PGC2018-096367-B-I00）和阿拉贡政府（DGAT4517R/FSE）的资助。MJ由嘉士伯基金会（CF20-0370）的研究资助R@1R@5R@10M@1M@50.3500.495 0.5540.3500.3490.4990.551 0.3490.3490.4940.5590.3490.3540.489 0.5490.3540.3860.5310.5830.3860.2820.412 0.458 0.2820.3860.5290.5960.3860.3830.526 0.588 0.3830.3640.506 0.571 0.364M@100.2100.2150.2260.2180.2460.1630.2450.2450.228ECE@1ECE@5ECE@10TripletTripReg贝叶斯vMF贝叶斯 Triplet三元组（MC=50）TripReg贝叶斯vMF贝叶斯三元组0.4820.4820.2080.5710.5710.3190.5930.5930.3410.5400.4240.2270.1960.6250.5430.3270.2640.6480.5660.3500.283Densenet161112168引用[1] ReljaArandjelovic，PetrGrona`t，AkihikoTorii，Toma`sPajdla，and Josef Sivic.Netvlad：用于弱监督位置识别的CNN架构。CoRR，abs/1511.07247，2015年。网址 http://arxiv.org/abs/1511.07247 。一、二、四[2] David M Blei，Alp Kucukelbir，and Jon D McAuliffe.变分推理：统计学家评论。Journal of the American StatisticalAssociation，112（518）：8594[3] Andrew Brown ， Weidi Xie ， Vicky Kalogeiton ， andAndrew Zisserman. Smooth-ap：平滑大规模图像检索的路径arXiv预印本arXiv：2007.12163，2020。2[4] 常杰，蓝中浩，程昌茂，魏以辰。人脸识别中的数据不确定性学习，2020年。2[5] Weihua Chen，Xiaotang Chen ，Jianguo Zhang，and KaiqiHuang.除了三重态损失：一个深度的四元组网络用于人的重新识别。在IEEE计算机视觉和模式识别会议论文集，第403-412页，2017年2[6] Jiwoong Choi 、 Dayoung Chun 、 Hyun Kim 和 Hyuk-JaeLee。高斯yolov3：一个准确和快速的物体检测器使用定位不确定性的自动驾驶。在IEEE计算机视觉国际会议论文集，第502-511页，2019年。2[7] Ondrej Chum，James Philbin，Josef Sivic，Michael Isard，and An- drew Zisserman.Total Recall ： Automatic queryexpansion with a generative feature model for object retrieval.第1ISBN978-1-4244-1631-8。doi：10.1109/ICCV.2007.4408891。8[8] SanghyukChun ， Seong Joon Oh ， Rafael Sampaio deRezoba，YannisKalantidis，andDianeLarlus. 跨模态检索的概率嵌入。 arXiv预印本arXiv：2101.05068，2021。2[9] ArmenDerKiureghian和OveDitlevsen。偶然的还是认识的？有关系吗结构安全，31（2）：1052[10] Inderjit S Dhillon和Suvrit Sra. 使用方向分布建模数据。技术报告，2003年。4[11] 汤姆·迪特关于vonmises-fisher分布的kullback-leibler散度的一个注记。arXiv预印本arXiv：1502.07104，2015。4[12] AbdelrahmanEldesokey ， MichaelFelsberg ， KarlHolmquist，and Michael Persson.深度补全的不确定性感知cnns：从开始到结束的不确定性。在IEEE/CVF计算机视觉和模式识别会议论文集，第12014-12023页，2020年。2[13] 亚林·加尔深度学习的不确定性剑桥大学，1（3），2016年。2[14] 亚林·加尔和祖宾·加赫拉马尼。Dropout作为贝叶斯近似：在深度学习中表示模型的不确定性。在机器学习国际会议上，第1050-1059页，2016年。2112169[15] Albert Gordo，Jon Almazan，Jerome Revaud，and DianeLarlus.深度视觉表示的端到端学习，用于图像检索。International Journal of Computer Vision，124（2）：237-254，2017。2[16] Chuan Guo，Geoff Pleiss，Yu Sun，and Kilian Q.温伯格现代神经网络的校准。CoRR，abs/1706.04599，2017。网址http://arxiv.org/abs/1706.04599。4[17] Fredrik K Gustafsson ， Martin Danelljan ， GoutamBhat，and ThomasBScho¨n. 深度概率回归的能量基模型。欧洲计算机视觉会议（ECCV），2020年。2[18] Fredrik K Gustafsson，Martin Danelljan，and Thomas BSchon.评估用于鲁棒计算机视觉的可扩展的baidom深度学习方法在IEEE/CVF计算机视觉和模式识别研讨会会议论文集，第318二、四[19] Raia Hadsell、Sumit Chopra和Yann Lecun。通过学习不变映射来降维第1735 - 1742页，2006年2月。ISBN 0-7695-2597-0。doi：10.1109/CVPR.2006.100。2[20] Kaiming He，Xiangyu Zhang，Shaoying Ren，and Jian Sun.用于图像识别的深度残差学习。CoRR，abs/1512.03385，2015。网址http://arxiv.org/abs/1512.03385。5[21] Gao Huang，Zhuang Liu，and Kilian Q.温伯格密集连接的卷积网络。CoRR，abs/1608.06993，2016。网址http://arxiv.org/abs/1608.06993。 5[22] Herve 'Je' gou ， MatthijsDouze ， CordeliaSchmid 和 PatrickPe'rez。将局部描述符聚合成紧凑的图像表示。2010 年IEEE计算机协会计算机视觉和模式识别会议，第3304-3311页。IEEE，2010。2[23] Alex Kendall ， Vijay Badr

下载后可阅读完整内容，剩余1页未读，立即下载