没有合适的资源?快使用搜索试试~ 我知道了~
10644不同的深度度量学习损失会导致相似的学习特征吗?Konstantin Kobs Michael Steininger Andrzej Dulny Andreas Hotho维尔茨堡大学德国{kobs,steininger,dulny,hotho} @ informatik.uni-wuerzburg.de摘要最近的研究表明,许多深度度量学习损失函数在相同的实验条件下表现非常相似。这种出乎意料的结果的一个潜在原因是,所有的损失都让网络集中在类似的图像区域或属性上。在本文中,我们通过两步分析来研究这一点,以提取和比较使用不同损失函数训练的相同模型架构的学习视觉特征:首先,我们通过对相同输入图像的显著性图进行相关,在像素级上比较学习到的特征。其次,我们比较了几种图像属性的嵌入聚类,例如。对象颜色或照明。为了提供对这些属性的独立控制,生成类似于Cars196数据集中的图像的照片级逼真的在我们的分析中,我们比较了最近一项研究中的14个预训练模型,发现尽管所有模型的表现都相似,但不同的损失函数可以指导模型学习不同的特征。我们特别发现分类和基于排名的损失之间我们的分析还表明,一些看似不相关的属性可以产生显着的影响结果嵌入。我们鼓励深度度量学习社区的研究人员使用我们的方法来深入了解他们提出的方法所学习的特征。1. 介绍在深度度量学习(DML)中,训练神经网络以将输入图像映射到η维嵌入向量,如果对应的输入共享给定的类,则η维嵌入向量应该彼此接近。因此,网络必须学习提取有区别的输入特征来嵌入图像。已经引入了许多损失函数,这些损失函数可以分为基于排名的损失[12]、基于分类的损失[47]以及结合两种方法的混合方法[13]。基于排名的损失比较数据点的对、三元组或高阶元组以计算损失。基于分类的方法通常学习一个或多个图1.鉴于标准的DML设置与神经网络,将输入图像映射到嵌入空间(灰盒),我们提出了两种分析方法。首先,我们识别对网络创建嵌入很重要的像素。然后,我们比较定性和定量的损失函数之间。其次,我们研究了图像属性对嵌入空间中聚类行为的影响,并在损失函数之间进行了比较多个类表示,并训练网络将输入映射到相应的类嵌入。在最近的研究中,不同的DML损失函数显示,如果进行公平比较,会导致相似的测试性能[23,26]。Musgrave等人[23]识别许多DML论文的评估设置中的缺陷,并通过使用相同的基准数据集、体系结构和测试指标测试几个常见的损失函数,在DML方法之间进行公平的他们的研究发现,所有测试损失的性能非常相似。总的来说,研究表明,即使具有相似的性能,神经网络也可能学会专注于不同的[5]和一些10645甚至是不需要的输入特征[18],以形成输出。在本文中,我们分析和比较了什么样的特征是由共同DML损失函数。我们提出了两种新的分析方法深入了解网络的底层过程(见图1),并将其应用于Musgrave等人提供的14个预训练模型。(如表1所示)。第一种提出的分析方法采用基于梯度的解释方法来处理DML,突出显示导致网络输出图像表示的图像像素[30]。这样的可视化可以用于在像素级上做出关于所学习的特征的定性陈述。然后,通过计算受视觉显着性文献[19,25]启发的度量,可以量化损失函数之间的差异在我们的实验中,我们在斯坦福在线产品数据集上识别出基于分类和基于排名的损失函数之间的巨大差异[33]。我们提出的第二种分析方法测量图像属性的影响,例如。对象的旋转或颜色。通常在DML中,网络学习区分一个特定的属性,例如Cars196数据集的汽车模型[17],使得相同汽车模型的图像具有相似的嵌入,并且不同汽车模型在嵌入空间中相距更远为了进行测试,测量了网络由于其训练目标,其他属性(如汽车如果网络使用属性来输出嵌入,则相同属性的图像也可能被聚类,可能不太明显。我们建议衡量聚类的嵌入,或关于不同的图像属性,以评估其重要性。为了确保属性不相关,我们生成了一个由照片级逼真的汽车渲染组成的大型图像数据集。由于测量的聚类行为与共同的度量R-精度取决于可能的属性值的数量,我们提出了一个属性独立的扩展,归一化R-精度,使多个属性的比较一次。我们的实验表明,模型使用的属性在我们生成的数据集的所有损失函数中都是相当一致的。令人惊讶的是,一些不期望的性质显示出对嵌入的显著影响。我们的贡献是:1.我们提出了两种方法来分析DML方法的学习功能,一个在像素级和一个在图像属性级。2.我们引入了一种新的措施,称为归一化R精度,使之成为可能,以比较不同的图像属性和一个大型数据集的3D汽车渲染与已知的属性的影响3. 应用我们的新方法,我们检查了14种常见的DML损失函数,发现分类和排序适用于根据数据集的不同,路径倾向于学习不同的特征。4.我们提供代码和数据,使研究人员能够更好地理解他们提出的方法。1本文件的结构如下:第二节讨论了相关的工作和我们的实验设置。在第3节中,我们描述并应用我们的像素级分析方法。在第4节中进行了性能分析。第5节和第6节讨论并总结了我们的工作。2. 背景2.1. 深度度量学习深度度量学习(DML)旨在训练深度神经网络将输入数据映射到多维流形上,使得接近的表示意味着高输入数据相似性。DML已被应用于许多计算机视觉任务,如图像聚类、检索、人的重新识别和人脸验证,但也被应用于其他领域,如人脸识别。3D形状检索、语义文本相似性和说话人验证[15]。DML损失函数主要有三类:基于排名的方法依赖于项目的排名对、三元组或高阶元组[12,43]。 由于元组的选择对于稳定的训练过程至关重要,因此有效的采样策略也需要研究[44,27,10]。基于分类的方法通常通过一个或多个向量来表示每个类,所有类项都应该映射到这些向量。虽然这加快了训练而不需要专门的采样策略,但由于每个类只有很少的表示,表示通常不太详细[7,47]。因此,混合方法结合了排名和分类方法,在捕获数据细节的同时快速训练[13]。在论文之间改变评估设置使得很难公平地比较不同方法的有效性。因此,最近的工作已经开始在相同的训 练 和 测 试 条 件 下 比 较 DML 损 失 函 数 , 特 别 是Musgrave等人。[23]我们在这项工作中使用了他的预训练模型。他们发现,由于评估设置的变化或缺陷,新提出的方法的报告改进往往过于乐观在平坦的地面上,测试的损失表现大致相似。2.2. 特征分析像素级特征许多作品提出了卷积神经网络(CNN)解决分类任务的解释方法[30,9,48,49,45,31]。这些方法突出显示了鼓励模型决定某个类的输入像素DML网络学习多维表示,使得这些方法中的大多数都在DML中,大多数关于特征重要性的工作都集中在图像检索任务上,并针对导致各自相似性1https://github.com/konstantinkobs/DML-analysis10646()∈ ×→()∈()()()∈{}----→联系我们评分[35,11,50,28]。Stylianou等人[35]将他们的工作基于类激活图(CAM)[49]方法,该方法计算最后一个卷积激活图中每个像素与其他图像该方法仅适用于在最后一次卷积之后使用全局平均池化来创建嵌入的CNN。CAM由Zhu等人改编为DML设置。[50]中,两个图像的激活图Chen等人提出的方法。[3]使用训练图像的三元组,并将Grad-CAM的显着图与相应的嵌入一起保存到数据库中。对于测试图像,来自数据库的相似图像的显著性图被内插。虽然解释图像对之间的相似性对于图像检索等任务是我们提出的方法适用于任何神经网络架构和像素级计算的重要性。属性级别特征我们的方法用于分析图像属性对嵌入的影响,使用合成数据集。虽然先前的工作在合成数据集上训练神经网络以提高真实世界场景中的性能[36,16],但只有很少的工作探索了使用合成数据来分析在真实世界数据上训练的机器学习模型。Steininger等人[34]生成假Open-SteetMap图像以评估诸如街道宽度或位置等属性对训练的土地使用回归模型的输出这种方法类似于我们的方法,但我们生成照片般逼真的汽车3D图像,并评估给定固定属性的嵌入的聚类特性,而不是只改变一个属性。2.3. 设置对于我们的分析,我们使用Musgrave等提供的训练模 型 , 他 们 用 14 个 DML 损 失 函 数 训 练 BatchNormInception网络[14]并比较它们的性能[23]。表1列出了所有已使用的损失。每个网络输出每个图像的128维嵌入,并在三个常见数据集上进行训练和评估:Cars 196[17]显示不同的汽车模型(16 185图像/196类); CUB200 [38]显示鸟类(11 788张图片/200个类别);和斯坦福在线产品(SOP)[33]显示易趣产品(120053图片/22634类)。对于我们的像素级分析,我们使用所有三个数据集,而对于图像属性分析,我们只分析在Cars196数据集上训练的模型,因为我们使用生成的汽车图像松散地模拟了这个数据集。对于每个损失,提供四个训练模型,一个用于方法年损失类型距离/相似度对比[12]2006排名欧氏距离三重[43]2006排名欧氏距离NTXent [32]2016排名余弦相似度ProxyNCA [22]2017分类平方欧几里得保证金[44]2017排名欧氏距离保证金/类别[44]2017排名欧氏距离归一化Softmax [20,40,47]2017分类点积相似性CosFace [39,41]2018分类余弦相似度ArcFace [7]2019分类余弦相似度FastAP [2]2019排名平方欧几里得SNR对比[46]2019排名SNR距离多相似性[42]2019排名余弦相似度多相似度+矿工[42]2019排名余弦相似度免费WiFi [24]2019分类余弦相似度没有一表1.分析了从[23]中获得的损失方法使用贝叶斯优化器执行四重交叉验证的每一重以优化超参数。在相同条件下训练所有模型,并对所有折叠的测试结果进行平均。我们还报告了平均结果,因为对于所有褶皱,结果非常相似。关于我们使用的模型的训练设置和最佳超参数的更多信息可以在[23]中找到。此外,我们还添加了一个未经训练的模型2.4. 符号对于给定的损失函数对比,三元组,。. . ,神经网络工作���:���R���映射来自数据集���=I1,. . .,I���到 三维嵌入空间。这导致嵌入���=x1,. . .,x���,其中x���= ���I,���对于���1,. . . ,的���。 每个图像都有属性;属性���有可能的值 ���。图像I��������������������� 一个属性classI=classI)。 特定于损耗的距离函数���ℓ:������R+0计算两个嵌入的距离,例如:欧氏距离虽然也可以是相似性测量,例如,余弦相似度,应该在相似的嵌入之间最大化,为了简洁起见,我们假设它是本文其余部分的距离度量3. 像素级3.1. 显着性图我们提出的第一种方法旨在识别像素级别的特征,这些特征对于网络输出某个嵌入的决定很重要。为此,我们将基于梯度的解释方法适应于DML设置,以导出所谓的显着图[30]。他们习惯于定性10647()下一页()()()下一页N()���=ℓ+N(0,表2.SOP数据集上所有损失函数之间的相关性所有值均以百分比给出值越大,单元格越暗排名分类没有一排名86±685±675±11分类85±686±574±11没有一75±1174±11100±0表3. Cars196数据集上所有损失函数之间的相关性。所有值均以百分比给出。排名分类没有一排名90±690±687±6分类90±690±687±6没有一87±687±6100±0表4. CUB200数据集上所有损失函数之间的相关性。所有值均以百分比给出。分析一个网络上的一个单一的形象,但是,我们提出了定量措施比较模型。我们的显着图试图回答这个问题:“引导网络输出特定嵌入的主要图像区域是什么?”“.直观地说,我们通过改变没有显示特征的图像的像素来获得最终的嵌入x,即一个完全黑色的图像,我的基础,对我���。 朝向最终嵌入的变化越大,像素越重要。因此,我们希望识别图像的嵌入x和黑色图像的嵌入x base = I base之间的距离x,x base最有影响力的像素 ���������。我们通过计算损失特定距离w.r.t.输入I:���s(I���)=(x���,xbase)/ I���。(一)由于这些梯度可能有噪声,因此我们应用Smooth-Grad方法[31],通过添加高斯噪声0,2并对所得到的梯度进行平均:高的绝对梯度指示改变相应的输入值对测量的距离具有大的影响,从而识别负责基础嵌入的偏差的像素。我们使用常用技术对梯度进行后处理,即(按此顺序)取绝对值,跨颜色通道维度求平均,裁剪高于第99百分位的值,并将值缩放到从零到一的范围。这些步骤使原始梯度更具语义性,产生可解释的显著性图s~(I)[31]。���总的来说,该方法是一种定性的技术,能够对图像中重要的高光区域进行网络化.虽然这可以用于可视化单个图像上的DML损失函数之间的差异,但我们建议使用这种技术来量化差异:������使用不同的 损失1和2 训练2,我们将两个模型应用于相同的测试图像I1,. . .,I���,并计算显著性图s_I,i,. . .,对于1和2,s~���I。 受视觉显着性任务文献的启发[19,25],即为了估计人眼对图像的注视的热图我们在求平均值[29]之前将相关性转换到Fisher-Z空间,并将每个显着图除以其总和,以获得JSD的概率分布接近1的平均相关性表明,两个显着性图通常具有线性依赖性,这意味着两个网络都关注相同的图像区域。较低的值表示两个模型学习了不同的特征以表示图像。平均JSD为零意味着两种方法产生相同的显着性图,而较高的值(由于以2为底的对数,以1为界)显示较大的差异。3.2. 实验sI1 .一、1S.I2Σ等级分类对比三重峰NTXent余量/类FastAP SNR Con.MS M S +Miner ProxyNCA N. Softmax CosFace ArcFace SoftTriple None对比三重NTXent保证金保证金/类FastAPSNR Con.MSMS+MinerProxyNCAN.SoftmaxCosFaceArcFaceSoftTriple63±1463±1363±1461±1562±1563±14 61±15 62±1560±16 59±1658±18 58±1859±20 56±19 5 8 ±1958±2055±2148±2351±2165±1267±1164±1350±19 50±20 50±1950±2053±1765±1269±1167±1167±1266±1243±2243±2244±2150±20 52 ±1850±1950±2050±2049±20 52 ±1849±1949±2049±2045±2045±2046±2059±1664±13 63±1464±1369±1162±1447±1951±17 52±17 52±1754±1652±1849±1760±1664±1363±1367±12 66±1262±1453±18 54±1754±16 55±1653±18 54±1853±18 53±1853±18 54±1744±2250±19 50±19 49±2052±1850±1946±2058±1862±1357±1462±1262±12 63±13 60±1364±1258±1853±18 54±16 53±18 53±18 53±1854±17 55±16 54±18 53±18 54±1762±1359±1362±12 62±13 61±1359±1463±1248±2343±22 43±22 44±2147±1944±2257±1459±1461±1359±13 59±1357±1461±1355±2160±1361±1361±1361±13 61±1359±1363±1358±2050±20 49±20 50±2050±20 49±20 50±1952±1752±1750±1949±2061±1365±1266±1262±1258±1950±19 51±17 50±19 49±19 50±1962±1262±1359±1359±1365±12 61±1366±11 61 ±1261±1261±1259±1360±1259±1360±1356±1952±18 54±16 52±18 52±18 53±1762±1262±1263±1359±1357±1459±1361±12 62±1263±1259±1259±2050±20 49±20 50±2052±1850±1963±12 64±1261±1363±1366±11 66±1263±1262±1251±2145±20 45±20 46±2049±1746±2061±12 61±12 59±1360±1259±13 60±1359±1262±12排名分类10648定量结果表2至4示出了相关性。SOP测试数据集的平均值和标准差.(二)10649±...xℓF=arg min .(x,x)。(三)1x分别是Cars196和CUB200。为了易读性,我们省略了所有表中的Jensen-Shannon散度及其标准差,因为所有值都在0左右。02 0. 01,并表现出类似的趋势的相关性。为了简洁起见,我们还显示了Cars196和CUB200的压缩表完整表格见附录A。与其他数据集相比,SOP的相关性通常较弱,具有较大的标准偏差,这表明在特征提取方面,损失在图像之间不一致。令人惊讶的是,不同损失类型的损失对(排名与。分类)显示出比相同损失类型的对更低的相关性,这表明不同的损失类型导致不同的显着性图。通过它们的距离/相似性度量对损失对进行分组并没有显示出这种明显的差异。“无”模型与分类的相关性比与排名损失的相关性更强,这是由于其在分类任务上的训练而预期的对于Cars196和CUB200数据集,我们对每个损失类型组合的表项进行平均,因为这些表项显示出几乎相同的相关性。强相关性表明模型倾向于关注相同的像素来嵌入图像。此外,标准偏差约为0。06,表明所有图像的行为一致。在比较排名和分类损失时,我们无法确定相关性的同样大的下降Cars196数据集只存在很小的趋势。相关性的显著下降只能用未训练的“无”模型观察到训练的模型和未训练的“无”模型之间的强相关性在它们之间的提取特征中显示出高相似性。我们的结论是,基于ImageNet的未训练模型的初始化已经导致了被分析的DML网络拾取的特征定性结果给定定量结果的发现,我们现在直观地检查学习的特征。图2示出了针对来自SOP测试数据集的样本图像的所有研究的网络的显著性图,示出了椅子。我们观察到,大多数方法突出了椅子的部分,但侧重于不同的区域。而例如对比损失-倾向于椅子坐在座位上。 由于数量上的差异关于这些属性的影响,我们继续进行分析的第二步。4. 产权层次4.1. 房地产集群图像属性描述了对象形式、颜色或方向等概念。我们调查的问题“什么样的图像属性影响模型输出?“.每个输入图像都有一组属性及其值.对嵌入具有高影响的属性满足两个聚类目标:首先,固定此属性并更改所有其他属性值应导致嵌入空间中的小偏差。第二,在保持其他一切不变的情况下改变属性会导致嵌入空间中的大偏差。这个想法是用在常见的评价指标在DML,但只适用于图像如果DML神经网络将具有相同类别的测试图像映射到嵌入空间中的相似位置,而将具有不同类别的图像嵌入到不同位置,则被认为工作良好。对于Cars196,一个测试类是某个汽车模型,对于它有许多不同的图像,从不同的角度,汽车颜色等。存在于数据集中。代替“类”,我们使用其他图像属性,如汽车的颜色或汽车的方向。即使神经网络没有在这些类型的数据分割上进行训练,我们仍然可以测量结果嵌入关于定义属性的接近程度例如,如果按汽车方向对嵌入进行分组显示出定义明确的聚类,则我们可以得出结论,改变方向对网络的输出有显着影响。如果网络对汽车的方向是不变的,改变它不会显著改变嵌入向量,因此不会显示聚类行为。图3显示了三个属性的聚类示例。为了度量属性的聚类行为,我们提出使用通用的DML度量R-Precision作为基础。对于一个查询嵌入x和一个属性,将检索数据集中最接近的嵌入,其中,是具有相同属性数据集中的value(x)F||排名和分类损失,我们观察到排名基于分类的方法通常显示更明显的局部亮点,而基于分类的方法突出更广泛的亮点。���,F= ���,��� x∈F然后,将R精度(R-Prec)定义为..地区似乎背景区域也更不-分类方法的重要性该观察结果难以验证,因为我们没有任何关于图像的前和背景的分割信息。还有,R-Prec==1{x���∈F���|������(I���)=���(I���)},、 (四)而人类根据概念来像前景、背景或对象部分一样,神经网络仅在像素级上工作。 才能成为国家-I.E.具有相同属性的值此度量标准衡量模型将具有相同属性值的项更紧密地放在一起的程度。 越高1065060 40 20 0 20 40 6060 40 20 0 20 40 60··(−)·...图2. 来自SOP的样本图像的显著性图。原始图像和前两行显示嵌入损失,第三行显示分类损失。更多样本见附录B。车模汽车轮换太阳自转40 404030 303020 202010 10100 0010 101020 202030 303040 4040图3.来自Cars 196模型的1000个嵌入,具有使用t-SNE可视化的对比损失[37]。颜色表示不同的属性值。Car模型的聚类效果很好,这表明该模型将此属性作为其嵌入输出的区分特征。汽车旋转显示局部聚类,因此仍然对嵌入有影响太阳旋转没有任何影响,并且根本不成簇。对于某个属性的R精度越高,嵌入集群w.r. t越好到这个财产。改变财产因为 查询嵌入x 是二项分布的。对于度量计算,我们取, sam-从而显著地改变嵌入向量,而网络受其他属性的影响较小。例。 有的概率, 为|{x���∈���|������(I���)=������(I���)}|但是,R精度取决于属性值的数量:给定一个随机嵌入,并且只有两个可能的属性值具有相同的项目数,预期的R精度为0。5.对于具有10个可能值的属性,预 期 的R-Prec得分为0。1. 因此,A一个封闭的嵌入具有相同的属性值。我们使用均值、=、 和标准差, =,,1、以规范化每个查询嵌入的R-Precision 计 算 。 我 们 获 得 归 一 化 R 精 度 ( NR-Prec):..1x属性之间的绝对比较是不可能的,因为随机嵌入会得到不同的分数所以我们建议将归一化步骤应用于R-精度校准NR-Prec==1{x���∈F��� | ������(I���) =���(I���)} −������,���,计算使用随机生成的嵌入对所有images,具有相同属性值的图像的数量(五)如果聚类与随机聚类一样好,则NR-Prec为零。60 40 20 0 20 40 60.10651图4.我们生成的汽车数据集的示例图像。我们改变了11个属性,例如模型、照明和颜色。属性可能值法拉利恩佐奔驰300sel即使网络可能只关注汽车模型特征。为了确保测试数据集中每个图像的属性彼此独立,我们创建了汽车的照片级逼真3D渲染,松散地模仿了Cars196数据集。除了汽车模型之外,我们还更改了汽车表5显示了所有改变的性质及其可能的值。我们从所有可能的组合中随机抽取100 000个样本,以确保所有分割具有相似的大小和独立的属性值选择。图4显示了我们使用Blender[4]生成的数据集示例。4.2. 实验我们生成的数据集的图像通过所有车模汽车旋转汽车颜色色相饱和值背景颜色色调饱和值相机高度太阳仰角太阳自转梅甘娜RS,奔驰AMG轿跑车,揽胜极光,特斯拉型号S0°,45°,. . . ,315°0.0、0.1、. . . ,0.90.0,0.25,. . . 2.00.0,0.25,. . . 2.00.0、0.1、. . . ,0.90.0,0.25,. . . 2.00.0,0.25,. . . 2.00.5、1.5、2.5、3.50°、45°、90°0°,45°,. . . ,315°测试模型,并计算每个参数的NR-Prec,结果见表6。所有损失按同样的顺序归于财产。汽车旋转的聚类可能源于相机可见的出于大概类似的原因,相机高度也显示出良好的聚类。这也可能是因为只有很少的Cars196训练图像从低视角显示汽车。太阳旋转显示不良的聚类行为:在训练期间,可以看到从许多可能的方向照亮的汽车。令人惊讶的是,太阳这可能来自主要由以下内容组成的训练数据集表5.汽车渲染中的所有属性和相应的可能值。随机均匀选择组合。嵌入与零的偏差越大,由于随机性导致的该聚类的概率 越 低 。 由 于 归 一 化 , 我 们 获 得 了 两 个 优 于 R-Precision的优势:一方面,我们现在可以比较具有不同数量可能值的属性,允许我们根据模型对不同属性的选择程度对它们进行排序。NR-Prec结果及其排名也可以在模型之间进行比较,以检查不同的损失函数是否另一方面,可以测量统计显著性。给定足够大的数据集,归一化二项分布近似正态分布,因此如果NR-Prec超过2。576,嵌入位置与具有1%显著性水平的随机嵌入重要的是,针对每个图像独立地选择用于计算NR-Prec的数据集中的属性,以正确地测量属性重要性。假设数据集由汽车图像组成,其中每个汽车模型都有自己的特定颜色。 如果网络被训练成聚类汽车模型,则汽车模型与颜色之间的高度相关性导致颜色的良好聚类嵌入。白天拍摄的照片低太阳高度使得光线更温暖,投射出更长的阴影。这些对图像的影响可能会被DML模型拾取,因为在这种情况下几乎没有训练示例。背景颜色对聚类的影响可以忽略不计,这是预期的,因为汽车是在许多不同的环境中拍摄的。相比之下,汽车颜色导致嵌入与随机嵌入显著不同,这有点令人惊讶,因为每个训练汽车模型都以多种颜色显示。我们怀疑不同的颜色会使识别某些特征变得更加困难。我们观察到与训练的嵌入相比,汽车模型显示出较弱的聚类,背景颜色属性产生的嵌入与随机分配显着除了最后一层之外,网络因此,网络的嵌入表示对于图像分类重要的特征。对于该任务,所学习的特征通常对于照明条件是不变的,但是环境可以是区别性特征,例如:水的存在有助于识别船只[18]。因此,在对Cars196数据集进行微调10652表6.NR-渲染汽车图像的该值越高(单元格阴影越深),性能越不可能源于随机采样相邻单元格。显著不同的值加下划线。我们还给出了排名和分类损失的方法在那里,粗体文本表示,平均而言,一种损失类型比另一种损失类型更关注该属性所有损失函数引导网络学习背景对于嵌入汽车模型不太重要。当按损失类型分组时,我们确定了排名与排名之间NR-Prec得分的差异。分类.我们应用Mann-Whitney U检验[21],显著性水平为1%,显示除汽车模型和太阳旋转外,所有图像属性的基于分类和基于排名的损失函数之间存在显著差异。虽然排名损失函数显示汽车旋转和摄像机高度的影响显着较大,基于分类的损失函数出席的汽车和背景颜色属性,以及太阳高度显着超过排名损失。这支持了我们的定性观察,即平均而言,背景属性在分类中往往比在排名损失中发挥更大的作用。5. 讨论总的来说,我们的实验表明,所有网络都在像素和属性级别上学习类似的特征。然而,在SOP数据集上,基于分类的损失与基于排名的损失相比涉及相当不同的区域。基于DML的目标是将同一类的图像聚类在一起,我们希望模型对该类的重要特征是不变的,例如。汽车的颜色、它的然而,我们已经表明,汽车的颜色,旋转,太阳的海拔和相机高度的属性有显着的此外,分类损失通常比排名损失更关注图像的背景。我们提出的方法作为工具来分析什么功能是由DML神经网络学习,并评估他们是否是unimportant属性不变。我们的工具可用于开发和评估鼓励不期望的不变性的方法。特性,例如,[1]的文件。简单的预处理步骤,如色调偏移,灰度或倾斜,可以消除对汽车颜色或相机高度/角度的依赖性虽然我们还没有研究其他相机参数的影响,如焦距或图像属性,如对比度或亮度,这些也可能对结果嵌入产生不希望的影响。在方法上校正这些参数是期望的。由于我们发现了基于分类和基于排名的方法之间的差异,未来的工作可能会分析混合损失函数,并找到发现差异的原因。除了损失之外,我们的方法还能够检验其他方法选择之间的差异.元组挖掘或正则化方法。我们的显着图为基础的方法是数据集不可知的,可以应用于任何训练的DML模型和输入图像。由于Cars196是一个常见的DML基准,大多数研究人员已经在这个数据集上训练模型。因此,我们的图像属性分析可以在没有额外训练的情况下进行。我们鼓励研究人员使用我们的工具来深入了解他们提出的方法。6. 结论在本文中,我们分析了14种不同的深度度量学习损失,包括它们在像素和图像属性级别上的学习特征。为此,我们提出了两种方法,一种是基于显著图突出负责图像嵌入的像素,另一种是基于图像属性的聚类行为。我们能够证明,基于排名和基于分类的损失指导网络根据数据集学习不同的特征。我们还发现,所有的损失都关注看似不受欢迎的属性,如汽车我们提出的两种方法是进一步比较深度度量学习方法的基础。车模 旋转对比58.32 39.60三胞胎NTXent57.87 38.22保证金57.91 38.58保证金/类别58.92 39.65FastAP55.84 38.44信噪比对比57.38 39.88多相似度59.81 41.03多相似度+矿工57.82 38.86代理NCA57.68 37.64标准化Softmax57.26 37.76CosFace56.50 38.51ArcFace55.62 37.20软三重57.36 38.08无排名平均值57.9139.07汽车 色彩饱和度3.023.28三点二五三点二十六三点四四三点半3.50 3.18三点四一三点三十六2.81 3.10三点四一三点三七三点一八三点三七3.24 3.134.73 3.93三点八五三点九七4.00 3.654.15 3.72值4.724.694.544.764.834.875.054.954.525.725.445.324.915.374.484.775.35背景颜色色调饱和值1.521.631.571.591.891.051.691.831.842.331.682.402.901.814.811.622.231.301.431.461.291.721.241.561.741.522.091.802.392.842.004.091.482.222.092.502.182.042.251.812.222.592.032.522.312.642.932.256.802.192.53相机高度20.9219.5020.3221.2121.5520.4921.4021.1420.0319.8219.4319.1018.7019.7220.7520.7319.35太阳高度旋转8.238.228.558.308.827.458.668.737.669.778.818.728.988.438.648.298.940.850.740.780.780.760.710.820.870.770.840.800.830.780.770.750.790.80分类排名10653引用[1] Biagio Brattoli,Karsten Roth,and Bjorn Ommer.MIC:Mining- ing Interclass Characteristics for Improved MetricLearning.2019 年 IEEE/CVF 国 际 计 算 机 视 觉 会 议(ICCV),第7999美国电气与电子工程师协会。8[2] Kunh Cakir,Kun He,Xide Xia,Brian Kulis,and StanScaroff.深度度量学习排名。2019年IEEE/CVF计算机视觉和模式识别会议(CVPR),第1861-1870页,美国加利福尼亚州长滩,2019年6月。美国电气与电子工程师协会。3[3] Lei Chen,Jianhui Chen,Hossein Hajimirsadeghi,andGreg Mori. 调 整 Grad-CAM 用 于 嵌 入 网 络 。 arXiv :2001.06538 [cs],2020年1月。3[4] Blender在线社区。Blender-3D建模和渲染软件包。Blender基金会,Stichting Blender基金会,阿姆斯特丹,2018。7[5] AlexanderHoffman,FarhadHormozdiari,NeilHoulsby , Shaobo Hou , Ghas- sen Jerfel , AlanKarthikesalingam , Mario Lucic , Yian Ma , CoryMcLean , Diana Mincu , Akinori Mitani , AndreaMontanari , ZacharyNado , VivekNatarajan ,Christopher Niel-son , Thomas F. Osborne , RajivRaman , Kim Ramasamy , Rory Sayres , JessicaSchrouff , Martin Seneviratne , Shan-non Sequeira ,Harini Suresh , Victor Veitch , Max Vladymy-rov ,Xuechi Wang,Kellie Webster,Steve Yadlowsky,Tae-dongYun , XiaohuaZhai , andD. 斯 卡 利Underspecification对现代机器学习的可信度提出了挑战。arXiv:2011.03395 [cs,stat],Nov. 2020. arXiv:2011.03395。1[6] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页IEEE,2009年6月。3[7] 邓健康,贾国,薛念南,Stefanos Zafeiriou。ArcFace:AdditiveAngularMarginLossforDeepFaceRecognition.2019年IEEE/CVF计算机视觉和模式识别会议(CVPR),第4685- 4694页,美国加利福尼亚州长滩,2019年6月。美国电气与电子工程师协会。二、三[8] D.M. Endres和J.E.辛德林概率分布的一个新度量。IEEETransactions on Information Theory , 49 ( 7 ) : 1858-1860,2003年7月。会议名称:IEEE Transactions onInformation Theory. 4[9] 露丝·方和安德里亚·维达尔迪黑箱的有意义扰动解释。2017年IEEE国际计算机视觉会议(ICCV),第3449-3457页,10月。2017. 2[10] Weifeng Ge , Weilin Huang , Dengke Dong , andMatthew R. Scott.深度度量学习与分层三重损失。在Vittorio Ferrari、Martial Hebert、Cristian Sminchisescu和Yair Weiss的编辑中,计算机视觉-Springer InternationalPublishing- ing,Cham,2018. 2[11] 阿尔伯特·戈多和黛安·拉勒斯超越实例级图像检索:利用标题学习语义检索的全局视觉表示。2017年IEEE计算机视觉和模式识别会议(CVPR),第5272
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功