暹罗网络：嵌入能力及训练有效性的研究

161 浏览量更新于2023-10-16 收藏 830KB PDF 举报

学习理论

算法应用

身份认证购VIP最低享 7 折!

30元优惠券

1暹罗网络：两个流形的故事Soumava Kumar Roy 1，4，Mehrtash Harandi 2，4，Richard Nock 1，3，4，RichardHartley 11澳大利亚国立大学;2莫纳什大学;3悉尼大学4 DATA61-CSIRO，澳大利亚Soumava.anu.edu.au，Mehrtash. monash.edu，Richard.data61.csiro.au，Richard. anu.edu.au摘要Siamese网络是一种非线性深度模型，由于其嵌入能力，它们已经找到了解决学习理论中广泛问题的方法。在本文中，我们从一个新的角度研究暹罗网络，并质疑其训练过程的有效性。我们表明，在大多数情况下，暹罗网络的目标被赋予了不变性。忽略不变性会导致训练暹罗网络的障碍为了缓解这个问题，我们提出了两个黎曼结构，并推广了一个成熟的加速随机梯度下降方法，以考虑所提出的黎曼结构。我们的经验评估表明，通过利用黎曼几何，我们实现了国家的最先进的结果对几个算法的细粒度图像分类的挑战性问题1. 介绍由Bromley [4]在90年代引入的连体网络在机器学习中无处不在，人们可以在相似性/度量学习[15，40，43，45]，哈希[37]中找到它们的踪迹。聚类[28]和零/一/少数射击学习[21，52，65]。也许对计算机视觉文献的一瞥可以更好地了解为什么暹罗网络在当今是必不可少的暹罗网络已成功用于解决人脸识别/验证[5，17，49，47，41]，个人重新识别[10，54]， image/patch/point de-脚本[64，25，42，63]，定位[51，32]，图像检索[12]，立体匹配[35]，深度度量学习（DML）[8，33，53，61，22]甚至对象跟踪-ing [50，2，44].在大多数情况下，SiNN实现数据的非线性嵌入，其目标是获得语义上有意义的空间，其中相关模式（例如，同一个人的面部）彼此接近而语义上不相关的模式的接近（例如，不同的人的脸）被避免。非线性嵌入分两个阶段完成; 1. 特征提取由两个姐妹网络（通常具有共享权重）执行，2。接着是由半正定矩阵参数化的嵌入。以往对暹罗网络的研究主要集中在以下几个方面：1. 设计挑战。对于给定的问题，什么是正确的网络设计？2. 培训挑战。这听起来可能令人惊讶，但正如大量的作品所证明的那样（例如，[41，40，43，45，61，26]），适当的数据采样/挖掘在成功训练暹罗网络中起着至关重要的作用我们将在本文后面更详细地讨论这一点。在这项工作中，我们将解决一个重要的，在很大程度上被忽视的问题，在培训暹罗网络。我们将证明，暹罗网络的目标函数具有一种形式的不变性。因此，搜索空间的几何形状不再是欧几里得的。黎曼几何领域的研究表明，如果在优化过程中考虑搜索空间的真实几何形状，则可以产生更好的结果[1，19]。因此，在这项工作中，我们开发的工具和算法，考虑到暹罗网络的不变性。我们在这项工作中的贡献是• 我们提出并发展了一种新的矩阵流形及其相关的流形操作，提供不变性的连体网络的结构。• 作为另一种解决方案，我们表明，所需的不变性也可以通过使用Stiefel流形来模拟搜索空间的真实几何形状。• 我们还作出了另一个贡献，将随机梯度下降的黎曼形式带动量的反向传播算法这是在训练网络期间保持几何结构所必需的。30463047∗∗M• 最后，我们表明，通过利用真实的几何形状训练暹罗网络，可以实现显着改善的任务分类看不见的罚款，粒度类（例如，鸟或汽车）。我们通过采用最简单的结构来实现这一点，与使用谱聚类的复杂模型相比，证明了适当训练的重要性[28]。符号：在本文中，我们使用粗体小写字母（例如，X）以显示列向量和粗体大写字母（例如，X ）来显示矩阵。[·]i用来表示向量的第i个元素，In表示n×n单位矩阵。.矩阵的Frobenius范数表示为：Tr（X<$X），其中Tr（·）表示矩阵迹。n×p的满秩高矩阵集和正交群表示为Rn×p，O（p）：={R∈Rp×p|R<$R=RR<$=Ip}，关于Iv ely。一个矩阵Rp×p<$M≥0是半正定的，如果M=M<$且对任意非零向量x∈Rp，我们有x<$Mx≥0。一个矩阵M<$0是正定（PD）的，如果它是PSD，并且对于任何非零向量x∈Rp，我们有x<$Mx>0。2. 暹罗网络如前所述，SiNN利用孪生网络来实现非线性嵌入φ（通常为Deep神经网络）从其输入域X（例如，图像）到某些欧氏空间Rn，即，φ：X →Rn。非线性嵌入分两个阶段完成;1. 由两个姐妹网络进行的特征提取;其次，2。学习由Rn×n<$M≥0表示的判别嵌入空间。为了实现有效的马氏距离，M被约束为PSD矩阵2（xi，xj）=（xi-xj）<$M（xi-xj），其中xi，xj∈ X. 因此人们可以因式分解M=LL，并使用SiNN学习L以完成上述因式分解。在其原始形式[4]中，姐妹网络是相同的（由Θ参数化）。嵌入部分在所得到的空间中识别度量以增加整个系统的区分能力。这种结构具有两个关键特性：• 它保证了其预测的一致性权重共享可确保两个相似的样本不会映射到嵌入空间的不同部分，因为每条腿使用相同的功能。• 网络是对称的，这意味着输入对如何馈送到网络无关紧要。我们在这里的重点是嵌入部分，但强调这项工作中所做的发展可以逐字应用于姐妹网络之间的权重共享被故意删除的情况。为了学习SiNN的参数（Θ，M），利用M的PSD性质并将其分解为M =LL，其中L ∈ Rn×p，p ≤ n。这种分解在SiNN中是必不可少的，因为PSD约束可以隐式地执行。这是非常重要的，因为反向传播（BP）算法中使用的梯度下降（GD）更新方案不能保留任何形式的约束。此外，因子分解M = LL可以被认为是对姐妹网络的输出进行联合降维和度量学习。要看到这一点，考虑L = UDV = UB的奇异值分解（ SVD ），其中UU=Ip和B=DV。现在很清楚，SiNN的嵌入部分首先使用U进行降维，然后缩放/收缩和旋转所得低维空间以增加其辨别能力。注1. 我们注意到，要有一个有效的度量，应该强制M是正定的，即，M=0。然而，在高维空间中学习度量并非没有困难首先，训练样本的数量随着维度呈指数增长。例如，从计算机视觉中的深度模型提取的高级特征（例如，AlexNet [24]，Inception [48]或ResNet [13]）通常是非常高维的。因此，使用这种模型作为主干的SiNN选择半定解（例如，[40、43、45、28]）。3. 问题陈述尽管其被广泛采用，但由于对称性，因子分解M=LL具有不期望的性质具体地说，对于R∈ O（p），将L变为LR不会改变M。换句话说，存在一个等价物-Lence类的解决方案，这反过来使搜索空间非欧几里德。这就是我们对训练SiNN的常见做法提出质疑并做出贡献的地方。为了让读者直观地了解为什么在优化过程中需要考虑不变性，考虑一个简单的例子。假设你想最小化一个函数f：R2→R，但你的函数有一个不变性，形式为f（x）=f（Rx），R∈ O（2）。这样的不变性彻底改变了搜索空间从R2到R+为中心的圆在原点是equiiv alent。此外，在低秩矩阵近似的背景下，最近的研究表明，明确考虑这种对称性导致的几何形状是更快优化和更好结果的关键[20，38，39]。在下文中，我们首先讨论如何修改BP算法中的更新方案这是必要的，因为我们稍后开发了两种几何结构，以解释在训练深度网络期间正交群的作用的不变性。D3048MMMMM∗4. 相关工作如第1节所述，暹罗网络用于大量工程中，以解决各种问题，中文学习、计算机视觉、语音处理及相关领域。由于我们主要对暹罗网的理论方面感兴趣，我们简要回顾了暹罗网的最新进展，特别关注深度度量/相似性学习的文献[41，40，43，18，53，45，28，61]。传统上，暹罗网络是用所谓的“对比损失”训练的这里的主要思想是构造一个欧几里德空间，其中正对（即，共享相同类标签的样本）彼此接近而同时负对（即，来自不同类别的样本）被推开。通过对比损失训练的模型需要较弱的监督形式这是因为只需要关于对（正/负）的知识缺点是，通过对比损失训练的模型可以被认为是整体解决方案，这意味着重点是绝对距离，在许多情况下相对距离更重要。在度量学习中利用相对距离和局部信息可以归因于Weinberger和Saul [59]的开创性工作，其中引入了三元组的概念。简而言之，不是盲目地创建正对和负对，而是对于任何训练示例xa（称为锚点），一些相邻样本是c h。列车运行中，• 半硬负采矿。这个想法在[41]中引入的通过找到“半硬”否定的例子来构造三元组给定锚点xa及其相关对样本x+进行采样，半。Hardn egboughtat iv esam.ple是一个具有d2xa，x+≤d2xa，x−的性质，但仍然是最难的负数，这意味着在所有的负数中，在满足上述距离准则的小批量样本中，负样本• 分类损失。为了达到最新技术水平，几项研究受益于分类损失。示例包括1. 对分类任务进行预训练，然后仅对具有度量损失的顶层进行微调[49]和2. 如[46]中那样将度量损失与分类损失组合。在人脸识别/验证方面取得了成功，许多算法[34，7，57，56]在DNN中使用了基于softmax的损失函数。我们注意到，基于softmax的算法是针对闭集问题设计的，而DML和SiNN在从未知类或有限数据中学习方面是有效的[62，21，52]。此外，正如Horiguchiet al.[16]证明了基于softmax和DML的解决方案不能相互取代/消除。5. 几何感知层1ing. 由此，可以创建形式为xa，x+，x−的三元组其中x+是与xa共享相同标签的相邻点，x−是来自不同类的相邻点训练的目标是学习度量M，使得对于所有三元组，低秩矩阵几何研究的启发分解[20，39]，在本节中，我们提出了两个新的层，即商卷积层（qConv for.Σ2xa，x+≤d2.Σxa，x−+ τ，.Σ。short）和Stiefel图层来处理不变性属性暹罗的网络。另一方面，我们利用一种形式的黎曼随机梯度下降算法其中τ是预定义的裕度，并且x为oh=x−保留qConv和Stiefel上设想的结构Σy MΣx−y . 很明显，模型没有考虑到在训练阶段的阶段归根结底，在训练中分离负对。此外，只有相邻的正对被用于学习，这意味着彼此非常远的正对永远不会影响学习。如今，三胞胎的概念及其变体（例如，四联体[27]）是训练连体网络时的首选方法，因为它被认为可以创建更具鉴别力和鲁棒性的模型。最近，挖掘成为深度度量学习的中心主题[41，40，43，61，26]。从成功模式中吸取的一些经验教训是• 均匀的阶级分布。每个小批次应包含每个类别相同数量的样本[41，40，43，18，53，45，28]。• 标准化。这有助于规范化姐妹网络的输出[41，40，45，28]。我们注意到，在[43]中，作者使用了一个102正则化惩罚，而不是归一化。为BP算法配备两个额外的算子，即在切空间 <$X 上的投影： Rn×p→TXM 和抽集<$X：TXM→M，其中TXM表示黎曼流形M在X上的切空间。5.1. qConv层考虑流形上李群G的（右）作用M. 我们用xg表示群元素g在点x ∈M上的作用.（例如，李群O（p）通过右边的普通矩阵乘法作用在流形Rn×p上）。点x的轨道是集合Orb（x）={xg|g ∈ G}，有时写作[x]。在下面定理1的条件下，由M/G表示的轨道集形成光滑流形。1 代码可在 https://github.com/sumo8291/Siamese-Networks.git上获得。D3049∗F∗∗∗∗定理1（商流形定理（[ 31 ]中的定理21.10））。设李群G光滑、自由、恰当地作用在光滑流形M上。则M/G是维数为dim（M）− dim（G）的拓扑流形，并且具有唯一光滑结构，具有如下性质：商数图是一个平滑的淹没。我们将商映射记为π：M→M=M/G。对于某个点[x]∈ M，逆像π−1（[x]）称为[x]的纤维。这个映射在点p∈M上的微分记为dπ p：Tp（M）→T π（p）（M）.π是平稳浸没的陈述意味着矩阵集{L~|Λ=−Λ}形成维数为p（p−1）/2=dim（O（p））的向量空间。此外，委员会认为，dim（ker（dπL））= dim（TLM）−dim（Tπ（L）M）时间复杂度为O（p）。在这里，第一个等式是真的，因为π是浸没，最后一个等式也由定理1得出。因此，{LΛ}根据需要形成整个VLM=ker（πε）。引理2. 水平空间HLM相对于公制g<$等于映射dπp是在任意点p的满射。.Σ。 Σ回想一下在火车上广泛使用的因式分解M=LLHLM={<$∈TLM|ζ¯⊤LL⊤L=LLL<$}。即SiNN，对正交群的作用是不变的即，通过将L变为LR，R∈ O（p），度量M不会改变。根据前面的讨论，证据假设H∈L。然后，垂直于任何L <$<$=LΛ∈VL，所以搜索空间的真实几何可以被识别为Rn×p的商。为了发展黎曼几何，. ¯ ¯0=g<$L，）=Tr.（LL−1L1）。M=Rn×p/O（p），并最终得到n（·）和n（·），以来这必须举行为所有反对称Λ，∗··n×p⊤Σ−1我们首先定义R上的黎曼度量：因此，（LLL是对称的，所以...ΣΣ.ΣΣ. LL−1L=L。L¯Σ−1L. 这说明g′L'，L=，LL−1Fζ¯⊤L. LL=. L LL。下面是一个例子（一）. Σ也是。引理1的论证表明，哪里F表示Frobenius内积。这里dπ 将水平空间HM同构映射到，∈TLM=Rn×p. 这个度量有一个重要的支柱-L L第二个，tit is right. 在O（p）的作用下的变量，意味着-ingg，）=g，R）。应该注意，其他的choi。G. G. G.ht-i n可变度量。例如，可以定义g<$L<$$>，g<$L）=g<$，g<$ ，这也是右不变的。然而，所选择的度量具有吸引人的特征，即它是尺度不变的，即g，s）=g，）。With切空间Tπ（L）M，它允许我们识别在M中的一点处的切空间与在其纤维中的任何点处的水平空间。定理2. 设T ∈ TLM=Rn×p. L处的水平部分由下式给出：Λ<$<$↑ =R+LΛ，其中Λ∈Rp×p是以下西尔维斯特方程的解，这个内积，在L处的切空间TLM可以被分裂分为两个互补的部分，即水平空间Λ。LL2+。LΣ2⊤LΛ=πLLL−LLLξ .（二）HLM和垂直空间VLM. 也就是说，Rn×p=证据设在水平子空间上的投影HLRn×pVLRn×p。垂直空间被定义为微分映射的核：VLM=ker（dπ L），水平空间HLM是它关于度量g<$（·，·）的正交补。引理1.在L∈Rn×p处的垂直空间VLM相等是的。因此，由引理1可知，<$− <$是一个垂直向量，所以<$=<$+ LΛ。由于在水平子空间中，引理2中的条件成立。代入公式=+LΛ。LL=.LLLgivestherequired结果.对于集合{L~|Λ=−Λ}。这是一个维数为p（p− 1）/2的向量空间。证据我们设想切空间TLM是所有矩阵{γ′（0）}的向量空间，其中γ（t）：[−1，1]→Rn×p是光滑曲线，γ（0）=L。换句话说，TLM是光滑曲线在L处的导数的集合。曲线γ（t）=LR（t）其中R（t）∈O（p）且R（0）是.3050∗上述发展为我们提供了关键，优化更新步骤L. 在当前点L 处，计算更新方向∈Rn×p= T LRn×p。代替在该方向上进行更新，根据定理2，它首先被投影到水平子空间HLM中的向量<$<$↑，并且在该水平方向上进行更新。因此，我们的收缩算子定义为：身份注意，对于某个反对称矩阵Λ，γ′（0）=LΛ。在投影π：Rn×p→ M下，我们看到，. ΣΥLξ¯=L+L↑.（三）π（LR（t））=π（L），一条恒定曲线。因此，γ′（0）在dπ L的核中：T LM → T π（L）M. 注意到注意，投影算子T：Rn×p→TLM是平凡的，因为TLM与Rn×p相同。30512∗计算复杂性。qConv更新的复杂性取决于水平空间上投影的计算成本• 形成西尔维斯特方程以形成西尔维斯特方程，我们需要计算LL，由方程式（5），sym（A）= 1（A+AT）.在St（p，n）上定义了各种形式的收缩[1]。其中，我们建议以下撤稿. ΣΥUξ=qf（U+ λ）。（六）这里，qf（A）是QR分解的经调整的Q因子.Σ2L L.，ΛLΣ2⊤L，⊤L和L（L）L).这Sition[11]. 在实践中，为了获得qf（·），执行QR分解，然后交换元素加起来是2个NP2+3个P3触发器。• 解西尔维斯特方程求解西尔维斯特方程的复杂度为p3.• 获取水平向量。这一步需要一个矩阵乘法，复杂度为np2。总而言之，qConv的更新需要3个np2+4个p3额外的触发器。我们注意到，这个复杂度在n中是线性的，所有的步骤都可以在GPU中完成。5.2. Stiefel层代替5.1节中考虑的因式分解，我们可以利用奇异值分解得到 M=UDU=UD1/2D/2U=USSU 。这里，U∈Rn×p是一个矩阵，具有U<$U=Ip和S=D1/2∈Rp×p是对角矩阵的性质。与D1/2不同的是，S的对角元素在优化过程中可以变为负值然而，这并没有使所得到的度量M=USSU不确定。SVD分解的优点在于它的唯一性。准确地说，SVD对于其因子列的排列是不变的。然而，这是一个非常温和的条件，正如我们的实验所证明的那样，可以忽略不计。因此，我们可以将SiNN中的嵌入层替换为两层，一层是具有正交权重的层，然后是仅根据S缩放其输入的层。虽然对矩阵S进行编码的层不需要特别注意，但我们需要在U层上强制正交性。这可以通过利用Stiefel流形的几何来实现。更具体地说，让我们正式定义Stiefel流形。R中对应对角元素的所有列都是阴性的。注释2（Cayley变换）。保持正交性也可以使用Cayley变换[ 60 ]来实现。凯莱变换确实是Stiefel流形上收缩的有效形式。在Eq. 然而，公式（6）在计算上更便宜，因此是优选的。计算复杂性。Stiefel结构更新的复杂性取决于以下主要步骤的计算成本：• 正交投影将v投影到St（p，n）的切空间，如等式（1）所示（5）涉及大小为1-n×p和p×p以及2-p×n和n×p的矩阵之间的乘法。这加起来是2np2触发器。• 收缩。收缩涉及到计算和调整n×p矩阵的QR分解。使用House- holder算法的QR分解的复杂度是2p2（n-p/3）。如果对应R的对角元素是负的，这不会导致M.啊。因此，撤回的总体复杂性是O2p2（n-p/3）。所有上述步骤都是n中的线性，再次使额外的触发器与卷积层相比负担得起。我们还注意到，所有上述操作都可以在GPU中完成。表1总结了qConv和Stiefel几何结构。6. 随机优化定义1（Stiefel流形）。（n×p）维矩阵p ≤ n，其正交列具有Frobenius内积，构成一个紧致黎曼流形，称为Stiefel流形St（p，n）[9].St（p，n），{U ∈ Rn×p：U <$U = Ip}.（四）类似于上面开发的商几何，我们需要St（p，n）上的正交投影和收缩的知识。正交投影的形式为[1]T. O. 训练一个三元组SiNN，一组三元组以xi，x<$i，yi：xi，x<$i∈X，yi={−1，1}是必需的。这里，如果xi和xi在语义上相似（例如，属于同一类），否则y i= −1。我们请注意，SiNN需要较弱的监督形式，与标准分类问题的比较和高级语义监督对于训练是足够利用因子分解M=LLn，L∈Rn×p，训练SiNN读作Σ。Σ. ΣUv =v−Usym.ΣUT v.（五）minΘ，Lyi，L<$fθ（xi）3052，L<$fθ（x<$i）我.（七）3053我1¨ ¨ ¨¨(a)自动编码器（b）Conv（c）qConv（d）Stiefel图1.各种配置的MNIST数据集上的t-SNE可视化;在模型收敛于各自的训练损失之后更多详情请参阅正文。表1.矩阵表示，qConv和Stiefel层的黎曼梯度和收缩形式M=LLM=US2UT矩阵表示L（U，S）投影到切空间上+LΛ，其中Λ从等式11获得。（二）、..U−UsymUTΣΣ，. Σ回缩功能=L+L↑. ΣΥUξ¯ =qf（U+qf）这里，R：R×Rp×Rp→R是一个损失函数，如果嵌入点L<$fθ （xi）和L<$fθ （x<$i）对于yi=1是不同的，则会招致惩罚，反之亦然。通过这种建模，可以使用BP最小化（7）算法配备有任何基于梯度下降的优化器。正如我们在前一节中看到的，考虑正交群的不变性需要最小化（7）的约束形式。特别是，我们需要最小化这里，ν，η∈（0，1]是动量系数和学习率，λx是在x处求值的梯度算子，J是要最小化的函数，并且λ·（·）和λ·（·）是到切空间的投影和收缩算子，分别在结束本节之前，我们使用MNIST [29]数据集来评估引入几何约束的好处在这样做时，我们首先将MNIST数据集中的每个图像矢量化为784维矢量。为每个minΘ，L∈MΣ。伊岛我fθ（xi），LΣfθ（xi）、（8）配置我们训练一个单层网络，将784维输入向量投影到20维嵌入空间上。我们的目标是研究和对比或minΣ。Σyi，SU.（九）实践中训练SiNN对什么可以达到的发展，在这项工作中因此，我们训练网络Θ，S，U∈St（p，n）我使用以下定义的三重嵌入损失：相对于Θ（和对于后者的S）最小化（8）或（9）是直接的，并且传统的BP算法Σ|P|ΣΣL=<$xa−xp<$−2<$xa−xn<$2可以直接应用。然而，对于L和U不能说同样的话，因为我们需要保留可预见的结构三|P|我我i=1i i+τ.（十二）+在BP算法的更新期间。实现我们目标，我们利用黎曼随机梯度这里[y]+=max（0，y）是铰链损失，τ>0是用户指定的裕度;（xa，xp，xn）表示三元组。我我我下降（rSGD）[3]并为其配备动量项。这种看起来无害的修改在实践中似乎是非常有益的。为了保持黎曼结构，我们提出了以下更新方案，我们称之为rSGD与动量或rSGD-M简称;半硬三重开采策略[41]被用来开采v=5个三元组，每个xa生成|P|在大小为N的小批量内的三重态。 N和τ分别设为100和1。0的三个几何配置，即，Conv、qConv和Stiefel。此外，作为基线算法，我们训练了一个m（t+1）=ν<$X（t） .Σm（t） +ηX（t）.X（t）JΣ、（10）U305420维自动编码器（AE）使用标准的均方损失。我们报告最终的分类测试错误，X（t+1）.=X（t）Σ-m（t+1） .（十一）在训练每个模型100个时期之后，每个时期的平均训练时间3055表2.使用1-Nearest Neighbor和MNIST数据集上AE、Conv、qConv和Stiefel的平均单次训练时间的分类错误配置AEConvqConvStiefel误差（%）11.1314.849.939.75时间（秒）10.512.112.312.4从表2中可以看出，qConv和Stiefel层在分类精度方面都优于传统的Conv和AE，其中Stiefel层略优于qConv层。这清楚地表明了在学习嵌入度量时强制执行这种几何配置的重要性。图1显示了各种配置在其各自的模型在训练期间收敛后的t-SNE [36]图这确实表明，通过结合所提出的几何形状，可以获得紧凑的嵌入集群Conv和AE。这确实证明了qConv和Stiefel层相对于Conv和AE层的增强的辨别能力。有趣的是，所产生的复杂度也是微不足道的，如表2中执行一个训练时期所需的时间所示。7. 经验评估作为第一个实验，我们将所提出的qConv和Stiefel层与正常实践（即，卷积层）使用某种程度上浅的网络来训练暹罗网络特别是，我们在STL 10[6]数据集上训练了一个浅5层，并研究了vanilla卷积层相对于qConv和Stiefel层的准确性和运行时间。网络结构为conv 1（5×5）→max-pool→ relu→ conv 2（5×5）→relu→平均池→conv3（5×5）→relu→ conv4（4×4）→relu→fc5→ softmax-loss。我们删除了softmax层，并将fc5层替换为qConv或Stiefel层，实验我们使用Eqn从所有研究的几何形状的相同初始化点（十二）、在这个实验中，我们报告了嵌入层之后最近邻域分类器的准确性。vanilla Siamese网络、配备qConv的Siamese网络和配备Stiefel层的Siamese网络的分类准确率分别为42.7%、48.5%和48.6%，清楚地表明当使用适当的几何结构进行训练时，分类准确率有了巨大的提高在运行时间方面，卷积层、qConv层和Stiefel层的一次训练分别需要143、150和152秒（所有层的运行时间都是使用GeForce GTX TITAN-X GPU测量的细粒度图像分类在这一部分中，我们评估和对比我们提出的方法对几个国家的最先进的方法在两个颗粒图像数据集，即Caltech-UCSD Birds（CUB- 200-2011）[55]，斯坦福汽车数据集（CARS 196）[23]和斯坦福在线产品（SOP）[40]。补充材料对数据集作在我们的评估中，我们使用了归一化相互信息（NMI）和召回@K（R@K）度量。前者是一种信息论度量，广泛用于评价聚类技术的性能，而后者表示在检索列表的前K个位置存在同一类图像的查询的比例。我们将我们的开发与以下基线和最先进的深度学习方法进行比较;这可大致分为四个不同类别：（1）基于结构的方法;其约束学习的嵌入空间的流形。(a) Trip-SH [41]鼓励最接近的（半硬）负（x-）远离给定锚点（xa ）的正（x +）;（b）基于NMI的[45]，由结构化预测损失组成，以约束嵌入空间的全局结构，以减轻孤立的集群;（c）DSC[28]，其使用谱聚类概念来构建嵌入空间，该嵌入空间鼓励分离但紧凑的聚类，以及（d）Angu-最大的[58]损失，它限制了三重三角形的负点处的角度关系。（2）抽样方法;其目的是提出新的和有效的基于采样的策略，用于更好地挖掘信息样本。(a)Lifted-Struct[40]通过子约束一批三元组将重要性采样的困难阴性添加到训练小批量;（b）Npairs [43]使用了一种新的损失，它需要两倍于可用的2B个负对，B表示形成三元组的负例子的数量;(c)DWS[61]利用一种有效的距离加权的S-均值策略来稳定地挖掘信息丰富的示例，从而减少反向传播过程中的噪声梯度。（3）基于统计的方法，如直方图[53]和分布[25]损失，旨在减少阳性和阴性对之间相似性（不相似性）分布之间的重叠。（ 4 ）基于生成式建模的方法，如DAML[8]和DVML[33]，用于对类内方差进行解释性建模并解开类内不变性。实现细节我们遵循[28]中考虑的协议，并使用Inception-V1模型[48]评估拟议的几何形状所有图像的大小已调整为256×256，并以224×224进行裁剪。训练图像通过随机裁剪进行增强，并随机水平翻转，其中，从中心裁剪测试图像。此外，我们在每个图像上只使用了一次裁剪，用于训练和测试，类似于[40]。为了微调Inception模型，我们首先将其输出归一化为单位范数，然后根据[28]中的建议添加嵌入层（3056表3.CUB-200-2011上的NMI和Recall@K评价[55]。方法NMIR@1R@2R@4R@8[41]第四十一话55.442.654.966.477.2[40]第四十话56.543.656.668.679.6Npairs [43]57.245.458.469.579.5基于NMI [45]59.248.261.471.881.9DSC（端到端/SC）[28]58.149.862.673.682.8[58]第五十八话61.153.665.075.383.7[25]第二十五话59.447.960.671.981.6直方图[53]-52.864.474.783.9[61]第六十一话61.352.465.175.183.6[33]第三十三话61.452.764.975.584.3[8]第八届全国政协委员60.851.564.775.283.5我们的（商数）62.552.264.075.783.3我们的（Stiefel）62.352.364.575.384.0表4.CARS 196上的NMI和Recall@K评价[23]。方法NMIR@1R@2R@4R@8[41]第四十一话53.451.563.873.582.4[40]第四十话56.953.065.776.084.3Npairs [43]57.853.966.877.886.4基于NMI [45]59.058.170.680.387.8DSC（端到端/SC）[28]58.059.471.380.688.3[58]第五十八话62.471.380.787.091.8[25]第二十五话61.664.475.483.689.5[53]第五十三话-66.277.285.090.8[61]第六十一话62.170.378.286.990.7[33]第三十三话62.771.679.787.891.1[8]第八届全国政协委员63.172.582.188.592.9我们的（商数）63.571.981.587.992.5我们的（Stiefel）64.273.282.288.692.2我们使用64个样本的批量大小，并确保一批中每个类至少有4个样本。我们使用RMSProp [14]优化器使用反向传播更新所有层的参数。所有数据集的学习率都固定在10−4，并降低了0倍。每25个时期后1次整个网络使用Eqn进行训练（12）;其中τ被设置为0。5、所有数据集最近的几项研究（包括[40，28]）表明，配备度量损失的Inception网络对嵌入维度或多或少具有鲁棒性。因此，我们遵循[ 28 ]的实验方案，并将嵌入层的维度固定为CUB-200-2011和CARS 916数据集的训练类别数k;SOP数据集为512。在评估阶段，我们对输出表示应用具有平方欧氏距离的标准KMeans算法，并计算NMI和R@K度量。注：为了公平比较，我们已经报告了上述算法在Inception网络上的三重嵌入损失的结果;即使[8，61，33]使用不同损失函数的组合来获得改进的嵌入空间。此外，标记为“未使用”的算法表5.SOP [40]中的NMI和Recall@K评价方法NMIR@1R@10R@100[41]第四十一话89.566.782.473.5[40]第四十话88.762.580.891.9Npairs [43]89.466.483.293.0基于NMI [45]89.567.083.793.2DSC（端到端/SC）[28]89.467.683.793.3[58]第五十八话87.867.983.292.2[25]第二十五话88.963.581.391.3直方图[53]-63.981.792.2[61]第六十一话89.467.182.792.3[33]第三十三话89.267.282.392.1[8]第八届全国政协委员89.267.182.892.5我们的（商数）89.368.582.992.6我们的（Stiefel）89.969.283.192.7使用了Inception以外的工作[61]，或者嵌入维度不相同[8，33]。表3、4和5分别显示了我们的方法与其他深度度量学习技术在CUB-200-2011、CARS 196和SOP数据集上的定量比较结果。研究该表表明，所提出的几何结构不仅显着优于vanilla SiNN [41]，而且在所有三个数据集中轻松超越了各种最先进方法的性能。特别是，最近的方法，如DWS [61]，DAML [8]和DVML [33]，利用额外的复杂网络，采样策略或复杂的损失函数来获得用于细粒度分类的判别嵌入空间。然而，我们成功地证明了配备了所提出的几何配置并使用标准半硬三元组嵌入进行训练的深度网络优于上述算法。这反过来验证了所提出的配置在训练SiNN中的重要性8. 结论和未来工作在本文中，我们专注于暹罗网络，实现了一个非线性嵌入的半正定矩阵的特点，并显示了如何黎曼几何可以用来考虑某种隐藏的不变性的网络属性。具体来说，我们已经开发了一种新的几何流形，即qConv;并将其与标准Stiefel流形一起使用，以利用连体网络中的不变性。Stiefel比qConv的计算量稍大，尽管它们的实验结果非常相似。未来的工作可以是进一步发展相关的几何处理非对称和不确定的情况下。我们注意到，这可以通过例如删除暹罗网络的两条腿都应该通过同一个卷积层的约束来实现。另一个超越目前工作的场地是研究所提出的黎曼SGD算法与动量的收敛性。3057引用[1] P-A Absil，Robert Mahony，and Rodolphe Sepulchre. 矩阵流形上的优化算法。普林斯顿大学出版社，2009年。一、五[2] Luca Bertinetto 、 Jack Valmadre 、 Joao F Henriques 、Andrea Vedaldi和Philip HS Torr。用于对象跟踪的全卷积连体网络见ECCV，第850施普林格，2016年。1[3] 西尔弗·波纳贝尔黎曼流形上的随机梯度下降。IEEE自动控制学报，58（9）：2217-2229，2013。6[4] Jane Bromley 、 Isabelle Guyon 、 Yann LeCun 、 EduardS ¨ckinge r和RoopakShah。使用“连体”时间延迟神经网络的签名验证NIPS，第737-744页，1994年。一、二、三[5] Sumit Chopra Raia Hadsell和Yann LeCun。区别性学习相似性度量，并应用于人脸验证。在CVPR，第1卷，第539-546页，2005中。第1、3条[6] Adam Coates，Andrew Y Ng，and Honglak Lee.无监督特征学习中的单层网络在proc Int. Conf. 人工智能&统计，2011年。7[7] 邓健康，贾国，薛念南，Stefanos Zafeiriou。弧面：深面识别的附加角裕度损失在IEEE计算机视觉和模式识别会议论文集，第4690-4699页，2019年。3[8] 段跃奇，郑文钊，林旭东，卢吉文，周杰。深度对抗度量学习。在IEEE计算机视觉和模式识别会议论文集，第2780-2789页，2018年。一、七、八[9] 艾伦·埃德尔曼，汤姆的咏叹调，和圣·埃文·T·史密斯。具有随机性约束的算法的几何性。SIAM Journal on MatrixAnalysis and Applications，20（2）：3035[10] Pengfei Fang ， Jieming Zhou ， Soumava Kumar Roy ，Lars Pe- tersson，and Mehrtash Harandi.用于人物检索的双线性注意力网络。在IEEE国际计算机视觉会议论文集，2019。1[11] Gene H Golub和Charles F Van Loan。矩阵计算约翰霍普金斯大学出版社，2013年第4版。5[12] 阿尔伯特·戈多，乔恩·阿尔玛赞，杰罗姆·雷沃，和黛安·拉鲁斯.用于图像检索的深度视觉表示的端到端学习Int. 计算机视觉杂志，124（2）：237- 254，2017。1[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。2[14] 杰弗里·辛顿，尼蒂什·斯里瓦斯塔瓦，凯文·斯沃斯基.Neur- ral Networks for Machine Learning Lecture 6a小批量梯度下降概述。8[15] Elad Hoffer和Nir Ailon使用Triplet网

下载后可阅读完整内容，剩余1页未读，立即下载