没有合适的资源?快使用搜索试试~ 我知道了~
深度图匹配的学习组合嵌入网络
3056伊杰公司p用于深度图匹配的学习组合嵌入网络王润忠1,2严俊池1,2杨小康21上海交通大学计算机科学与工程系2上海交通大学人工智能研究所人工智能教育MoE重点实验室{runzhong.wang,yanjunchi,xkyang}@ sjtu.edu.cn摘要图匹配是指找到图之间的节点对应关系,使得可以最大化对应节点和边的亲和度。除了它的NP-完全性之外,另一个重要的挑战是跨图的节点和结构亲和性的有效建模以及所得到的目标,以指导匹配过程有效地找到对抗噪声的真实匹配。为此,本文设计了一个端到端的可微分深度网络管道来学习图匹配的亲和力。它涉及到一个监督的置换损失与节点对应捕捉组合性质的图匹配。同时,采用深度图嵌入模型来参数化图内和图间亲和度函数,而不是传统的浅层和简单的参数形式,例如高斯核。嵌入还可以有效地捕获二阶边缘以外的高阶结构置换损失模型与节点的数量无关,并且嵌入模型在节点之间共享,使得网络允许不同数量的节点通过在匹配过程中使用CAL信息,图匹配通常可以对变形噪声和异常值更鲁棒图匹配因其表现力强、鲁棒性好而成为计算机视觉应用的核心例如,视觉跟踪、动作识别、机器人、弱透视3-D重建由于其高阶组合性质,图匹配通常是NP完全的[13],因此研究人员采用近似技术来寻求不精确的解决方案。对于图间两图匹配的经典设定G1, G2 , 问 题 可 以 写 成 下 面 的 一 般 二 次 分 配 规 划(QAP)问题[25]:J(X)=vec(X)K vec(X),(1)X∈{0,1}N×N,X1=1,X<$1≤1其中X是表示节点对应的置换矩阵,K∈RN2×N2是所谓的亲和矩阵[22],其对角元素和非对角元素编码节点到节点和边到边之间的亲和度。两个图表,尊重我。 O. K的一个普遍的体现,用于训练和推理。此外,我们的网络文学是Kia,jb=exp(f −f)2σ2其中fij是fea-是类不可知的,具有跨不同类别的泛化能力所有这些功能都适用于实际应用。实验表明,它的优越性对国家的最先进的图匹配学习方法。1. 引言和预备工作图匹配是指在两个或多个图之间建立节点对应关系。图匹配结合了节点之间的一元相似性和来自单独图的边之间的成对[7,14](或甚至更高阶[21,29,43])相似性,以找到匹配,使得匹配图之间的相似性最大化。通过对高阶几何体进行编码* 通 讯 作 者 。 本 课 题 得 到 了 国 家 重 点 研 究 发 展 计 划(2016YFB1001003)、国家自然科学基金(61602176)、国家科技攻关计划(18DZ1112300)的资助。边ij的真实向量,当节点索引ia = jb时,其也可以并入节点相似性。当量(1)这就是Lawler的QAP [20]。 它可以结合其他形式,例如Koopmans-Beckmann的QAP[25]:J(X)=tr(X<$F1XF2)+ tr(K<$X)(2)其中F1∈RN×N,F2∈RN×N分别是图G1,G2的加权邻接矩 阵 , Kp 是 图 G1 , G2 的 节 点 间 亲 和 矩 阵 . 它 与Lawler's QAP的连接除了二阶亲和模型,最近的冰毒-ODS还探索了利用高阶亲和性信息的方式。基于几个超图匹配工作所采用的张量边缘化[5,9,43,46]:x= arg max(H 1x 2x. . . X)s.t.(三)X1=1,X<$1≤1,x=vec(X)∈ {0,1}N2×13057exp()下一页图像对特征提取器当量(四)特征图亲和度度量公式(十三)Sinkhorn方程(十六)匹配嵌入层PCA-GM图1.概述我们提出的基于置换的图内亲和度(PIA-GM)和交叉图亲和度(PCA-GM)方法,用于图匹配的深度组合学习。从图像对中提取CNN特征,然后进行节点嵌入和Sinkhorn操作进行匹配。CNN模型、嵌入模型和亲和度度量都可以端到端的方式学习其中m是仿射阶,H是m阶仿射张量,其元素编码图中两个超边之间的仿射。张量是张量的乘积[21]。读者可以参考SEC。3.1在[9]中,关于10的详细信息排序乘法。上述工作都假设亲和张量是w.r.t.不变的。超边对的索引。以上研究表明了亲和度模型在图匹配中的普遍性和然而,传统的亲和度方法主要依赖于预定义的亲和度函数(或距离),例如,在节点和边缘特征空间中具有欧几里得距离的高斯核。我们认为,这样的预定义的参数亲和度模型具有有限的灵活性,以捕捉现实世界的匹配任务的结构,从而亲和度度量可以是任意的,并要求模型具有足够高的能力来近似。这种挑战在实际环境中普遍存在的噪声和异常值的存在下更加明显。基于不适当的亲和度模型,匹配求解器可能更加困难,因为关于亲和度模型的全局最优值甚至可能不对应于地面实况匹配解-这是因此,它需要跨图的有效亲和建模。它与以前使用预定义的亲和模型设计组合求解器的主要努力方向正交本文的贡献是:i) 我们开发了一种新的基于监督的深度网络的图形匹配管道,其目标涉及基于Sinkhorn网络的置换损失,而不是结构化的最大边缘损失[6]和像素偏移损失[45]。我们认为,置换损失是一个更固有的选择组合性质的图匹配(通过放宽它线性分配)。同时,置换损失允许灵活地处理任意数量的图的相比之下,图中用于匹配的节点数量是固定的,并且在[6]中据我们所知,这是第一次采用排列损失学习图匹配– a natural choice for its combinatorialii) 我们的图匹配网络通过采用图卷积网络以及使用附加层的节点到节点交叉图亲和函数来学习节点特征(本文中从图像中提取)和隐含结构信息(包括超边缘)。因此,在给定地面实况对应的情况下,图内信息和交叉图亲和度被联合学习。我们的网络将节点(图像块)特征和结构嵌入到节点向量中,并且节点到节点的亲和层在所有节点之间共享。这样的设计还允许用于训练和测试的不同图对据我们所知,这是第一次采用图神经网络来学习图匹配(至少在计算机视觉中)。iii) 包括消融研究在内的实验结果表明了我们设计的组件的有效性,包括置换损失,节点特征提取层,基于图卷积网络的节点嵌入和交叉图亲和组件。特别是,我们的方法在匹配精度方面优于深度学习对等方法[45]。我们的方法在准确性方面也优于[6],同时更灵活,因为[6]中的方法需要恒定数量的节点用于在训练集和测试集中进行匹配我们还显示了我们的方法的学习能力,即使当训练集和测试集是从Gconv方程Gconv方程Gconv方程Gconv方程交叉转换算法1Gconv方程CNN3058不同的对象类别,这也优于[45]。2. 相关工作本文主要研究图匹配的学习[42]读者可参考[43],以获得全面的了解。2.1. 建模和学习亲和力最近的一些研究显示了各种技术的亲和函数学习。根据地面真实对应信息用于训练的程度,方法可以是无监督的[23],半监督的[24]或监督的[4,6,45]。以前的图匹配亲和学习方法大多基于简单和浅层的参数模型,其使用节点和边缘特征空间中的流行距离(通常是加权欧几里得距离)加上相似性核函数(例如,高斯核)以导出最终的亲和度分数。特别是,一个统一的(浅)参数,在向量形式的两个图之间设计了一个ric图结构学习模型Φ(G1,G2,π)[6]。作者在[6]中观察到,上述简单模型可以包含大多数以前的浅层学习模型,包括[4,23,39]。因此,我们将在实验中对这种方法进行比较有一项开创性的工作[45]提出了一种采用深度神经网络来学习图匹配的亲和矩阵的方法然而,在Sec。3.7我们表明,他们的像素偏移为基础的损失函数不适合很好的组合性质的图形匹配。此外,不考虑节点嵌入,这能够有效地捕获节点的局部结构,这可以是更有效的亲和建模的二阶。2.2. 图神经网络与嵌入深度神经网络已被证明对空间和序列数据有效,分别使用CNN和RNN。最近,出现了许多用于通过深度网络提取高阶节点嵌入的技术,其输入即图是非欧几里德数据。特别是,图神经网络(GNN)[34]已经被提出,其中节点特征从相邻的邻居聚合,并且不同的节点可以共享相同的传递函数。GNN的输出对于图元素的排列是不变的。自[34]以来,已经开发了许多GNN的变体,在[48]中进行了全面讨论。特别是,SNDE模型[41]通过联合利用一阶和二阶邻近度来开发深度节点嵌入。与上述深度嵌入模型不同,有一些浅嵌入模型在大型网络上可扩展,包括基于随机游走的DeepWalk [32]和受skip-gram语言模型[28]启发的node 2vec [15]。特别是,LINE [38]明确定义了一阶近似和二阶近似,并为两个接近。然而,这些方法,包括SNDE模型,不能用于图匹配的端到端学习。出于这个原因,我们采用图卷积网络(GCN)[17]建模图结构,其参数可以以端到端的方式学习。2.3. 组合优化的学习图匹配具有组合性质。有一个新兴的线程使用学习来寻求有效的解决方案,特别是深度网络。在[16]中,使用深度强化学习解决了着名的由此产生的算法可以学习新的最先进的算法图着色。而旅行商问题(TSP)在[18]中进行了研究,作者提出了一种基于图注意力网络的方法,该方法学习了一种启发式算法,该算法采用神经网络策略来寻找旅游。节点集的深度学习也在[44]中进行了探索,它寻求一组节点的置换不变目标函数。特别是,[30]显示了一种基于网络的方法来解决二次分配问题。他们的工作重点是学习求解器给出以前定义的仿射矩阵。相比之下,本文提出了一种用于学习亲和函数的端到端学习管道。从这个意义上讲,这两种方法可以进一步结合起来应用于实际。此外,对于挑战性较小的线性分配问题,实际上可以用多项式复杂度来解决,例如。匈牙利算法[19],最近还提出了基于网络的新方法。Sinkhorn网络[1]是在给定预定义分配成本的线性分配意义下为线性分配学习而开发的,其被指定为对任何非负方阵执行双随机调节。已证明Sinkhorn算法[37]是匈牙利算法[26]的近似和可微版本最近,Sinkhorn AutoEncoder在[31]中提出,以最小化Au- toEncoders中的Wasserstein距离,并且工作[10]采用强化学习来学习线性分配求解器。Sinkhorn层也被采用在DeepPermNet [33]中的深度卷积网络之上然而,DeepPermNet对输入排列不是不变的,并且需要预定义的节点排列作为参考,因此它对于两个图匹配是不稳定的。相比之下,我们的模型包括一个亲和学习组件,它将结构亲和度编码为节点嵌入。因此,图匹配被放松为由Sinkhorn层解决的线性分配,这在文献中有时也被称为置换学习。3. 该方法我们提出了两种匹配模型G1=(V1,E1)和G2=(V2,E2):i)置换损失和图内亲和度3059si公司简是是是思思表1.符号标记。下标s索引image/graph。算法1:交叉图节点嵌入输入:第(k− 1)层特征{ h(k −1),h(k −1)}1我1 //相似性预测公式(1316)2ji∈V1,j∈V22通过等式从{h(k−1),h(k−1)}中导出M (13);1i2j3S←辛霍恩(M);4 // cross-graph aggregation公式(9、10、11)5{h(k)}←CrossCon v(S,{h(k−1)}i∈V,{h(k−1)}j∈V);1i1i12j26{h(k)}←CrossCon v(S,{h(k−1)}j∈V,{h(k−1)}i∈V);2j2j21i1输出:第k层特征{h(k),h(k)}i∈V,j∈V1i2j1 2该方案受到GCN [17]的启发,其中特征有效地从相邻节点聚合,而节点本身:基于遗传算法的匹配(PIA-GM)和基于变异损失和交叉图的匹配(PCA-GM)。两个mod-m(k)=1si|(i,j)∈ Es|Σf(h(k−1))(5)j:(i,j)∈EsELS建立在一个深层网络之上,特征和结构,以及Sinkhorn网络,n(k)si节点(h(k−1))(6)从而实现可微置换预测和损失反向传播。PCA-GM采用了一个额外的交叉图组件来聚集交叉图特征,而PIA-GM只嵌入图内特征。图1总结了PIA-GM和PCA-GM。符号如表1所示。1.一、提出的两个模型由CNN图像特征提取器、图嵌入组件、亲和度度量函数和置换预测组件组成。图像特征由CNN(本文中为VGG16)提取为图节点,并通过(交叉图)节点嵌入组件进行聚合。网络从原始像素输入预测节点到节点对应的3.1. 特征提取我们采用了CNN的关键点特征提取,这是通过CNN的特征图插值构造为h(k)=fupdate(m(k),n(k))(7)当量(5)是沿着边传递的消息,f_msg是消息传递函数。作为GCN中的常见做法,来自相邻节点的聚合特征通过相邻节点的总数进行归一化,以避免由于不同节点所拥有的邻居的不同数量而导致的偏差。当量(6)是每个节点的消息传递函数,并且它包含节点随着f更新,等式(7)累积信息以更新节点i的状态,并且f_msg,f_node,f_update可以采用从向量到向量的任何可微映射。在这里,我们将fmsg,fnode实现为具有ReLU激活的神经网络,fupdate是一个求和函数。我们表示Eq。(七)作为层k−1和k之间的图卷积(GConv):图像Is,在关键点Psi上提取的特征为:h(0)=Interp(Psi, CNN(Is))(4){h(k)}=GConv(A,{h(k−1)}),i∈ V(八)si其中Interp(P,X)通过双线性插值从张量X在点PCNN(I)在图像I上执行CNN并输出特征张量。采用Siamese Network [3]的思想,两个输入图像共享相同的CNN结构和权重。为了融合局部结构和全局语义信息,从CNN的不同层提取特征向量。我们选择使用ImageNet [8]预训练的VGG16作为与[45]一致的CNN实施例3.2. 图内节点嵌入已经表明,与基于点的方法[12,47]相比,利用图结构的方法可以产生鲁棒的匹配[42]。在PIA-GM中,图的亲和度是由一个多层嵌入组件来构建的,该组件对高阶信息进行建模。消息传递输入图像一个图的结点数As图s的邻接矩阵Vs图s的顶点集图的 边集图像s中关键点i的坐标h(ksim(k)sisiM(k)Sn(k图s中关键点i,层k的特征向量第k次Sinkhorn迭代时,关键点i的消息向量,图中的第k层,关键点i的节点特征,图中的第k层,亲和矩阵表示置换的N×N矩阵=f3060我这表示我们的节点嵌入网络的一层梅Sage通过路径由邻接矩阵As∈{0,1}N×N。注意h(0)是节点i的CNN特征。3.3. 交叉图节点嵌入我们通过交叉图聚合步骤来探索图内嵌入的改进,其中特征是从另一个图中具有相似特征的节点中聚集的。首先,我们利用来自较浅嵌入层的图亲和度特征来预测双随机相似性矩阵(详见第2节)。3.5)。 预测相似性矩阵S对两组节点之间的相似性进行编码。消息传递方案类似于图内卷积方程。(8),用邻接矩阵S_n代替邻接矩阵y,并从另一个图中聚合特征。在我们的实验中,我们将证明这个简单的方案更有效30612J=1我i、ji、ji、j我比更复杂的迭代过程更有效n表示元素级除法,1∈RN×1是列m(k) S1我j∈V2i、jfmsg-cross(h(k−1))(9)向量,其元素都是1。 Sinkhorn算法工程迭代采取行规范化方程。(14)和方程的列归一化。(15)或者。n(k)1我h(k)=f节点交叉 (h(k−1))(10)(m(k),n(k))(11)通过迭代Eq. (14,15)直到收敛,我们得到一个双随机矩阵。这个双随机矩阵S1i更新-交叉1i1i其中fmsg-cross、fnode-cross被视为恒等映射,fupdate-cross是两个输入特征张量的级联,后面是全连接层。对于图对G1=(V1,E1),G2=(V2,E2),交叉图聚集该方案由Alg.1,其中S表示从G2到G1的预测对应关系,表示从G1到G2的关系。3.4. 仿射度量学习通过使用上述嵌入模型,两个图之间的结构亲和度已被编码为嵌入空间中的节点到节点亲和度。 因此,它允许减少等式中的传统二阶亲和矩阵K。(1)变成线性的。设h1i是来自第一个图的特征i,h2j是来自另一个图的特征j:M( 0 )=faff(h1i,h2j),i∈V1,j∈V2(12)亲和矩阵M(0)∈ R+N×N包含两个图之间的亲和度。 M(0)表示第一个图中的节点i和第二个图中的节点j之间的相似度,考虑图中的高阶信息。一个人可以设置一个双线性映射,然后是一个前,被视为我们模型S=Sinkhorn(M(0))( 16)为了测试,匈牙利算法[19]在S作为后处理步骤,将输出离散化为每变异矩阵。Sinkhorn运算是完全可微的,因为只进行矩阵乘法和元素除法。它可以在PyTorch的自动微分功能的帮助下有效地实现3.6. 排列交叉熵损失我们的方法直接利用地面实况节点到节点对应,即。置换矩阵,作为端到端训练的监督信息。由于在方程中的Sinkhorn层。(16)能够将任意非负矩阵变换为双随机矩阵,提出了一种基于线性分配的置换损失估计方法,用于估计预测的双随机矩阵和真实置换矩阵之间的差异,以进行训练。采用交叉熵损失来训练我们的模型端到端。我们取地面真值置换矩阵Sgt,并计算S和Sgt之间的交叉熵损失。它被表示为置换损失,这是训练我们的深度图匹配模型Lperm所采用的主要方法:ponential函数,确保所有元素都是正1。Σ。Σ.Σ−SgtlogSi,j+(1−Sgt)log(1−Si,j)M(0)=exph啊1我τ(十三)i∈V1,j∈V2i、ji、j(十七)考虑特征向量具有m个维度,即,其中hi∈V1,j∈V2,h1i,h2j∈Rm×1.A∈Rm×m包含这个亲和函数的可学习权重。τ是一个用于数值计算的超参数。对于τ >0,其中τ→0+,等式(13)变得更有歧视性。3.5.用于线性分配的注意,竞争方法GMN [45]应用基于像素偏移的损耗,即“位移损耗”。具体地,其通过所有匹配候选的加权和来计算偏移向量d。损失被给出为预测位置和地面真实位置之间的差。Σdi=(Si,jP2j)−P1i(18)j∈V2给定等式(1)中的线性分配亲和矩阵,(13),我们采用Sinkhorn的线性分配任务。SinkhornLoff= Σ。||19岁以上(2)||2 + ǫ (19)运算取任何非负的方阵,提出了一个双随机矩阵,这是一个放松的置换矩阵。该技术已被证明对基于网络的置换预测有效[1,33]。对于M(k−1)∈R+N×N,Sinkhorn算子为M(k)′ =M(k−1)<$(M(k−1)11<$)(14)M(k)=M(k)′<$(11<$M(k)′)(15)1我们还尝试了其他更灵活的全连接层,但我们发现指数函数更简单,更适合学习。=f2J3062i∈V1其中{P1i}、{P2j}分别是第一图像和第二而λ是确保数值鲁棒性的小值相比之下,我们的十字架-熵损失可以以端到端的方式直接学习基于线性分配成本的置换损失。3.7.进一步讨论成对亲和矩阵vs嵌入现有的图匹配方法专注于建模二阶[7,22]3063Lperm= 5.139, Loff= 0.070图2.抵消损失失效案例:源图像(左)和目标具有匹配候选项的图像(右),其中数字表示预测匹配的概率。地面实况匹配节点以玫瑰色着色(通过这种差的预测仅接收0.05的概率)。偏移损失通过所有候选者之间的加权和来计算,导致误导性的低损失0.070。在这种情况下,偏移损失不能提供区分左耳/右耳的监督。相反,我们的置换损失发出合理高的损失5.139。在匹配精度方面,损失超过了补偿损失模型4. 实验4.1. 度量和对等方法我们评估两个给定的图之间的匹配精度。在评估期内,给出了两个节点数相同的图。一个图中的每个节点被标记到另一个图中的另一个节点。该模型预测两个图之间的对应关系。这种对应关系由置换矩阵表示。匹配精度是根据置换矩阵计算的,通过正确匹配的关键点对的数量除以关键点对的总数来平均。对于预测置换矩阵Spred∈ {0,1}N×N和a地面真值置换Sgt∈ {0,1}N×N,匹配ac-精确度计算如下:Σacc=AND(Spred,Sgt)/N(20)[21,43]第一,要有一个明确的前提。定义的亲和矩阵或张量。亲和度信息可以用一个N2×N2的亲和度矩阵进行编码.优化技术应用于最大化图的亲和力。相比之下,我们采取的节点嵌入技术有两个优点。首先,空间复杂度可以降低到N×N。第二,等式(1)中的成对亲和力矩阵K(1)只能对边缘信息进行编码,而嵌入模型可以隐式地对高阶信息进行编码。Sinkhorn 网 络 与 光 谱 匹 配 GMN [45] 采 用 频 谱 匹 配(SM)[22],其对于反向传播是可微分的而我们采用辛霍恩网络代替。实际上,Sinkhorn算法的输入复杂度为O(N2),而谱匹配算法的输入复杂度为O(N4)然而,在SM中,我们观察到更多的迭代收敛。这种迭代可能会对梯度的反向传播带来负面影响事实上,谱匹配是用于图匹配,而Skinhorn网络是用于线性分配,这是由我们的嵌入组件从图匹配任务放松。像素偏移损失与置换损失GMN [45]采用的损失函数是一种称为“位移损失”的抵消损失。损失取所有候选点的加权和,并计算从原始图像到源图像的偏移向量。在训练中,GMN试图最小化预测偏移向量和地面实况偏移向量之间的方差。相比之下,在Sinkhorn网络的帮助下,我们采用了一种组合排列损失,该损失被计算为预测结果和地面真值排列之间的交叉熵。这种置换损失直接将地面实况置换作为监督,并利用这种信息进行端到端训练。图2给出了偏移损失的故障情况的示例。在这种情况下,偏移损耗低得不合理,但是置换损耗提供正确的信息。实验还表明,用我们的排列i,j i,j其中AND是逻辑函数。评价涉及以下同行方法:GMN 图匹配网络(GMN)是在[45]中提出GMN采用VGG16 [36]网络提取图像特征。分别从VGG16的浅层(relu4 2)和深层(relu5 1)提取一阶和二阶特征。GMN通过不可学习的图匹配求解器(即光谱匹配(SM))对图匹配亲和力进行建模[22]。该模型是类不可知的,这意味着它为所有实例类学习通用模型。分别用De- launay三角剖分和全连通拓扑构造了两个图。GMN是第一个端到端的深度学习方法。注意,主要区别在于,损失函数是基于偏移的损失,(十九)、我们遵循[45]并使用PyTorch重新实现GMN,因为源代码是不可公开的。HARG-SSVM。这是基于结构化SVM的学习图匹配方法[6],作为学习的基线无需深度学习的图形匹配。HARG-SSVM是一种特定于类的方法,其中为每个类学习图模型。我们使用的源代码由作者在他们批准后发布。[6]中的原始设置假设要匹配的对象的关键点是未知的,并且关键点候选由Hessian detector [27]提出然而,在我们的设置中,所有候选关键点都是模型已知的。因此,我们稍微修改了原始代码。从Hesian检测器找到的所有候选点中,我们指定距离地面真实点最近的邻居作为匹配候选。这种做法最初是图形是使用名为HARG的手工创建的边缘特征创建的。PIA-GM/PCA-GM。我们的方法采用VGG16 [36]作为骨干CNN,并从relu4 2和relu4 2中提取特征。3064COO壮举表2.Pascal VOC关键点的准确度(%)注意,在用置换损失取代偏移损失后,GMN-PL几乎在所有类别中都优于GMN而我们的方法PIA-GM方法Aero自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视是说GMN31.947.251.940.868.772.253.652.834.648.672.347.754.851.038.675.149.545.083.086.355.3GMN-PL31.146.258.245.970.676.461.261.735.553.758.957.556.949.334.177.557.153.683.288.657.9PIA-GM-OL39.757.758.647.274.074.562.166.633.661.765.458.067.158.941.977.764.750.581.889.961.6PIA-GM41.555.860.951.975.075.859.665.233.365.962.862.767.762.142.980.264.359.582.790.163.0PCA-GM40.955.065.847.976.977.963.567.433.765.563.661.368.962.844.977.567.457.586.790.963.81.00.80.60.40.21.001.251.501.752.002.25壮举1.000.950.900.850.800.750.70PCA-GM-OLGMN SM10 20 30 40K角表3.Willow ObjectClass上的准确性(%)GMN-VOC表示在Pascal VOC Keypoint上训练的模型,Willow也是如此方法面对m-自行车汽车鸭w-瓶HARG-SSVM [6] 91.2 44.4 58.4 55.2 66.6GMN-VOC [45] 98.1 65.0 72.9 74.3 70.5GMN-威洛[45] 99.3 71.4 74.3 82.8 76.7PCA-GM-VOC100.069.8 82.4 95.1PCA-GM-Willow100.0 76.7 84.0 93.5 96.9图3.节点特征向量加噪声的综合测试nates模糊的随机仿射变换,加上另一个边和关键点编号,N(0,σ2)的随机噪声)的情况。注意没有CNN模型和损失。默认值:Kpt= 20,σfeat= 1。5,σcoo= 10。[55]第一个比较[56]。这两个特征向量被连接以融合局部和全局特征。在PIA-GM中,亲和度由3个内嵌入层建模,而在PCA-GM中,它是1个内嵌入层、1个交叉层和1个内嵌入层的堆栈,两者都跟随有等式(1)中的亲和度映射。(13)。每个GNN层具有2048的特征尺寸等式中的置换损失(17)使用。输入图都是通过Delaunay三角剖分构造的,并且我们根据经验设置τ=0。005在Eq.(13)。我们的模型由PyTorch实现。GMN-PL PIA/PCA-GM-OL。GMN-PL 和PIA/PCA-GM-OL是GMN的变体[45],PIA/PCA-GM。GMN-PL将GMN中的偏移损耗改变为置换损耗,而所有其他配置不变。而PIA/PCA-GM-OL将置换损耗切换到偏移损耗,而所有其他分量不变。对于自然图像实验,我们从数据集中绘制两幅图像,并构建两个包含相同数量节点的图。图结构是不可知的,并且根据方法的配置来构造(参见上面的讨论)。CNN权重由ImageNet [8]分类数据集上的预训练模型初始化。4.2. 合成图首先对根据[7]中的方案生成的合成图进行评价。地面真值图是用给定数量的关键点Kpt生成的,每个关键点具有1024维(节点为512维,边缘为512维U(-1,1)中的随机特征(模拟CNN特征)和U(0,256)中的随机2d坐标。在训练和测试过程中,我们绘制了高斯分布的采用特征提取器,仅采用图建模方法并且比较损失度量。从Kpt和σfeat两个方面对PCA-GM、PCA-GM-OL、GMN-PL、GMN和非学习SM的匹配精度进行了评价。对于每个试验,生成10个不同的图,并平均准确度。实验结果如图所示。3.说明了PCA-GM对特征变形和复杂图结构的鲁棒性。4.3. Pascal VOC关键点我们在Pascal VOC数据集[11]上进行实验,并使用Berkeley注释关键点[2]。 它包含20类具有标记关键点位置的实例。根据同行方法的实践[45],原始数据集被过滤为7,020个注释图像用于训练,1,682个用于测试。 所有实例都围绕其边界框,并将其大小调整为256×256,然后传递到网络。Pascal VOC Keypoint是一个困难的数据集,实例可以根据其比例、姿态和照明而变化,并且内点的数量范围从6到23。我们在Pascal VOC Keypoint [2]上进行测试,并在20Pascal分类比较了GMN、GMN-PL、PIA-GM- OL、PIA-GM、PCA-GM等几种方法的优缺点,并给出了详细的实验结果。2.我们提出的模型PIA-GM-OL,PIA-GM,PCA-GM在大多数类别中表现出色,包括平均准确率超过20个类别。我们的PCA-GM实现在双RTX 2080 Ti GPU上以每秒18对的速度运行。结果表明,在亲和力建模中,线性分配损失优于训练中的偏移损失,嵌入和Sinkhorn优于固定SM [22]和跨图嵌入优于图内嵌入。4.4. Willow对象类Willow ObjectClass数据集由[6]收集,用于实际噪声N(0,σ2)添加到要素,关键点坐标-图像.该数据集由加州理工学院的5个类别组成-PCA-GMPCA-GM-OLGMN-PLGMNSM精度精度3065VGG16图内交叉图亲和力精度PCA-GM准确度(诊断:65.4,所有:52.4)瓶子公共汽车汽车猫椅狗沙发火车瓶总线车猫椅子狗沙发火车测试问题PCA-GM-OL准确度(diag:61.0,全部:52.2)瓶子公共汽车汽车猫椅狗沙发火车瓶总线车猫椅子狗沙发火车测试问题GMN-PL准确度(诊断:45.1,所有:39.1)瓶子公共汽车汽车猫椅狗沙发火车瓶总线车猫椅子狗沙发火车测试问题瓶子公共汽车汽车猫椅狗沙发火车GMN准确度(诊断:40.2,全部:40.5)30.137.038.124.623.928.030.359.531.551.442.127.230.224.635.668.825.538.638.525.026.426.526.763.929.340.339.428.726.130.333.865.626.045.936.526.931.327.736.467.030.839.238.131.228.537.332.066.528.235.937.024.425.026.426.965.926.844.035.627.027.026.429.777.8瓶总线车猫椅子狗沙发火车测试问题1.000.950.900.850.800.750.700.65图4.来自Pascal VOC Keypoint的八类对象的混淆矩阵。模型在y轴上的类别上进行训练,测试结果以x轴的类别显示请注意,对于相似类别(如猫和狗)之间的PCA-GM,准确性不会退化太多矩阵中的数字是对应的准确度,并且颜色图代表由当前矩阵中该类别的最高准确度请注意,单元格中填充的颜色并不表示不同类别和矩阵之间的准确性的绝对值每个混淆矩阵的对角线元素和整体元素的准确度显示在每个矩阵顶部的括号我们遵循基准为每个类别提供的训练/测试划分。表4. Pascal VOC Keypoint上申报组件的消融研究。打勾表示针对该列激活学习。对于VGG16功能,这意味着它使用图匹配训练数据进行微调,否则通过ImageNet预训练VGG16。特征嵌入嵌入度量CCCC63.8CCC×63.6CC××62.1C×××54.8××××41.9256(脸,鸭子和酒瓶)和Pascal VOC 2007(汽车和摩托车),每个至少有40张图片。如果将图像传递给CNN,则将其大小调整为256×256。该数据集被认为比Pascal VOC Keypoint更容易,因为所有同一类别内的图像在其姿势上对齐,并且它没有比例、背景和照明变化。我们遵循作者[6]建立的协议,以进行公平的评估。HARG-SSVM 在这个willow数据集上进行训练和 评估。对于其他竞争方法,我们初始化他们的权重PascalVOC的关键点数据集,所有VOC 2007年的汽车和摩托车图像删除。它们被表示为GMN-VOC和PCA-GM-VOC。然后在willow数据集上对它们进行微调,如GMN-Willow和PCA-GM-Willow,在评估中达到更高的结果请注意,HARG-SSVM是一个类特定的模型,但GMN和PCA-GM都是类不可知的。选项卡.结果表明,本文提出的PCA-GM方法在所有类别的WillowObject Class数据集上几乎优于所有竞争方法4.5. 进一步研究PCA-GM组件。 在表中报告了使用经过培训/未经培训的不同PCA-GM组件进行的消融研究。4.它显示了我们所有组件的实用性。VGG16在ImageNet上使用预训练的权重进行初始化,嵌入层随机初始化,亲和度度量的权重通过单位矩阵加秩进行初始化表5.Pascal VOC关键点上更复杂的交叉图亲和组件设计的迭代次数的准确度(%),这对准确度有负面影响(PIA-GM达到63.0%)。数量1234567Alg. 1PCA-GM精度63.161.360.954.745.946.746.263.8dom噪声。交叉图组件设计。我们的交叉图亲和力组件相对简单。实际上,我们还探索了一种更复杂的交叉图模块的设计,其中矩阵S的更新是通过迭代预测来实现的,而不是像Alg中的PCA-GM那样从较浅的嵌入层预测。1.一、在这种交替设计中,S(0)被初始化为零矩阵,并且我们从S(k−1)迭代预测S(k),S(k)被传递到交叉图组件。选项卡中的结果。结果表明,PCA-GM的性能将随着迭代设计的进行而下降,并且我们进一步发现这种迭代设计的训练是不稳定的,1.关于这种替代设计的细节在补充材料中给出。混淆矩阵。为了验证模型的泛化能力,我们训练了PCA-GM、PCA-GM-OL、GMN-PL,GMN在Pascal VOC Keypoint中的八个类别上进行测试,并报告每个类别的测试结果,如图所示。4,其中结果通过混淆矩阵绘制(y轴用于训练,x轴用于测试)。结果表明,PCA-GM采用嵌入式方法,置换损失比偏移损失提供了更好的监督。5. 结论本文提出了一种新的用于图匹配的深度学习框架,该框架将图与深度网络的亲和力参数化,并且学习目标涉及置换损失以解释两个图之间的任意变换。广泛的实验结果,包括对所提出的组件的烧蚀研究和与同行的方法的比较显示了我们的方法的最先进的性能。训练问题训练问题训练问题81.566.643.541.128.729.427.371.436.376.439.738.427.032.831.664.246.765.869.146.029.536.946.262.138.155.140.269.721.452.530.861.039.556.244.039.539.933.837.857.844.363.045.763.929.165.338.165.649.259.747.544.828.439.740.971.736.863.341.042.325.334.330.580.3训练问题79.767.845.141.928.729.632.271.747.376.846.839.227.033.025.376.639.554.559.243.825.434.233.656.639.657.641.761.426.046.730.561.641.156.647.843.635.238.637.362.743.060.842.657.529.456.734.863.054.673.350.244.227.837.536.470.837.362.040.646.827.835.531.182.265.629.422.917.620.715.621.149.126.453.937.527.030.223.529.867.928.242.242.627.030.426.932.765.319.634.031.533.325.824.230.254.527.441.339.026.128.824.833.666.825.439.239.027.827.430.334.765.626.441.337.927.525.426.935.365.929.239.537.727.827.726.331.771.43066引用[1] 瑞安·普雷斯科特·亚当斯和理查德·S·泽梅尔。通过沉角传播
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功