基于图神经网络的高效相对属性学习

178 浏览量更新于2023-10-13 收藏 1.21MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于图神经网络的高效相对属性学习作者：王志红1，王志红1，王志红1.Kim1、Glenn Fung2和Vikas Singh11威斯康星大学2美国家庭保险zihangm@cs.wisc.edu，adluru@wisc.edu，hwkim@cs.wisc.edu网站，网址：gfung@amfam.com，vsingh@biostat.wisc.edu抽象。大量关于相对属性的工作提供了证据，证明沿着与视觉属性相关的连续强度的图像对在各种视觉任务中产生改善在本文中，我们展示了图形神经网络中的新兴思想如何产生各种问题的解决方案，这些问题广泛属于相对属性学习。我们的主要思想是观察到相对属性学习自然受益于利用图像的不同相对属性之间的依赖关系图，特别是当在训练时仅提供偏序我们使用消息传递来执行端到端的学习的图像表示，它们的关系以及不同属性之间的相互作用我们的实验表明，这个简单的框架是有效的，在实现竞争力的准确性与专门的方法，相对属性学习和二进制属性预测，同时放宽对训练数据和/或参数的数量，或两者的要求。关键词：相对属性学习，图神经网络，多任务学习，消息传递1介绍视觉属性[6]对应于图像或图像中包含的对象的中级语义甚至非语义概念或属性，其不可通过人类来实现。例如，一个信息可以“自然地”、“模糊地”或“模糊地”依赖于关键内容的内容。将这些属性与图像相关联的能力使系统能够在传统的分类任务中表现得更好，甚至超越基本级别命名[18]。这一行的见解是首先选择可以预测属性的特征对于感兴趣的对象类别，随后的分类器必须仅利用所述“保留”属性，即保留属性或针对保留分类器的可区分的保留属性。“re l at i v e at t r i but e s”的概念通过论证图像中属性的强度是最好的来进一步支持这个想法2017年在威斯康星大学麦迪逊分校学习期间完成的2Z. Meng等人根据其相对于所有其他图像的强度来判断训练数据而不是二元概念。例如，虽然难以描述“人工”图像是什么，但是可以建立关于人类在该属性方面比较图像的地方的比较。这种以相对术语描述图像的策略在具有挑战性的情况下工作良好[13]-例如，计算如何“操作”图像是另一种方法。由于早期的工作相对属性[21，20，23]，几篇论文提出了更多的任务特定的模型，基于专门的功能进行排名。但是鉴于卷积神经网络（CNN）架构的成功，最近的大多数提议在学习的上下文中利用CNN进行特征学习整体排名。例如，给定一组关于一个/多个属性的注释图像对，网络学习与图像的属性特定排名最大一致的权重。相关想法还探索了设计与属性对准的图像部分特定检测器。例如，对于诸如“微笑”的属性的空间支持是什么。显然，这将涉及将视觉概念定位到图像的一部分在[20]中，作者传递连接视觉链跨越属性连续体，并且使得特征提取和排名不应该被单独执行我们的工作的出发点是观察到的属性空间，诱导排名的图像共享大量的相关结构。例如，“furry”属性可能与“four-legged”属性相同，并且“congested”属性可能具有类似于“man-made”属性的形式。这引起属性和图像的自然图，其中输入数据提供针对一个/多个属性的图像之间的成对关系或针对属性的图像的部分（或全部）排名。我们不假设注释是详尽的-图像之间的许多边缘（或关系）实际上可能是不可用的。扩展最近关于图神经网络（GNNs）的工作，将卷积和其他基本深度学习操作的概念扩展到非欧几里德网格（[11，19，16，9，3]），我们展示了这些想法如何产生一个自然的模型，用于在这个图上学习，涉及图像属性和图像边缘。不仅自动提取图像特征（与每个属性相关），而且我们还同时学习与给定的成对注释最一致的相似性函数以及属性之间的潜在关系（类似于多任务学习）。这种机制很简单，但在几个不同的问题上与更专业的建议我们的贡献是：（1）我们通过图上的消息传递方案来制定和解决相对属性学习，其中卷积层，排名以及不可见关系的估算是同时执行(2)我们的框架以最小的变化产生与针对每个任务所报道的最佳结果类似的结果，通常提供要估计的参数的数量的相当大的减少或者对训练数据注释的严格要求少得多。我们注意到GNN最近在arXiv [8]上发表的一篇论文中独立地用于分类任务。基于图神经网络的相对属性学习32相关工作视觉属性。视觉属性是图像中的语义属性，其可以被人类理解并且在类似类别的所有图像之间共享（例如，图像的视觉属性）。所有人脸图像都具有“微笑”属性，其强度可以从弱到强变化，如我们将很快用示例示出的。视觉属性中的大多数现有工作集中于二进制属性预测（BAP），其中每个属性从给定图像中预测并且被转换为二进制属性。在[18]中提出了“恢复能力”，并在许多环境中进行了探索[20，21，23]。几种当前技术使用深度神经网络来学习相对属性（例如：[21]），并借鉴注意力机制研究的思想（例如，[20]）来帮助网络只关注图像中信息量最大的区域这些作品中的大多数一次处理一对图像我们的工作表明，在完全连接的图上处理图像组，而不仅仅是两两比较，可以提高性能。多任务学习。多任务学习是指通过同时学习多个相互关联的任务这种技术最近已被用于二进制属性预测。一起学习几个相关的Abdulnabi等人[1]提出了一个多任务CNN框架，与一次学习一个属性相比，它提高了准确性。Wang等人[22]设计了一个更简单的深度多任务网络来预测人脸属性。与大多数与多任务学习相关的策略相比-ing，我们的多任务制定学习属性的同时，有利于相对属性学习。图神经网络（GNN）。图神经网络由[11，19]提出，其中作者将GNN描述为可以训练的参数化消息传递方案后来，Li et al.[16]提出在GNN中使用门控Gilmer等人[9]使用消息传递神经网络推广了GNN，并在分子预测基准上展示了最先进的结果。最近，与我们的工作同步并独立于我们的工作，[8]应用GNN进行分类，并在几个不同的数据集上取得了良好的结果。3方法我们的方法是基于这样的观察，在一个相对属性学习任务中，不同的图像是相关的，属性可能是或可能不是相关的。学习过程可以受益于探索图上的多个图像之间的相似性，其中每个节点表示图像，并且基于节点的待学习表示之间的关系来形成边。此外，这样的图形结构可以有利于多任务学习，其中我们可以将不同类型的节点添加到图中，以表示正在学习的不同属性通过这种方式，我们显式地学习4Z. Meng等人某些属性的特性、必要时属性之间的相互作用、图像的表示以及它们在图上的关系，以最好地通知手头的任务的方式。我们首先解释如何将输入图像映射到图形表示，并给出我们的网络架构的细节，在一个属性的上下文中的相对属性学习。然后，我们将展示如何使用该构造以最小的修改来执行多任务属性学习。最后，我们还展示了我们的模型如何有效地用于二进制属性预测（BAP）任务。我们的框架的概述如图所示1.一、3.1网络架构令I={I1，I2，· · ·，In}为输入图像的集合，并且对于某个属性t（例如，微笑），我们假设一组成对关系标签Pt={φ（Ii，Ij）}n，其中φ（Ii，Ij）指示所述相对强度。l i，j= l;i j在两个图像Ii和Ij之间的属性t。这种关系可能是合乎逻辑的（e. G. 、“st r on ge r t h an“或“w e a k e r t h an“）。在a处，训练一般化的GNN，其中学习节点特征（图像的表示）和边缘权重两者。我们的GNN的核心架构如图所示。二、假设我们对一定大小（允许变化）的组（或小批量）进行操作，这些组（或小批量）在有或没有从底层训练数据集进行替换的情况下进行采样。每个小批量中所有图像之间的关系（S）使用全连接图GS=（V，E），其中V中的每个节点vi对应于小批量中的图像IiFig. 1. RAL和BAP任务框架概述。由于图像的许多自然属性是相互关联的，发现它们的共同潜在表征将有利于属性学习任务。这可以通过将这些图像映射到图形结构来有效地实现每个图像在图上都有一个对应的使用图像上的CNN生成节点的初始特征f（·），并且使用GNN执行边缘特征和随后的更新（图1中的细节）。2）的情况。整个框架中的权重，包括CNN和GNN中的权重，都是端到端训练的。基于图神经网络的相对属性学习5我我图二、我们GNN的建筑细节对于RAL和BAP都是相同图上的边是使用参数化函数（θe，θe（3））从相邻节点学习的，其中，该参数化函数（θe，θe（3））是对所有边进行哈希的。图中的“m”是然后，GRU单元将节点及其对应的消息作为输入，并输出更新的节点。GRU中的参数也在所有节点之间共享。S.每一次，网络都会接收一组图像，并将它们传递给卷积神经网络。这也可以被认为是一组|S|共享权重的卷积网络。从该网络导出的表示生成节点要素的初始表示，x（0）=f（1），（1）其中f（·）是指对图像进行操作的CNN。这里，Ii是输入图像，并且x（0）是在时间k = 0处的图像的初始节点特征。接下来，网络学习边缘特征为，e（k）=.Σx（k），x（k）、（二）i，j i j其中，是使用单层神经网络参数化的对称函数。工作：n（x（k），x（k））=N条边.Σ||x（k）− x（k）||1.（三）ijij我们假设是通过两个节点的学习特征之间的绝对差的非线性组合（或涉及节点特征的任何其他简单函数）学习的度量。这确保了设计满足对称性质（a，b）=（b，a）我们现在的目标是根据图中其他节点的信念以及它在前一个时间点的状态更新每个节点的信念。6Z. Meng等人我i=1为了实现这一点，我们使用消息函数M（·）来聚合来自每个节点的所有邻居特别地，对于每个节点x（k），消息定义如下，m（k）= Σ。ΣMx（k），e（k）.（四）我j，j/=ij i，j这里，M（·）使用单层神经网络进行参数化，其细节将在3.2节中介绍。我们现在需要定义一种机制，该机制利用从节点的节点获取的信息，并更新其状态。为此，我们使用更新层G（·），其将信号x（k）（节点的当前状态）作为输入并产生x（k +1）。这是使用门控循环单元（GRU）作为更新功能来实现的。x（k+1）=G .Σx（k），m（k）.（五）我我我有了这个设置，我们简单地使用读出函数oi=R（xi）来获得每个节点的输出，并最终基于来自图上所有相关节点的这些输出将我们的损失函数定义为损失=R（{oi}n）、（6）其中n是图形节点的数量注意，R（·）也可以根据应用的需要用简单（或更复杂）的神经网络来R（·）的具体形式取决于具体任务，具体任务将在下面的3.23.2学习相关属性，一次一个相对属性学习（RAL）任务旨在学习一个网络，该网络在给定输入图像的情况下，根据每对图像之间某些属性的相对强度输出成对标签在本节中，我们考虑一次为一个属性训练网络。回想一下，我们的网络旨在更好地探索不同图像之间的相关信息因此，与RAL（[21，20]）中的其他方法不同，这些方法一次获取两个图像作为输入，我们在每次绘制时从训练集中采样一组图像作为输入。组的大小不需要固定，并且可以在单个数据集或不同数据集中学习不同属性，因为我们的网络具有在样本的图形结构上共享权重的好处。我们在 AlexNet [15] 中使用了五个卷积层和前两个全连接层（conv1到fc7），尽管其他架构可以替代。节点的输出特征向量的维度固定为4096。充分和传播我们对每组中的图像施加完全连接的图形结构。在将这些图像映射到图上之后，我们执行消息传递，这在节点之间的信息传播中是有效的我们采用从当前节点隐藏表示中学习基于图神经网络的相对属性学习7我我我我由Gilmer et al.[9]如（2）所示。边学习函数的参数在图上的所有节点之间共享。然后，对于图上的每个节点x（k），将通过边从所有进入节点提取消息信号，参见（4）。这里，我们将消息函数M（·）指定为，.M（x（k），e（k））=ReLUW.Σx（k）Σ+b、（7）j i，j j i，j其中，表示两个向量的级联运算符，W和b分别是权重矩阵和偏置，并且ReLU（·）是整流线性单元（ReLU）函数。我们还要注意，消息函数M（·）的参数（W和b）也由我们的图中的所有节点和边共享，从而提供对参数数量的显式控制。更新中。现在让我们讨论节点的更新函数。在每次迭代中，每个GRU都将节点的先前状态和传入消息作为输入，并产生一个新的隐藏状态作为输出（见图2）。2）的情况。设x（k− 1）当节点的隐藏项在预更新时间点处被更新时，m（k）是经由（4）接收的消息，并且x（k）是更新的节点。利用这些符号，GRU的基本操作简单地给出为：zk=σ .ΣWzm（k）+Uzx（k−1），我我我.Σrk=σ Wrm（k）+Urx（k−1），我x~（k）=tanh我.Wm（k）+U我.ΣΣrk⊙x（k−1），我我我x（k）=（1−zk）⊙x（k−1）+zk⊙x~（k），（8）我我其中z和r是GRU单元中的中间变量，σ（x）= 1/（1+e−x）是sigmoid函数，⊙是逐元素乘法。我们图中的每个节点在相应的GRU中保持其内部状态，并且所有节点共享GRU的相同权重，这使得我们的模型高效，同时也可以无缝地处理不同大小的组作为输入。在这项工作中，我们使用一个时间步长的GRU更新。在测试期间，允许任何数量的图像，并且网络将基于图上的输出节点的所获得的值为每两个图像输出成对标签。在使用（1）-（6）构造我们的图之后RALLoss=Σi，j，i/=j−Llog（Pij）−（1− L）log（1−Pij），其中（9）1 ifIi≻Ij,L=0ifIiIj，0的情况。5否则，以及Pi，j=oi−oj（节点i和j的输出）。该公式具有良好的性质，即如[4]中所述，它对噪声是鲁棒的，并且通过构造是对称的。8Z. Meng等人我们可以容易地利用训练数据，其中一些图像对以“相等”的形式出现在E /M或E上。3.3一次性学习相关属性在本节中，我们展示了我们的图形结构可以有效地应用于同时学习多个相对属性，即，执行多任务属性学习。我们考虑了多任务学习的两个方面，（1）RAL的性能可以通过利用具有共同的潜在表示的几个属性来改善。虽然这已经证明了在二进制属性预测（BAP）设置，我们目前的实验结果表明，RAL可以受益于多任务学习。（2）第二个方面是建设的效率虽然多任务学习可以提高属性相关时的性能，但在先前的方法[1，22]中，网络的参数数量作为一起学习的属性数量的函数增长得更快，这增加了例如，如果在RAL中一次训练一个参数的数量是O（K2），那么我们的版本只将数量增加到O（K2+nK），其中n是同时学习的不同相对属性的数量。这比其他多任务方法中可能需要的O（nK2）小得多[1，22]。我们无法通过一个简单的方法来适应我们的网络或k（Fig. 2）当k设置进行时，如下进行。我们简单地将输出oi的维度从1改变为m，其中m是属性的数量。但这引起的唯一变化是读出函数中的权重矩阵的大小我们发现，在这种情况下，图形结构可能会稍微失去其表达能力。为了解决这个问题，与以相同的方式处理图中的所有节点的第3.2节不同，在这里，我们定义两种不同类型的节点xi，i = 1，2，···，n，和ri，i = n +1，n +2，···，n + m，其中n是每组中的输入图像的数量（为了一致，我们在整个实验中选择n = 5），并且m等于网络同时学习的属性的数量。这里，xi具有与章节3.2中相同的含义，其对应于一个图像，并且每个rj对应于某个属性。重要的是要注意，虽然卷积网络学习了xi处的表示，但属性节点rj在训练阶段开始时随机初始化，并以全局方式不断更新，类似于GNN中的其他参数。该方案允许我们以图形模型的潜在变量影响所有属性节点的方式显式地学习每个属性的隐藏表示-这类似于多任务学习，其中我们期望学习相关任务在同时执行时可以彼此受益。使用卷积网络和GNN过程的特征提取过程与第4.1节相同唯一需要的改变是重新定义我们如何使用读出函数R（·）来获得输出。1）A=A（||xi−rj||1），其中对于i，j，i给出了用于该图像的n个属性的索引x（从1到n），并且j给出了不同属性的索引（从1到m）。损失函数为基于图神经网络的相对属性学习9”[19]每一个人，都有一个自己的归宿，ΣmRALLossmulti=i=1RALLoss i.（十）3.4二元属性预测在本节中，我们详细介绍了我们的图形模型如何也可以用于预测二进制属性，其准确度与多任务CNN模型[1]相当，但使用的参数数量要少得多。二进制属性预测（BAP）任务试图预测图像是否具有特定属性（例如，图像的属性）。一个人是否戴着领带），这可以被认为是一个二元分类任务。正如多任务学习的论文[1，22]所建议的那样，同时学习几个相关的属性可以提高BAP的性能在此设置中，标签不再提供成对信息。因此，很难扩展其他RAL方法并使其适用于BAP。例如，建筑采用连体网[20]由于子网络不再链接，因此不能针对BAP容易地修改但是我们的网络仍然可以从训练样本上的全连接图结构中受益，因为尽管没有成对注释，但图像本身仍然是相关的。因此，我们可以使用相同的基本架构。损耗层之前的框架与第3.3节中的网络保持相同。BAP的损失函数被简单地定义为BAPLossi =−L log （ Pi ） − （ 1− L ） log （ 1−Pi ），（ 11）其中L是图像Ii的二进制标签，并且Pi=oi。总损失定义为，ΣmBAPLossmulti=i=1BAPLoss岛（十二）4实验结果在本节中，我们将分析模型在第3节中描述的几种不同设置下的性能首先，我们介绍一些关键的实施细节。我们的网络接收一组图像，并输出该组的成对关系（在相对属性任务中）或每个图像的二进制标签我们随机划分训练/测试集。然后，我们将训练集/测试集随机分组（每组选择5张图像，但数量可能会有所不同），并将其作为网络的输入我们报告的成对的准确性测量的图像组在预处理步骤中，我们减去训练集的平均值并将图像裁剪为227× 227。对于训练，我们使用在ILSVRC 2012 [15]数据集上预训练的AlexNet初始化conv1到fc7层，并使用Xavier初始化器随机初始化其他部分[10]。我们使用大小为10的小批量和β 1 = 0的Adam优化器[14]。9，β2= 0。999.相对属性学习任务的学习率为0.0001，对于属性预测任务，我们将学习率设置为0.00001。10Z. Meng等人4.1相对属性学习，一次一个在这个实验中，我们评估了3.2节中描述的网络目标是根据给定属性的强度来比较图像对或图像我们使用了OSR场景数据集[17]和公共人物面部数据集（PubFig）[18]的子集OSR场景数据集由2，688张具有户外场景属性（自然，开放，透视，大型物体，对角平面和闭合深度）的图像组成。PubFig的子集包含来自8个随机身份的近800个图像我们将训练集/测试集随机拆分，然后将训练集/测试集拆分成组，并将其用作网络的输入。我们报告的结果在成对的准确性的图像组我们的计划使得有可能利用的信息组的图像作为一个整体，这是更多的信息比只是一对图像（常见的连体网络建设）。为了与其他方法进行公平比较，我们通过计算每组中所有对的成对准确度来衡量我们模型的性能。我们选择两种方法进行基线比较。第一个是Souri等人的工作。[21]，它训练深度卷积网络来学习图像对的相对属性。第二个是DeepPermNet [2]，它通过学习排列来学习相对属性。请注意，这种方法需要完全排序的图像序列作为输入，与我们的网络和Souri等人的工作相比，这是一个更严格的要求。[21]，在训练过程中只需要成对标签。准确度结果见表1-2。定性结果如图3所示。表1.在OSR数据集上评估的相对属性学习精度。平均而言，我们优于所有以前的方法。倒数第二行展示了我们在4.1节中的网络结果，最后一行展示了我们在4.2节中的多任务网络的结果，它一次学习所有六个属性。方法natural 开放透视大目标diagonal-planneclose-depth 是说Souri等人[21日]99.497.4496.8896.7998.4397.6597.77Cruz等人（AlexNet）[2]97.2196.6596.4698.7794.5396.0996.62Cruz等人（VGG）96.8799.7999.8299.5597.9996.8798.48我们99.5699.1999.3098.0899.6397.9898.96我们的（多任务）99.89 99.4298.7198.8099.4698.9399.20与Souri等人的工作相比。[21]，我们通过以下方式胜过该方法公共人物面部数据集上的4%的余量，以及OSR场景数据集上的1%。由于OSR数据集的准确度已经很高，因此1%的改进是有意义的。与DeepPermNet [2]算法相比，我们在两个数据集上的平均性能都优于该算法。请注意，DeepPermNet需要与训练数据具有相同长度的排名数据序列，这在某些应用程序中可能是不可能的。还请注意，Souri etal.[21]和DeepPermNet [2]在他们的实验中使用VGG CNN模型，而我们在所有实验中选择了更简单的Alexnet [15]，它的参数要少得多。因此，我们的模型可以比基线模型更快地训练基于图神经网络的相对属性学习11图三.来自我们网络的RAL（一次一个）的定性结果。我们从PubFig和OSR数据集中的四个不同属性中随机选择五个不同的图像，并通过对这些属性进行排序来显示结果。图像按我们网络的相应输出值前两行来自PubFig数据集，最后两行是来自OSR数据集的图像。见图4。使用我们的网络对RAL（一次全部）的定性结果根据我们的网络输出，图像再次排列，如图所示。3，但这些是从我们的多任务损失函数（等式 3 ）中学习的。（ 10 ））。我们可以看到，即使没有像在DeepPermNet中所做的那样明确学习顺序，图像也是非常有序的。我们还注意到，几乎所有的图像和属性的性能是一致的，任何随机选择的子集给我们提供了良好的质量结果。12Z. Meng等人表2.在PubFig数据集上评估的相对属性学习精度。我们的结果优于Souri等人的工作[21]，这是传统设置的最新技术，其中仅使用成对标签我们的结果也有竞争力，并得到比克鲁兹等人稍好的结果。[2]，它使用排名输入数据。最后一行显示了我们使用多任务损失函数的网络的结果，该网络一次学习所有11个属性。方法嘴唇眉毛胖乎乎 malee眼睛鼻子脸smilng额头什么时候年轻是说Souri等人[21日] 93.6294.5392.32 95.59 93.19 94.24 94.7695.3697.2894.60 94.33 94.52Cruz等人[二]《中国日报》99.5597.2197.66 99.44 96.54 96.21 99.1197.8899.0097.99 99.00 98.14我们98.2897.1198.67 98.05 98.62 99.24 97.32 99.2698.3799.36 99.31 98.51我们的（多任务）99.6799.3399.00 98.33 97.32 98.46 99.0097.5199.1297.66 98.66 98.554.2相对属性学习，一次完成在这个实验中，我们评估了3.3节中描述的多任务网络我们学习每个数据集中的所有属性，并在表1和表2中报告两个不同数据集上每个属性的预测准确性结果。定性结果见图。4.第一章正如所呈现的数据所示，我们的多任务模型略优于我们的单属性学习模型（第3.2节），这表明一些这些属性是相互关联的，因此当我们一次学习它们时有助于学习过程。请注意，在我们的框架中，每增加一个要学习的属性，网络参数数量的增加等于两个向量的维数，一个在读出函数中，一个在属性节点中（在我们的工作中，这两个向量的维数是4096× 1）。读者可以将其与大多数多任务学习网络进行对比，例如[22，12，1]，其中许多网络为每个附加属性使用额外的CNN或几个更完全连接的层，与我们的模型相比，这有助于更多的参数。4.3二元属性预测在这里，我们评估我们的网络用于第节3.4. 多任务CNN模型[1]是基线的自然选择该模型提出对每个属性预训练卷积神经网络以获得特征向量，然后对多个属性执行多任务学习该模型参数多，表达能力强与[1]类似，我们也在服装属性数据集[5]上评估我们的模型它包含1，856个图像和26个属性。在图像级提供地面实况，并且为每个属性注释每个图像为了比较，我们忽略了[1]中的多类值属性，并以相同的方式使用此信息将23个二进制属性分组。然后，我们使用多任务网络来一起训练每组属性。我们在表3中报告了我们的结果，在表4中提供了组信息M-CNN是[1]中没有组信息的多任务框架，MG-CNN是他们的具有组编码的多任务框架。司生产的各类基于图神经网络的相对属性学习13表3.服装数据集上的属性预测精度[5]。与[1]类似，我们将23个二进制属性划分为4组（如表4所示）。我们实现了与MG-CNN [1]相当的结果，但参数明显更少（见第3.3节）和更快的训练速度。方法颜色模式布件外观总M-CNN[1]91.7294.2687.9691.5191.70MG-CNN[1]93.1295.3788.6591.9392.82我们91.6496.8189.2589.5392.39该模型与MG-CNN框架中的结果相当，但在参数数量和收敛时间方面都更有效。对于参数的数量，[1]需要为每个属性添加一个CNN，而我们只添加了4096× 1个参数两次。在训练时间方面，MG-CNN[1]使用两个NVIDIA TK 40 16 GB GPU在Clothing数据集上训练需要1.5天，而我们在两个NVIDIA Geforce GTX 1080Ti 12 GB GPU上训练所有4组属性需要不到4小时表4.服装数据集中使用的服装信息组属性颜色黑色，蓝色，棕色，青色，灰色，绿色，许多，红色，紫色，白色，黄色模式花卉，图形，格子，固体，条纹，斑点布件领带、围巾、门襟、领子外观皮肤暴露，性别4.4限制为了使我们的网络获得可观的性能优势，我们希望由每个随机样本形成的图，即n的组或小批量（例如，n=5），则存储器被“连接”，或者至少是一个子组，其中连接了2个以上的节点。这允许一次从多于一个图像对学习以有意义--这是我们提案的主要优点。但是，如果大多数对标签不具有任何节点重叠，则由一组或小批图像形成的图将不具有大小大于2的连通分量。我们建议读者参考[7]（第4章），了解连接的技术方面。UT-Zappos 50 K数据集[24，25]表明了这种行为（并且不是理想的我们的模型提供性能增益）。在这种情况下，我们的模型实际上执行类似（虽然不完全相同）的文献中使用的暹罗网络。表5中的结果确实支持这种直觉：我们的性能仅比[21]稍好，而不是我们在其他地方看到的更强的改进。14Z. Meng等人表5.在UT-Zappos 50 K-lexicon数据集上评估的相对属性学习。它包含了50025张鞋子的图片，并对4000双鞋子进行了注释。10个细粒度属性。[2]中的方法不直接对该数据集起作用，因为对输入数据的“其他已检索”请求。方法comfort casual simple 运动colorful durable支持性银行圆滑开放是说Souri等人[3]第一章88.9389.2088.2791.3391.6789.2791.0088.40 88.27 86.80 89.31我们88.8089.82 90.13 92.6091.8790.0792.7388.00 87.53 89.13 90.075结论我们提出了一个简单的框架，可以执行相对属性学习和属性预测。利用图像集合中各种属性的潜在表示之间的潜在关系在数据集中，我们提出了一个简单的框架的基础上自然实例化的图神经网络。图神经网络的这种形式可以有效地编码多个图像和多个属性之间的相关信息，正如我们在三个不同数据集上的实验所证明的那样。我们的框架可以用来学习的相对属性，无论是一次一个或所有的一次只有适度增加的参数的数量相比，其他基于多任务的方法。由于我们的框架主要从成对的图像中学习，并且不需要完整的排名，因此同时对训练数据集的注释要求不那么据我们所知，该提案是第一个探索多任务GNN配方相对属性学习的功效。我们的实验还表明，即使对于二进制属性预测，其中每个属性在二进制分类设置中预测，这种架构在实现或超越最先进的结果该项目网页包括其他应用的结果，包括预测身体质量指数（BMI），这些在主要论文中没有6确认这项工作得到了美国家庭保险和UW CPCP AI117924的部分资助。还承认来自NSF CAREER奖1252725、NIH资助R 01 AG 040396、BRAINInitiative R 01-EB 022883和Waisman ID-DRC U 54-HD 090256的作者非常感谢孙浩良对本项目的插图和其他建议/建议的帮助。代码将出现在https://github.com/zihangm/RAL_GNN中。引用1. Abdulnabi，A.H.，Wang，G.，卢，J，Jia，K.：属性预测的多任务cnn模型。IEEETransacti o nso nM ultime dia17（11），19492. Anoop，R.S.C.B.F.Gould，C.S.：Deeppermnet：视觉排列学习。learning-ing学习33，25基于图神经网络的相对属性学习153. Bronstein，M.M.，Bruna，J.，LeCun，Y.，Szlam，A.，Vandergheynst，P.：几何深度学习：超越了欧几里得数据。IEEE Signal ProcessingMagazine34（4），184. 伯吉斯角震惊了T Renshaw，E.，Lazier，A.，Deeds，M.，Hamilton，N.Hul- lender，G.：学习使用梯度下降排序。在：Proceedings of the 22ndInternatinalconnferenceonMachinelearningg. pp. 89比96 ACM（2005）5. 陈洪， Gallagher ， A. Girod ， B. ：用语义属性描述服装。 In ：Europeanconferenceoncomputervision. pp. 609-623 02TheDog（2012）6. Farhadi，A.，恩德雷斯岛Hoiem，D.，Forsyth，D.：用事物的属性来描述事物。在：计算机视觉和模式识别， 2009 年。 CVPR 2009 。 IEEEConferenceon. pp. 1778- 1785年。第一章（2009）7. Frieze，A.， Karon'sKi，M. ：Intr oductiontorandomgraphs. 中国建筑学会出版社（2015）8. Garcia，V.，Bruna，J.：图神经网络的少样本学习arXiv预印本arXiv：1711.04043（2017）9. Gilmer，J.，Schoenholz，S.S.，莱利P.F. Vinyals，O.，Dahl，G. E.：量子化学的神经信息传递。arXiv预印本arXiv：1704.01212（2017）10. Glorot，X.，Bengio，Y.：了解训练深度前馈神经网络的困难。在：第十三届人工智能和科学国际会议论文集。pp. 24911. Gori，M.，Monfardini，G.，Scarselli，F.：一种新的图域学习模型。In：NeuralNetwor ks，2005. IJCNN' 05. 发布日期。 2005年，我在一家期刊上发表了《钢铁工业》。 vol. 第2页。 729-734 05The Dog（2005）12. 汉，H.，Jain，A.K.，Shan，S.，Chen，X.：异构人脸属性估计：深度多任务学习方法。IEEE Transactions on Pattern Analysis and Machine Intelligence（2017）13. Jamieson，K.G.杰恩湖，费尔南德斯角美国新泽西州格拉塔德诺瓦克，R.：下一个：一个系统，用于现实世界的发展，评估和主动学习的应用在：新一代生产系统中的设备。pp. 265614. 金玛，D.P.，Ba，J.：Adam：随机最佳化的方法arXiv预印本arXiv：1412.6980（2014）15. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：使用深度卷积神经网络的图像网分类。在：神经信息处理系统的进展。pp. 109716. 李，Y.，Tarlow，D. Brockschmidt，M.，Zemel，R.：门控图序列神经网络arXiv预印本arXiv：1511.05493（2015）17. Oliva，A.，Torralba，A.：对场景的形状进行建模：空间节点的整体表示。Internaljer nalofC〇mutervison42（3），14518. Parikh，D. Grauman，K.：相对属性。In：Computer Vision（ICCV），2011IEEEInternatio nalCo nfere nceo n.pp. 503IEEE（2011）19. Scarselli，F.，Gori，M.，蔡文聪Hagenbuchner，M.，Monfardini，G.：图神经网络是一个模型。I.N.EurralNetworks20（1），6120. Singh， K.K.， Lee， Y.J.：相对属性的端到端本地化和排名。In：EropeanConfer enceonCom up uterVison。pp. 753-769 02TheDog（2016）21. Souri，Y.，Noury，E.，Adeli，E.：深层相对属性。在：亚洲会议上CommputerrVision. pp. 118- 133. 02TheDog（2016）22. 王福，汉，H.，Shan，S.，Chen，X.：用于异构人脸属性联合预测的深度多任务学习。在：自动人脸 & 手势识别（ FG 2017 ），201712hIEEEInternatinalConferenceon。pp. 173-179 IEEE（2017）16Z. Meng等人23. Xiao ， F. ， Jae Lee ， Y. ：发现相关属性的空间范围。在：将IEEEInternatataIonferenceonComuterVison中。pp. 145824. Yu，A.，Grauman，K.：与本地学习的细粒度视觉比较。在：计算机视觉和模式识别（CVPR）（2014年6月）25. Yu，A.，Grauman，K.：语义抖动：通过合成图像进行视觉比较的密集监督。在：国际计算机视觉会议（ICCV）（2017年10月）

下载后可阅读完整内容，剩余1页未读，立即下载