生成社会关系图的神经网络方法

125 浏览量更新于2023-10-19 收藏 1.74MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11186一个生成社会关系图Arushi Goel1、Keng Teck Ma1、2和Cheston Tan21新加坡A*STAR人工智能计划，2新加坡A*STAR信息技术研究所goela@ihpc.a-star.edu.sg，我知道teck@scei.a-star.edu.sg，cheston-tan@i2r.a-star.edu.sg摘要社会智能主体对人工智能的兴趣越来越大。为此，我们需要能够理解不同社会背景下的社会关系的系统。在给定的视觉场景中推断社会背景不仅涉及识别对象，还要求更深入地理解所涉及的人的关系和属性。为了实现这一点，一种用于表示人类关系和属性的计算方法是使用显式知识图，其允许高级推理。我们介绍了一种新型的端到端可训练神经网络，该网络能够从给定的输入图像生成社会关系图-社会关系和属性的我们的社会关系图生成网络（SRG-GN）是第一个使用像门控递归单元（GRU）的记忆单元来迭代更新使用场景和属性上下文的图中的社会关系状态。该神经网络利用GRU之间的递归连接来实现图中节点和边之间的消息传递，并比以前的社交关系识别方法有显着改进。1. 介绍计算机视觉研究中对人类关系的理解还处于起步阶段。相比之下，社会心理学家和其他研究人员已经做出了重大努力来研究人类的社会关系[8，12]。Sunetal的开创性工作。[24]提出基于Bugental的社会领域理论[3]的社会关系框架，对社会关系和领域进行分类。在本文中，我们通过生成社会关系图（SRG）进一步了解图像中的社会关系，如图1所示。在最近的计算机视觉研究中，预测“主谓宾”类型的关系已经获得了主要的研究关注。这些可以用于多个高级任务，如图像检索，图像字幕，以人和社会关系为人社会关系图幼成虫男性男性孩子个人_2幼成虫爱好者女性父子人母子个人_1父子母子个人_2爱好者个人_1图1：对于给定的场景，我们的网络生成一个结构化的表示-社会关系图。图形表示在各种高级视觉任务上显示出良好的效果，例如：图像检索和视觉问答&。视觉问题回答[10，25，2]。最近使用端到端模型生成场景图的工作[28，13，29]在可视化基因组数据集上给出了最佳结果[11]。由于这样的图是人类可解释的，我们建议建立一个社会关系图，它编码的关系和属性信息，并捕捉丰富的语义结构的场景。鉴于人类在其环境中的广泛差异，理解人类关系的任务是一个挑战性的问题图像中有不可观察的、潜在的信息，而我们作为人类发现这些信息很容易理解。为了在这种情况下发展人类水平的理解，计算模型基于社会和认知心理学的理论[23]。基于Bugental的社会心理学理论[3]，我们关注人的属性和社会关系的环境。场景和全局上下文线索对社会关系有最好的结果此外，该活动的人-11187人们参与的社会关系为社会关系分类提供了关键特征[24]。在社会心理学研究中，已经表明，年龄，性别和服装等外观线索在理解社会关系方面很有用。因此，我们使用场景上下文，活动和外观特征的社会关系图推理。我们将我们的问题表述为图推理，该图推理对图中节点和边之间的交互进行编码。我们的问题比场景图生成更具挑战性[28，13，29]，因为我们的工作需要理解高级语义特征（例如社会背景）和低级视觉特征（例如对象）。我们设计了一种新的端到端模型，用于使用社会关系图生成网络（SRG-GN）预测社会关系，该网络结合了来自多网络卷积神经网络（MN-CNN）的输入，通过在两种类型的门控递归网络（ Gated RecurrentNetwork）之间传递消息，迭代更新社会关系图推理网络（SRG-IN）中节点（人）和边（关系）的隐藏状态。单位（GRU）[5]。Rship GRU（边）具有场景和活动特征作为输入，而PPair GRU（节点）具有人类属性特征作为输入。每个边的隐藏状态通过组合更新的节点状态和更新的边状态来更新。因此，关系（边）状态通过相邻节点的细粒度属性特征以及来自附近边的场景和活动上下文本文的主要贡献是：1）一种新的结构化表示（社会关系图），用于视觉场景中的社会理解; 2）一种新的端到端可训练的神经网络架构，使用GRU和语义属性生成图; 3）PIPA关系[24]和PISC [12]数据集上社会关系识别的最新结果。这是第一个使用记忆细胞建立在社会关系和属性上的架构，我们的研究结果证明了这一重要性。消息传递和场景上下文的关系。2. 相关工作2.1. 社会关系识别社交关系领域越来越受到社区的关注，因为社交聊天机器人和个人助理需要了解社交互动。许多研究者试图理解社会关系、角色和相互作用。Zhang等人[30]已经研究了人与人之间的关系使用面部表情与连体结构。有关于亲属关系识别[20]和亲属关系验证[6]的研究。Wang等人[26]研究个人图像收藏中的家庭关系。Jinna等人[16]引入了用于人类之间的粗粒度社会关系的视频数据集。Li等[12]使用Attentive-RCNN模型6关系分类。Ramanathan等人[19]承认人们在各种事件中所扮演的社会角色。Chakraborty等人[4]将照片分类为“夫妇、家庭、团体或人群”等类别。Sun等人[24]预测日常图像中人类之间的精细关系的社会关系。上述作品中的许多作品都使用了物理外观或线索，如活动，接近，情感，表达，上下文等。我们的工作通过将基本属性特征与属性单元相结合来为我们的问题提供更丰富的框架。2.2. 基于图形的表示最近有很多兴趣使用结构化的图形表示的图像的视觉基础。知识图被广泛用于对象检测和图像分类[7，17]。Johnson等人[10]介绍了使用对象关系和属性进行图像检索任务的地面实况注释场景图。从那时起，通过使用内在图属性和周围环境直接从图像生成场景图的任务得到了关注[28，13，29，9]。视觉和语言模块的共同使用也被研究者探索用于识别对象之间的关系[15]。图神经网络[21，14]在学习图中的结构化知识方面获得了很多关注。Wang等人[27]利用图形神经网络对周围物体的知识来更新社会关系。在我们的工作中，我们提出了一个新的框架，用于生成图形，专注于社会关系和属性的人参与的场景，不像现有的工作中的重点对明智的关系或对象关系。3. 模型定义在本节中，我们提供了使用我们的社交关系图生成网络（SRG-GN）从图像生成社交关系图的方法的概述图2中的框架对我们的两个模块进行了更详细的描述：用于属性和关系表示的多网络卷积神经网络（MN-CNN）模块，随后是用于生成结构化图表示的社会关系图推理网络（SRG-IN）模块。该模型经过端到端的训练，以结构化语义有向图表示的形式预测作为场景一部分的关系、域和属性。3.1. 用于关系和属性的多网络卷积神经网络（MN-CNN）我们有一个输入图像I和图像I中的人的一组边界框符号B i，其中i = 1，2，.，N.这些注释被裁剪用于人的单个身体图像Ii，并且被调整大小为227x227像素。对于两个人之间的每一段关系，我们都定义了一个11188单体图像SN1MN-CNN模块PPairAttMTL框架I1I2F∑年龄性别关系域c年龄年龄Convnetfc_gender两性平等宣传网hnt-1SRG-IN模块fc_服装227X227ClothingConvnetXnhn不224X224SN2Fc连接RshipAttPPairGRUPPairGRU图像I场景Convnetfc_sceneXeFC活度heRshipGRUt-1hmpe不RshipGRU上下文图像IC活动ConvnetF连接T=0CT=1T=2多任务损失图2：SRG-GN：我们提出的用于社会关系图生成的端到端网络。我们取单体图像，I1和I2，以及“上下文图像”（包含两个单体图像的最小图像）I c作为到SN 1和SN 2子模块的输入MN-CNN模块，并微调所有属性的全连接层。这些完全连接的层连接在一起并作为输入被馈送到SRG-IN模块，并且隐藏边缘状态通过均值池化边缘（关系）和节点（人/属性）隐藏状态而被迭代地更新。最终更新的边缘状态用于预测给定图像中的社会关系。对于多任务学习框架，来自MLN-CNN模块的全P连接层的年龄和性别属性也对联合神经元网络模型的联合神经元网络模型有影响。个体交叉熵损失的优化。符号表示求和，表示均值合并。图像MN-CNN模块具有两个子模块（SN 1和SN 2），其分别具有输入Ii和Ic。Ii通过子模块SN 1传递，SN1是具有5个conv层和2个全连接层（fc 6和fc 7）的属性ConvNet架构这3个ConvNet层的权重是预训练的权重，如后面第4.3节所述我们对每个属性的全连接层进行微调，然后将fc7层的特征连接到单个特征向量中，并将其分配给PPairAtt。在t=[fca ge|4096d，fcgende r|4096d，fcclothing g|4096d]（一）子模块SN 2是一个成对关系ConvNet架构的网络。有两种VGG-16架构[22]可以从人的上下文图像中计算活动和场景特征。活动与确定人与人之间的关系有着重要的关系，比如说，两个“结婚”的人更有可能是恋人。场景上下文信息也可以用于提高模型预测关系的功效。作为人类，我们也通过观察整个图像场景来理解图像，而不仅仅是考虑对象。这提供了更多的粗粒度信息来理解给定的任务。我们对这子架构，然后连接fc7层以形成一个高维向量，我们将其分配给RshipAtt。RshipAtt=[fcactivit y|1024d，fcccene|第4096条d]（2）3.2. 社会关系图推理网络（SRG-IN）我们以社交图推理问题的形式制定了对人与人之间的社交关系进行分类的任务，其中我们通过考虑关系三元组person1，relation，person2>来预测图像中的关系。考虑给定图像I中的两个人，他们之间有某种社会关系。在我们的网络中，图像中的每个关系都从其附近的节点（人属性）和其附近的边缘（关系）获取信息。这是通过使用门控递归单元（GRU）来聚合来自相邻节点和关系的消息并迭代地更新这些消息以改善给定节点（人）之间的预测边缘状态（关系）来实现的。因此，我们能够利用场景上下文中的信息和个体属性来改进社会关系图中的关系。3.2.1基于GRUs和消息传递机制的推理在数学上，我们将推理任务表述为概率函数：给定输入图像I，边界框值11189i−>jt−1不t−1我不我Bi和x作为SRG的表示x={xa ge，xgende r，xrelation， I|i= 1，2，…N，j=1，2，…N}关系，并将此集成消息作为输入。为了计算来自RshipGRU的激活，我们取fea-i ii−>j（三）来自MN的SN2子模块的真实向量RshipAttCNN作为初始状态并输入到Rship GRU。当其中，x年龄和x性别是人的年龄和性别属性，x关系是人i和j之间的社会关系，N是图像中的人的总数。我们必须找到x的最佳值，xmax=argmax Pr（x|第一、第二和第三章（4）当PPair GRU的状态被更新时，我们通过将节点状态信息包括到边状态信息中来更新Rship GRU的状态两个GRU中的每一个接收传入消息，其中，Pr（x|I，Bi）=X iYN YNPr（x年龄，x性别，x关系|I，Bi）我们使用标准的池化操作，即平均池化来连接这些消息均值池以更有意义的表示方式聚合消息，如第节所示5.2. PPair GRU接收[fi，fj]作为输入，其中，f和f是节点的属性特征（PPairAtti i i−>ji ji=1j =1（五）我们使用社会关系图生成的端到端网络来执行此推理，其中MN-CNN模块为SRG-IN模块中的节点和边提供初始输入。门控递归单元（GRU）是最可靠和轻量级的RNN内存单元。GRU使用i和j，并且[，]表示级联。先前的节点状态h n也使用[fi，f j]初始化，并使用x n作为输入将节点状态更新为h n。Rship GRU接收f i−>j作为输入x e，其中，fi−>j是来自MN-CNN模块的关系特征。使用f i->j初始化先前的边缘状态h e，并且边缘状态被更新为“均值池化”边缘状态hmpe，由下式给出：复位门和更新门，并具有保持MPEhe+hn来自先前激活的记忆允许它们长时间地记忆特征。让我们简单回顾一下功能--tt=t t2（十）一个单独的GRU细胞。复位门r被定义为：rt=σ（Wr. [ht−1，xt]）（6）其中σ是sigmoid函数，Wr是可学习的权重矩阵，ht−1是前一个隐藏状态，xt是GRU单元的输入，[，]表示连接。更新门z由下式给出：zt=σ（Wz. [ht−1，xt]）（7）存储器单元中的实际激活由下式给出：这将语义节点信息包含到边缘上下文，用于利用来自相邻节点和边缘的有意义的信息来更新边缘状态。在GRU的下一次迭代中，GRU的输入是来自前一个时间步的消息。更新后的边表示用于预测节点之间的关系。3.3. 多任务学习（MTL）框架在多任务学习中，我们同时学习多个任务，除了一个任务外，还有一些共享层其中，ht=（1−zt）ht−1 +zt 拉赫拉特（八）特定层。如果同一个数据集有多个用于学习的标签，就可以实现这一点。对于我们的问题，我们有四个任务标签（年龄，性别，领域和关系），ht=tanh（W xt+U（rtht−1））（9）都可以通过同一个网络学习。我们共同行动-通过合并单个损失来优化损失函数W和U是学习的权重矩阵，* 是元素乘法。根据经验评估[5]，复位门r位于前一个激活和下一个候选激活之间以忘记前一个状态，更新门z决定在更新单元状态时使用多少候选激活。我们的网络有两组GRU（关系（Rship）和人对（PPair））。GRU的初始状态可以设置为零或某个随机向量，并且单元的输入是特征或符号的序列。为了从PPair GRU计算激活，我们将来自MN-CNN模块的SN1子模块的特征向量PPairAtt作为初始状态并输入到PPair GRU。我们将来自两个节点（人）的特征与这四项任务的功能。我们将领域标签与关系标签一起学习，以便网络可以共享这两个任务之间的一些相关信息，以改善整体损失函数。例如，来自Rship GRU的输出用于预测域和关系标签，而来自MN-CNN模块的fc年龄和fc性别特征向量用于使用交叉熵损失函数分别预测年龄和性别属性标签。我们只考虑年龄和性别属性预测，因为数据集仅限于这两个属性。图2显示了我们如何将MTL框架纳入SRG-GN模型。111904. 实证评价4.1. 数据集准备PIPA关系数据集[24]有16个细粒度的关系类别1.我们将他们的数据集扩展为PIPA-关系图数据集。通过跟踪人体比例测量，我们将PIPA中人脸的地面实况标注扩展为完整的人体标注; 3 x面宽和6 x面高。这为我们提供了单体图像的地面实况注释。使用具有关系注释的人的边界框值从完整图像裁剪上下文图像。我们使用PIPA数据集上发布的属性注释中的两个属性（年龄和性别）构建PIPA关系图数据集[18]。训练/验证/测试集有6289个图像，13，672个关系和16，145个属性，270个图像有706个关系和753个属性，2649个图像，5075个关系和6655个属性。我们进一步验证了我们的模型在Li等人发布的大规模社会背景中的人（PISC）数据集上的性能[12]第10段。PISC数据集有22，670张图像，其中人对被注释为3种粗粒度关系（亲密，不亲密和无关系）和6种细粒度关系（商业，夫妇，家庭，朋友，专业和无关系）。训练集/验证集/测试集分别由16，828个图像和55，400个关系实例、500个图像和1，505个实例、1，250个图像和3，961个实例4.2. 基线PIPA关系数据集的比较模型：我们的基线是Sun等人在PIPA关系数据集上训练的两个端到端模型。[24]以及Xu等人提出的场景图生成的端到端模型。[28]as be-低：双流（DS）CaffeNet：在整个数据集上从头开始训练，对每个人的身体使用双流网络来预测它们之间的关系。在Imagenet上预训练的Finetuned模型：使用来自Imagenet预训练权重的conv层的固定权重，并微调PIPA关系数据集上的全连接层。原始-对偶图模型：在PIPA关系图数据集上训练原始-对偶图模型[28]。模型精度双流Caffenet Primal-Dual模型（我们训练的）在Imagenet34.40%44.91%46.20%我们的MN-CNN模块仅百分之四十九点七五我们的SRG-GN没有场景51.79%我们的SRG-GN（最终型号）53.56%表1：社会关系识别任务的准确性（PIPA关系图数据集上的SRRec）。机会水平准确度为6.25%（1/16）。配对-CNN +BBox+Union：Pair-CNN+BBox 与单个CNN，用于联合感兴趣区域特征。配对-CNN +BBox+Global：将CNN +BBox与整个图像作为上下文。配对-CNN +BBox+场景：将场景特征作为上下文的CNN +BBox对。双视：将Pair-CNN+BBox+Union与来自上下文信息的注意力相结合，以改进预测。4.3. 实现细节年龄、性别、服装和活动模型的预训练权重是公开的[24]。场景ConvNet架构的预训练权重来自Zhou等人发布的模型。[31]第30段。我们冻结所有层的权重，只微调MN-CNN模块的全连接层和GRU。两个GRU的输出都具有512的维度。softmax层计算年龄和性别属性、领域和关系标签的最终得分。在PISC数据集的情况下，我们只得到域和关系的分数，因为属性没有标签。作为MTL框架的一部分，我们对所有损失进行求和，并共同优化总加权损失-工作GRU的学习率为10−6 为了防止过度拟合，冰毒-采用了早期停止、丢弃和正则化等ODS。我们的模型使用Tensorflow [1]实现。4.4. 结果我们在PIPA-关系图数据集和PISC数据集上评估了我们的模型的性能。PIPA-关系图数据集还具有6个年龄标签（婴儿、儿童、年轻人、中年、老年人和未知）和2个性别标签（男性和女性）。PISC数据集的比较模型：我们将我们的模型与Li等人提出的模型进行比较。[12]第10段。[12]对基准模型的概述如下：配对-CNN +BBox：两个CNN用于每个裁剪的人图像，具有几何边界框特征。1父子、母子、祖孙、祖孙、朋友、兄弟姐妹、同学、爱人/配偶、主持人与观众、教师与学生、教练与学员、领导与下属、乐队成员、舞蹈队成员、运动队成员和同事4.4.1定量结果我们评估两种设置的模型：社会关系识别（SRRec）：为了评估这一点，我们只考虑人-关系-人的三重预测，并计算社会关系识别的准确性得分。社交关系图生成（SRGGen）：我们考虑两个三重预测（人-关系-11191NDS个人_1朋友朋友n_2佩尔索frie人物_3用预测关系注释的图像Ground-Truth社会关系图来自我们SRG-GN的社会关系图3：PIPA关系图数据集最终模型的示例社交关系图生成结果，以及与真实社交关系图的比较。每个人（蓝色椭圆）都有相关的年龄和性别属性（绿色椭圆），每对人之间的社会关系（橙色椭圆）。我们只想象具有相应的地面真相的关系。人;人-年龄-性别）来测量生成具有正确年龄和性别节点以及关系边的完整SRG的准确性。图的有向边取决于关系的方向，比如说，从父亲到孩子。对于像同事这样的双向关系，我们只显示一条边，以获得更好的可视化效果。我们报告了我们模型的不同变化的结果，并与基线进行了比较。仅我们的MN-CNN模块是我们的模型的变体，而没有GRU，通过使用级联的PPairAtt和RshipAtt作为关系和领域预测任务特定层的输入，并分别使用fcage和fcgender作为年龄和性别预测任务层的输入。我们的SRG-GN没有场景，是我们的最终模型，没有场景上下文特征fc场景，在RshipAtt中。我们的SRG-GN是最终模型，如图2所示。PIPA关系数据集上的结果：在表1中，我们提供了我们的第一个设置，SRRec的精度。我们的MN-CNN模块在社会关系识别任务中将微调模型提高了3.5%。这清楚地表明了使用语义属性、场景和活动特征超过在Imagenet上预训练的视觉特征的重要性。我们的最终模型SRG-GN的性能仅比MN-CNN高出3.81%，这解释了我们的消息传递方案生成社交关系图的能力。这种技术有助于从社交关系中的邻近节点和边缘图，从而得到更好的结果。SRG-GN的性能比原始-对偶图基线更好，因为后者使用视觉线索在多个对象类别之间交换信息来定位对象，这与我们的问题不同。表3显示了我们的模型在社交关系图生成SRGGen的第二个设置上的性能。我们使用最终模型实现了27.64%的准确率没有场景的Our SRG-GN的准确率比Our SRG-GN低7.4%，这从经验上证明了上下文信息在生成连贯的社交关系图中起着重要作用。PISC数据集上的结果：表4比较了在PISC数据集上评估的社会关系识别（SRRec）的平均精度。我们的最终模型具有平均池和2个时间步长，在PISC数据集上的性能明显优于最先进的模型，提高了8.5%。我们的最终模型在精度上仅比SRG略有提高-没有场景的GN模型。一个可能的原因是PISC数据集中的场景上下文具有与PIPA关系数据集中不同的关系的类似上下文信息。我们在表2中报告了6个关系标签中每一个的精度。我们的SRG-GN模型在精度上优于MN-CNN模型，适用于情侣和商业类。类朋友的精确度较低，表明其他类有时会被错误地归类为“朋友”。由于训练数据集的不平衡，我们在-PErson母子个人_1个人_1运动队人人朋友11192模型地图家庭几商业无关系专业朋友我们的MN-CNN模块仅60.275.057.162.559.980.626.0我们的SRG-GN没有场景69.280.077.788.861.781.824.5我们的SRG-GN（最终型号）71.680.0100.083.362.578.425.2表2：PISC数据集上6个关系标签的检测结果。模型精度我们的SRG-GN没有场景百分之二十点二四我们的SRG-GN（最终型号）27.64%表3：PIPA关系图数据集上的社会关系图生成（SRGGen）任务的准确性。机会水平准确度为0.52% =（1/16 * 1/6 * 1/2）图4：SRG-GN模型对PISC数据集的错误关系预测。黄色的关系是基本事实，红色的关系是错误的预测.只有在图像中标记为红色的关系才被我们的模型错误地预测。引入加权交叉熵损失对样本数较少的类进行惩罚;这显著地提高了性能。4.4.2定性结果社会关系图（SRG）是一个丰富的语义图的属性和关系信息的人在一个给定的场景。我们的SRG包含关于图像中对象的类和边界框标签的真实信息。通过我们的SRG-GN，我们预测给定场景中人们的社会关系，年龄和性别属性。图3显示了PIPA关系图数据集的定性结果在第一个例子中，SRG-GN正确地预测了给定人员之间的关系。如图所示，所有节点（人）之间都有表4：我们的模型。性别属性也对应于地面实况，但年龄属性被错误地预测为该模型正确地预测了更复杂的关系，如图5给出了PISC数据集上正确预测的示例。我们的模型预测图像中的多个关系实例，例如一组球员被正确地标记为图4显示了错误分类的关系的示例。例如，该模型错误地将左下角图像中的关系检测为“家庭”，而由于相邻节点和边缘的信息，他们更有可能是朋友。在某些情况下，由于这些类的相似的全局和场景上下文，在“专业”和“商业”之间存在模糊性5. 消融分析在本节中，我们将检查我们的SRG-GN模型变体在PIPA关系图数据集上的性能。5.1. 模型变化我们评估的重要性，场景上下文预测，ING在我们最终的图推理框架的关系。如第4.4节所示，添加场景上下文显著提高了SRRec和SRGGen任务的性能。直觉上，我们可以推断，场景信息在许多不同的情况下都很重要。例如，在一个聚会场景中，这群人更有可能是朋友而不是同事，一群在跑道上跑步的运动员更有可能是运动队成员而不是乐队成员。在图6（a）中，我们提出了朋友人无关系商业专业家庭朋友人朋友人专业人朋友人人人人模型地图配对-CNN +BBox百分之五十四点三对-CNN +BBox+Union56.9%对-CNN +BBox+Global百分之五十四点六对-CNN +BBox+场景百分之五十一点七tion人无关系体育对rson11193人aln同事人家庭专业专业的职业专业人士人人人家庭人家庭人无关系无关系人rson人职业体育人朋友商业人人图5：PISC数据集上最终模型的正确预测。(a). SRG-GN模型和无场景SRG-GN模型分别得到SRG结果人(b). SRG结果来自SRG-GN模型和仅MN-CNN模型人乐队成员乐队成员乐队成员人人人乐队成员乐队成员同事图6：PIPA-关系模型变化的定性分析。左边的结果来自我们的最终模型SRG-GN。右上角的结果来自没有场景的SRG-GN，而右下角的结果来自唯一的MN-CNN模型。一个突出使用整个图像场景上下文进行精确预测的重要性的例子。我们的SRG-GN没有场景错误地预测这两个人是运动队成员，但如果我们一起看整个场景，它会增加他们是同事而不是与运动有关的机会。如果没有场景背景，识别两个人之间的关系有时可能是模糊的。这清楚地解释了在SRG-IN模块中使用场景上下文作为重要功能的动机我们还研究了如何从唯一的MN-CNN模块中孤立地预测关系，其准确性低于具有SRG-IN模块的组合模型。例如，在舞台上表演的一群人很可能都是乐队成员，我们的模型利用这些信息进行整体推断，而唯一的MN- CNN模块独立地预测社交关系图中的三胞胎。在图6（b）中，我们的最终模型正确地预测了作为带成员的关系，这是由于来自图像中相邻关系组的消息信息。在没有该消息传递网络的情况下，MN-CNN模块仅考虑来自必须预先确定其之间的关系的一对人的池化#时间步长精度Max150.41%Max252.16%Max351.27%是说150.89%是说253.56%是说352.08%表5：PIPA关系图数据集上不同时间步长和合并技术的消融研究口述因此，SRG-IN模块使用来自图中的附近节点和边的上下文信息来改进个体预测。5.2. 合并和我们评估我们的SRG-GN模型的PIPA关系与不同数量的时间步长和池化技术。从表5中可以看出，均值合并是在隐藏状态之间传递有用信息方面比最大池化更有效。此外，随着时间步长的增加，准确性会降低1.5%，因为它开始在具有更多错误的状态之间传递噪声信息。社交关系图中的检测。6. 结论我们介绍了一种新型的端到端可训练网络，用于使用GRU从图像生成社交关系图。以前生成图的工作处理对象之间的关系，而我们的工作处理更具挑战性的推断社会关系的问题。实验结果表明，在图中使用属性和上下文特征与消息传递的重要性。我们的模型在识别社会关系方面优于最先进的技术，并且在生成社会关系图方面表现良好。这项工作可以扩展到更复杂的任务，例如预测社会意图。确认这项工作得到了NRF赠款的支持。NRF 2015-NRF-ISF 001-2541（KTM和CT）和A*STAR SERC SSF授权编号A1718 g0048（AG和KTM）。运动队人人11194引用[1] Mart´ın Abadi ， Paul Barham ， Jianmin Chen ， ZhifengChen ， Andy Davis ， Jeffrey Dean ， Matthieu Devin ，Sanjay Ghe-mawat，Geoffrey Irving，Michael Isard，et al.Tensorflow：一个大规模机器学习系统。在OSDI，第16卷，第265-283页[2] Peter Anderson， Basura Fernando ， Mark Johnson ，andStephen Gould. Spice：语义命题图像帽评估。在ECCV，第382-398页[3] 达芙妮·布朗特·布真塔尔获取社会生活的算法：基于域的方法。Psychological Bulletin，126（2）：187-219，2000.[4] Ishani Chakraborty，Hui Cheng，and Omar Javed. 3D可视化：从单个图像识别3d中的人类交互。In Proceedingsof the IEEE Conference计算机视觉和模式识别，第3406- 3413页，2013年。[5] Junyoung Chung，Caglar Gulcehre，Kyunghyun Cho，andYoshua Bengio.门控递归神经网络对序列建模的经验评估。在NIPS 2014深度学习研讨会，2014年12月，2014年。[6] Ruogu Fang，Kevin D Tang，Noah Snavely，and TsuhanChen. 亲属关系验证的计算模型第17届IEEE图像处理国际会议（ICIP），2010年，第1577-1580页。IEEE ，2010。[7] Yuan Fang，Kingsley Kuan，Jie Lin，Cheston Tan，andVijay Jumrasekhar.对象检测符合知识图谱。第26届国际人工智能，第1661-1667页。AAAI Press，2017.[8] 克里斯·弗里斯面部表情在社会交往中的作用。伦敦皇家学会哲学汇刊B版：Biological sciences，364（1535）：3453 -3458，2009.[9] Roei Herzig、Moshiko Raboh、Gal Chechik、Jonathan Berant和Amir Globerson。用置换不变结构化预测将图像映射到场景图。In S.本吉奥，H。Wallach，H.拉罗谢尔湾格劳曼Cesa-Bianchi和R. Garnett，编辑，神经信息处理系统进展31，第7211-7221页[10] Justin Johnson ， Ranjay Krishna ， Michael Stark， Li-JiaLi，David Shamma，Michael Bernstein，and Li Fei-Fei.使用场景图的图像检索。在IEEE计算机视觉和模式识别会议（CVPR），第3668-3678页，2015年6月。[11] Ranjay Krishna ， Yuke Zhu ， Oliver Groth ， JustinJohnson，Kenji Hata，Joshua Kravitz，Stephanie Chen，Yannis Kalantidis，Li-Jia Li，David A Shamma，et al.可视化基因组：使用众包密集图像注释连接语言和视觉。International Journal of Computer Vision，123（1）：32-73，2017.[12] 李俊南，黄永康，赵奇，和莫汉·S·康康-哈利.解读社会关系的双视模型。在IEEE计算机视觉和模式识别会议论文集，第2650-2659页[13] 李益康，欧阳万里，周波磊，王坤，王晓刚.从对象、短语和区域字幕生成场景图。2017年IEEE计算机视觉国际会议（ICCV），第1270-1279页[14] Yujia Li ， Richard Zemel ， Marc Brockschmidt ， andDaniel Tarlow.门控图序列神经网络国际学习代表会议（ICLR），2016年。[15] 卢策武，兰杰·克里希纳，迈克尔·伯恩斯坦，李菲菲.具有语言先验的视觉关系检测。欧洲计算机视觉会议，第852-869页。施普林格，2016年。[16] Jinna Lv，Wu Liu，Lili Zhou，Bin Wu，and Huadong Ma.视频中社会关系识别的多流融合模型。 KlausSchoeffmann ， Thanarat H. 放大图片作者： Chalid-abhongse，Chong Wah Ngo，Supavadee Aramvith，NoelE. O’Connor, Yo-Sung Ho, Moncef Gabbouj, and AhmedEl- gammal, editors, 施普林格国际出版社.[17] Kenneth Marino ， Ruslan Salakhutdinov ， and AbhinavGupta.你知道的越多：使用知识图进行图像分类。2017年IEEE计算机视觉和模式识别会议（CVPR），第20-28页。IEEE，2017年。[18] 吴成俊，罗德里戈·贝嫩森，马里奥·弗里茨和伯恩特·席勒。个人照片集中的人物识别。2015年IEEE计算机视觉国际会议（ICCV），第3862-3870页[19] Vignesh Ramanathan，Bangpeng Yao，and Li Fei-Fei.社会角色发现。在IEEE计算机视觉和模式识别会议论文集，第2475-2482页[20] Joseph Peter Robinson ，Ming Shao， Yue Wu ，HongfuLiu，Timothy Gillis，and Yun Fu.野外家庭的视觉亲属识别。 IEEE Transactions on Pattern Analysis and MachineIntelligence，第2624-2637页[21] Franco Scarselli、Marco Gori、Ah Chung Tsoi、MarkusHa-genbuchner和Gabriele Monfardini。图神经网络模型。IEEE Transactions on Neural Networks， 20（ 1 ）：61-80，2009.[22] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。ICLR，2015年。[23] 艾略特·R·史密斯和杰米·德科斯特。社会和认知心理学中的双过程模型：概念整合和与底层记忆系统的联系。Personality and Social Psychology Review，4（2）：108[24] 孙倩茹，Bernt Schiele，Mario Fritz。基于领域的社会关系识别方法。2017年IEEE计算机视觉和模式识别会议（CVPR），第435-444页，2017年。[25] Damien Teney，Lingqiao Liu，and Anton van den Hengel.图形结构表示的可视化问题回答。2017年IEEE计算机视觉和模式识别会议（CVPR），第3233-3241页。IEEE，2017年。[26] 王刚，安德鲁·加拉格尔，罗杰波，大卫·福赛斯。在社会背景下看人：认识人和社会关系。欧洲计算机视觉会议，第169-182页。施普林格，2010年。[27] Zhouxia Wang ， Tianshui Chen ， Jimmy Ren ， WeihaoYu，Hui Cheng，and Liang Lin.用知识进行11195社会关系理解图。第27届国际人工智能联合会议论文集，第1021-1028页。AAAI Press，2018.[28] Danfei Xu，Yuke Zhu，Christopher Bongsoo Choy，andLi Fei-Fei.通过迭代消息传递生成场景图。第3097-3106页[29] Rowan Zellers 、 Mark Yatskar 、 Sam Thomson 和 YejinChoi。神经基序：场景图解析与全球上下文。在IEEE计算机视觉和模式识别会议论文集，第5831-5840页[30] Zhanpeng Zhang ， Ping Luo ， Chen-Change Loy ， andXiaoou Tang.从人脸图像中学习社会关系特征。在IEEEInternationalConferenceonComputerVision的Proceedings，第3631-3639页[31] Bolei Zhou，Agata Lapedriza

下载后可阅读完整内容，剩余1页未读，立即下载