基于领域的社会关系识别研究及其发现

62 浏览量更新于2023-10-16 收藏 1.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1附件（d0）互惠（d1）交配（d2）基于领域的社会关系识别方法孙倩茹Bernt Schiele Mario Fritz马克斯·普朗克信息学研究所萨尔信息学校区{qsun，mfiele，mfritz}@ mpi-inf.mpg.de父子母子祖孙朋友兄弟姐妹同学情人/配偶（r0）（r1）(r2)（r3）（r4）（r5）（r6）（r7）分级功效（d3）联盟团体（d4）主持人师生培训师领导乐队成员舞蹈队成员运动队成员同事（r8）（r9）（r10）（r11）（r12）(r13)（r14）（r15）图1：我们调查了基于领域的方法中社会关系的识别。我们的研究是基于Burgental摘要社会关系是人类日常生活的基础。开发从视觉数据中分析这种关系的技术具有巨大的潜力，可以建造更好地理解我们并能够在社会层面与我们互动的机器。由于社会关系的多样性和复杂性，以往的研究都是片面的在本文中，我们认为，从社会心理学领域为基础的理论是一个伟大的起点，系统地探讨这一问题。该理论提供了社会关系的所有方面的覆盖，并且同样是关于定义每个领域中包括的关系的视觉属性和行为的具体和预测我们提供了第一个建立在社会生活整体概念化基础上的数据集，该数据集由社会领域和社会关系的分层标签空间组成我们还贡献了第一个模型来识别这样的域和关系，并找到基于属性的功能优越的性能。除了基于属性的方法令人鼓舞的表现，我们还发现了与社会心理学文献预测一致的可解释特征除了我们的发现，我们相信我们的贡献更紧密地交织在视觉识别上，和社会心理学理论，有可能用社会生活的经验和数据驱动模型来补充该领域的理论工作1. 介绍今天，我们的社交生活的主要部分是通过社交媒体捕获的当我们通过多模式渠道（如 Facebook 或Twitter）进行沟通时，我们会留下痕迹，这些痕迹显式或隐式地捕捉文本、博客、图像和视频中的社会关系[4]。随着我们接近未来，智能和潜在的自主系统成为我们的助手和同事，我们不仅希望它们能够胜任自己的任务，而且还希望它们能够融入我们人类生活的不同情况并采取适当的行动此外，通过更好地了解这些隐藏的信息，我们希望告知用户潜在的隐私风险。这两项任务都需要社会生活的概念化和模型，这些概念化和模型覆盖了社会生活的各个方面，并有助于从感官输入中建立计算模型虽然已经为解决这一具有挑战性的问题作出了初步努力，但社会生活的多样性和复杂性阻碍了进展大部分-34813482第十，识别社会关系的计算模型仅限于少数特定定义的类。因此，本文从社会心理学文献出发，确定了一种人类社会生活的概念化，这种概念化是整体的，从而涵盖了人际互动的所有方面，但同时又是具体和具体的，以便在这种理论基础上建立一个计算模型我们认为，建立在Bugental基于这些社会领域，我们得出了16个社会关系的列表。社会生活的这种概念化在图1中用具体的照片示例来说明。为了研究社会领域和社会关系，我们建立了一个数据集，基于这个领域为基础的理论。我们通过26，915个人对注释扩展了名为相册中的人物（PIPA）[36]标签空间是分层的，通过分配将数据划分为5个域类的社交域标签，以及为两个人似乎处于的特定关系分配标签最后，我们建立了第一个基于该理论的计算模型，从图像数据中预测社会领域和关系我们分析了完全数据驱动的模型以及基于语义属性的模型，其属性是基于域的理论。在实验中，我们发现，这些语义属性在我们的数据集中表现最好，此外还导致社会生活的经验发现的概念的可解释性。重要的是，我们的经验模型与基于域的理论的预测相关。我们的贡献是三方面的：（1）我们将社会领域理论作为基于计算机视觉的社会关系分析的框架;（2）通过使用关系和领域标签注释大规模Flickr照片数据集，我们提供了比以前工作更全面的数据集;（3）我们根据社会心理学研究[ 1 ]从人体和头部图像中收集语义属性。.对属性重要性进行了深入的分析，以弥合社会心理学理论和我们的计算模型之间的差距。2. 相关作品社会关系是社会网络研究的重要组成部分[4，12，13]。本节重点介绍计算机视觉的相关工作，下一节概述心理学文献中的不同理论。亲属关系确认。家庭成员关系是人类最基本的社会关系。有大量关于家庭成员识别和亲属关系验证的研究[24，25，26，27，28，29、30、31、32]。这些作品大多关注家庭关系：夫妻，父母，子女，兄弟姐妹，祖父母，孙子。研究人员利用某些在这些关系中表现出的视觉模式。例如，对于夫妻关系中的两个人来说，丈夫不仅位置信息，而且面部外观、特征和地标也是验证家庭成员的基本特征。Dehghan等人 [31]学习最佳面部特征，以回答“后代像父母吗？“. Singla等人[25]提出一些与属性有关假设，例如，两个年龄相仿、性别相反的人一起出现是配偶。根据[1]的社会域定义，成年人与子女之间的家庭关系属于依恋域，年龄、性别和情感等属性范畴是依恋域的手足关系属于互惠域，它比依恋域更具有功能和外观上的平等性。这也与兄弟姐妹的视觉模式一致。在事件中的社会角色识别。在社会事件中，参与者之间存在着直接的社会角色和内在的关系。“社会角色”的概念在例如，在一个孩子的生日聚会上，社会角色是生日的孩子，父母，朋友和客人[14]。我们关注的不是例如，如果“领导和下属”被确认，那么很容易将领导的社会角色定义为经理/老板，这比“聚会中的客人”要永久得多。更重要的是，我们对社会关系的定义是基于心理学研究，这些研究表明人们在漫长的一生中有着广泛的社会范围社会分类与职业认同。社会生活赋予人们各种各样的社会面貌。一些研究集中在日常生活中的城市部落[18]、维基百科定义的社会类别[19，20]以及大多源于社交网络的“萝莉”、“Syota”和“女神”等流行群体这些细粒度的分类使用身体/面部位置和属性，例如年龄、面部外观、发型、服装风格等。职业识别研究[22，23]不仅使用个人属性，而且还在语义水平上利用上下文信息，例如，在餐馆中，服务员更可能站在坐着的消费者旁边。关系预测。社会关系不同于“主谓宾”的直观关系一个相关的主题是基于互动姿势的亲密度预测[10，11]。在文献[10]中，提出了结合相对距离、倾斜方向和方位的人体姿态另一个有趣的工作是通过面孔进行关系特质估计[39]。它预测了面孔意象中的“热情”、“友好”和“支配”等关系特征。我们的工作是不同的，我们的目标是做关系分类和分析3483社会领域涵盖人们第三部分介绍了社会3. 社会心理学理论人们根据他们与他人的关系来组织他们的社会生活[3]。传统的观点认为，社会化包括个人由于社会情况的多样性，几乎不可能定义一个完整的社会关系列表。我们研究社会心理学理论，以确定一个理论，即：（1）提供了对我们社会生活的广泛覆盖，（2）足够具体以允许导出相关的社会关系，以及（3）适合于图像和视频中的计算建模和识别。在对相关理论进行回顾之后，我们认为Bugental3.1. 社会领域理论[1]社会领域理论[1]将社会生活划分为5个社会领域，并认为这些领域涵盖了我们社会互动的所有相关此外，这些领域体现在具体的社会行为中，可以从视觉数据中识别出来。Bugental [1]为每个领域提供了全面的定义，包括对外观和行为等社交线索的解释并提出具体的、示例性的社会关系来说明每个域的高层概念.虽然期望可以给出一个域中所有社会关系的全面列表是不切实际的，但域划分及其明确的定义可以作为从我们的数据集导出社会关系的基础（见第4.1节）。具体而言，域定义和针对社会关系给出的一些示例如下：附着结构域，其特征是在保护性关系中保持邻近，例如，父母和子女之间的亲属关系人类属性，如年龄差异，接近和寻求保护的活动是社会线索，可以视觉识别。互惠领域，以人与人之间功能平等的利益匹配谈判为特征。其主要特征是在长期的会计处理过程中相互匹配和互利的互动，这在朋友和兄弟姐妹之间是相当普遍的。通常，同龄人之间的年龄差异很小，这是一个重要的语义属性。此外，在这一领域中还经常出现“聚集”和“分享”等相互活动积极效果的顺序交换是另一个因素，这在图像中很难预测，但在使用视频时可能很有用。交配领域，与选择和保护接近性伴侣有关，情人之间的关系。性别线索和养育后代的行为线索在这一领域是必不可少的Bugental还强调了未来伴侣的面部吸引力，这表明面部和很可能还有全身的外观是重要的线索。等级权力领域，以使用或表达社会支配地位为特征。支配地位出现在资源提供和威胁活动中。具体的例子是领导者、有权势的同龄人和教师。另一方面，像“倾听”和“同意”这样的顺从行为联盟团体领域，涉及到区分“我们”和“他们”的界限的识别。重点是分组和一致性线索，范围从同事在工作中，超过运动队成员乐队成员。联盟团体成员通常穿着相似或相同的衣服，并进行联合活动。3.2. 相关理论为了完整起见，我们按出现的时间顺序简要讨论了几种相关的社会心理学理论(1) 帕森社会关系的一般范畴、个人范畴、一般行为和个人行为。(2) 麦克莱蒙和梅西克[9]研究了个人主义，提出了六个动机：利他主义、合作主义、个人主义、竞争和侵略。(3)米尔斯和克拉克(4)Foa和Foa(5)费斯克的关系模型理论[ 3 ]认为，关系可以分为四个部分：公共共享、权威排名、平等匹配和市场定价。理论（1）-（3）在社会心理学领域是相当抽象和理论化的，因此对于我们在计算机视觉中的目的来说不够具体理论（4）考虑的是具体的社会资源，但很难从视觉数据中推断出来。理论（5）类似于布根塔尔此外，Bugental[1]的表1），这有助于为他的理论设计计算模型。4. 社会领域和关系数据集为了研究社会领域和关系，我们从PIPA数据集开始[36]。下面讨论数据集，我们如何导出注释的社会关系，并介绍注释过程本身。3484(a)（b）agr= 3（c）agr= 1（d）agr= 2祖孙俩√√√同事们 √ √√领导-下属关系 √朋友们√√同学们√ √同事们朋友们培训-受训人员领导-下属关系同事们 √图2：不同协议（agr）的照片样本。虚线框中的注释者是一致的。(a)很明显是一张全家福，里面有祖孙俩。在（b）中，第四个注释者给同事投票，但不计入同意，因为同意意味着注释者的投票完全相同。（c）（d）包含模糊的社会关系，因此导致非常低的一致性。PIPA数据集。PIPA数据集是从Flickr相册中收集的，用于人员识别任务[36]。Flickr上的照片涵盖了广泛的社会情境，因此是我们研究的一个很好的起点。PIPA包含37，107张照片，63，188个实例，2，356个身份。对于每个注释的人，头部边界框和身份ID是可用的。同一个人经常出现在不同的社交场景中，与不同的人互动，这使其成为我们的理想目标。身份信息用于选择人员对和定义训练-验证-测试拆分（参见第6.1节）。4.1. 社会关系标签如前所述，社会领域理论是一个很好的基础，以获得社会关系的注释。虽然域被精确地描述了，但我们仍然必须获得一组关系标签。我们分三步进行。(1) 在[1]中。针对不同域列出了12个示例性社会关系。我们把这些作为一个起点。(2) 由于这个列表不可能涵盖PIPA中的所有社会关系，我们从PIPA的预注释阶段开始，覆盖10%的数据。在此预注释阶段，我们识别尚未涵盖的社会关系，并使用FrameNet [35]命名关系，并使用详细的社会领域描述将社会关系与其领域相关联。这将关系标签的数量从12个增加到20个。(3) 最后，我们要求五个注释者使用20个关系的派生列表来注释所有PIPA。注释过程结束后，我们分析统计数据，发现4例关系的发生率不足（≤20）或一致性不足。这导致了我们最终的16个关系列表如“母子”关系4.2. 注释过程注释器。对社会关系的注释可能是主观的和模糊的。一个原因是，一对人可能有多个合理的关系，如图2所示。一个-另一个原因是，根据注释者的文化背景，对同一社会关系的定义我们从亚洲、非洲、欧洲和美洲选出了五位注释者，并给他们详细的解释和照片示例，以帮助他们保持基本的一致性（在补充文件中给出）。注释方案。注释者被要求单独注释所有的人对，我们目前对头部边界框。对于每一对，注释者可以从列表中选择一个关系，或者如果它们太不确定，可以跳过这一对。例如，两个穿着制服并在工厂工作的人应该被标记为如果注释者不确定，则要求他们通过单击该关系的“maybe”来指示这一点基于我们的预注释阶段，我们允许每个人对最多3个关系标签，这也通过以下统计数据来证明：92.3%的人对有1个关系注释，7.5%有2个关系注释，只有0.3%有3个关系注释。4.3. 标签统计在注释过程之后，我们有26，915个人对被五个注释者注释。考虑到每个注释器每对最多可以给出3个标签或跳过一对，我们得到了总共134，556个注释。对于大约8%的注释，注释者选择鉴于这只是数据的一小部分，我们将其纳入以下统计数据中。如前所述，使用单个图像对社会关系的注释可能是模糊和主观的。有趣的是，对于53%的人对，在注释者之间最多选择一个关系对于38.8%的对，两个关系，7.4%的三个关系，只有0.8%的四个关系是跨注释器选择的。图2（b）（c）（d）中显示了选择多个注释的三个示例。对于（d）中的图像，有四个注释，它们都是合理的：这两个人可能是朋友，同事，在一个领导下属关系，348530000250002000015000100005000099.2%百分之九十三点二百分之八十二点六值累加值61.9%42.0%20.7%19.9%6.1%百分之十点六百分之零点八1 2 3 4 5跳过AGR[44 ]第44话。为了进行识别，将一对头部或身体区域输入到模型中（参见图5）。我们用两种类型的模型进行实验：第一类模型是端到端训练的CNN模型;第二类训练CNN模型的语义属性来自社会领域理论，然后使用连接的功能来学习线性SVM。5.1. 端到端模型图3：根据协议（agr）的人对计数。“Skipped”本文使用 agr≥3 的注释，即，有用的注释占所有人对的82.6%。或者是培训师和受训者之间的关系。然而，这种高度模糊的情况在我们的数据集中并不像人们预期的那样突出，并且对于大量的人对，最多选择两个关系，这表明视觉识别方法确实是可行的。4.4. 一致性分析我们定义一致性∈[1，5]为5个注释者之间完全一致的水平（agr）例如，一致性=3意味着agr≥3，至少有3个注释者给一个人对提供了完全相同的标签例如，见图-图2从左到右：由于所有注释者只给出一个相同的标签，所以第一图像具有agr=5;第二图像仅具有agr=3，因为第四注释者不仅给出同事关系，而且给出第二关系，因此与前三个注释者不完全一致;第三和第四图像对应于agr=1和agr=2。应注意，agr=1是最低可能值，因为每个注释者总是与自己完全一致。图3显示了我们数据集的一致性统计数据甚至尽管我们需要如上所述的完全一致，但对于我们的人对中的42%，agr=5。这强化了注释比人们预期的更少歧义的观点。在19.9%的病例中，agr=4，在20.7%的病例中，案件数agr=3。鉴于这些令人鼓舞的一致性水平，我们决定使用agr≥3的注释作为基础事实。在下文中，我们将其称为一致性=3，对应于82。6%的注释。在图4中，我们显示了照片的所有数字，关系，人对，社会关系和领域的一致性。由于每个关系都恰好在一个域中，因此域样本是其关系的总和。5. 建模社会领域和关系为了对语义头部/身体属性进行建模，我们基于PIPA 的 groundtruth 标注选择了两个图像区域：与groundtruth标注对应的头部区域和身体区域，定义为3×头部宽度，6×头部为了对成对关系进行建模，我们引入了双流CaffeNet，它可以从图像对学习到5个域类或16个关系类的端到端映射。这种双流模型类似于基于LeNet [43]的多区域CNN [37]。也可以考虑其他类似的模型，例如用于面部建模的Siamese-like架构[41，38，39]和用于人员识别的多通道CNN [40]。双流CaffeNet架构如图5所示。每个流都有CONV层，如CaffeNet [42]。在5个CONV层之后，特征被连接成一个向量，该向量被馈送到fc6层。在fc7层之后，我们添加了一个fc8来预测5个域或16个关系。该模型用于计算基线识别结果。同样的模型可以用来预测语义属性。这种属性适应方法涉及社会心理学文章[1]中提到的社会线索，如年龄，情感和接近度。5.2. 语义属性我们提出的第二类模型首先预测中间语义属性表示，并使用该中间表示来预测社会领域和关系。我们认为，有三个优势使这种代表性具有吸引力。首先，语义属性有助于解释性。第二，相关的语义属性可以从社会领域理论中推导出来，因此可以被视为推导计算模型的一种方式，而计算模型又可以与社会领域理论联系起来第三，语义属性允许利用用这样的属性注释的其他数据集，我们认为这些属性是至关重要的，因为期望大量的训练数据来识别细粒度的社会关系似乎是虚幻的首先，我们收集了社会领域定义中提到的语义头/身属性类别[1]。例如，在依恋域中，母亲和她的孩子具有大的年龄差和一些接近度差异，因此，年龄和接近度被包括在内。然后，对于每个属性类别，我们要么利用现有的数据集使用我们的双流Caf- feNet（默认）来训练属性分类器，要么使用在以前的作品中发布的预训练模型[10，47]。以下列出了使用的所有属性年龄婴儿，儿童，青年，中年，老年，未知[44]在PIPA中注释此外，我们还添加了小-人偶3486100000100001000100101图4：每个社会关系（r*）和域（d*）中的人对计数，一致性∈[1，5]。我们还列出了照片，身份和人对的总数。一致性=3的人对（即，agr≥3）。头部区域（带注释）主体区域（3*6* 头部区域）特征我们使用已发表的多任务RNN模型[10]，该模型在10，000张图像上进行了训练。我们先提取PIPA的特征来自其fconv9 层，该层是包含338个特征图的338x50x50特征张量。为了减少特征维数，我们使用了一个最大池操作符（选择最重要的特征），图5：双流CaffeNet的架构，用于建模社会关系和领域。CONV层与CaffeNet中的层相同[42]。头部图像对或身体图像对被馈送到网络中CONV层的权重是针对双流独立训练的年龄差异，中等差异，大差异，因为年龄差异对于区分社会关系很重要[1]。我们使用头部年龄和身体年龄分别在PIPA图像的头部和身体区域上训练。男，女，我们添加sameGender，diffGender。与年龄情况相同，我们使用头部性别和身体性别。位置量表直接从PIPA中的一对人的头/身体区域收集。它由 4 维位置坐标（ x ， y ， width ， height ），relativeDistance （ far ， close ）和 relativeSizeRatio（large，small）组成。头部外形有直发、波浪发、戴耳环、戴帽子等40类。这个属性模型是在CelebA数据集上训练的[46]，该数据集包含10，177个身份的202，599张头部照片。头部姿势，面部表情。姿势是正面，左，右，上和下。情绪包括愤怒、快乐、悲伤、惊讶、恐惧、厌恶和中性.这两个模型都是在IMFDB数据集上训练的[48]，该数据集包含从电影中收集的34，512个头部图像。服装长发，眼镜，帽子，T恤，短裤，牛仔裤，长裤和长袖 . 我们在包含 8 ， 035 个身体图像的 BerkeleyPeopleAttribute数据集[45]上学习模型，然后使用身体区域提取PIPA中的特征。此外，我们利用已发表的接近度[10]和活动[47]模型来提取身体特征。近距离保持从后面，保持手，高五，拥抱，手臂肩膀上，肩膀到肩膀和手臂在-通道轴，并将特征展平为2500个维度。活动504活动，如调整，生病，拥抱，安排，攻击，气球，洗礼等。我们使用已发布的CNN-CRF模型，该模型在126，102张图像的数据集上进行了训练[47]。我们提取的特征PIPA的fc7层，这是一个1024-dim的特征向量。6. 实验我们的实验分析了三个方面。第一组实验将端到端训练与所提出的此外，由于在一个域中拥有所有关系的综合数据集是虚幻的，我们还分析了在leave-one-relation-out设置中测量域生成性能的域识别。最后，我们给我们的语义属性模型的见解，特别是在光的社会领域理论，我们的调查基础。6.1. 数据分片我们介绍了两种数据分裂方法。所有类别（AC）分割用于传统识别，其中训练数据覆盖所有类别的社会关系（或域）。单关系（Single-relation，SR）算法每次分裂时将一个关系的数据留在训练之外，然后预测这些数据的领域标签我们的目标是评估模型的能力，在一个社会领域内，概括看不见的关系类。所有类（AC）分裂。我们保持PIPA数据集的测试分裂不变。对于训练集和验证集，关系类存在很强的数据不平衡问题，如PIPA它最初被用于身份识别[36]。为了解决这个问题，我们采取了三个步骤：（1）合并原始训练集和验证集;（2）使用来自8个随机相册的人对构建新的验证集;（3）使用一致性=1一致性=2一致性=3一致性=4一致性=5Concatenate4096级4096级或FC FC足球俱乐部CaffeNetCONV层CaffeNetCONV层社会关系或社会领域数量3487其余数据用于训练。总之，训练集中有13，729对人，验证中有709对，测试中有5，106对。单一关系（SR）分裂。为了测试域的一般化，每次我们选择一个关系进行测试，并通过平均身份将其他数据（15个关系）随机划分为10个文件夹。一个文件夹用于验证，还有一些是训练用的请注意，（1）当其中一个身份在训练集中有样本，同时另一个身份在验证集中有样本时，我们丢弃一个对;（2）当将情人/配偶排除在外时，没有因此，情人/配偶数据总是在火车上。最后，我们有15组训练-验证-测试分裂，因此我们运行模型15个epoch以获得测试结果。6.2. 识别据我们所知，这是第一个识别社会领域和测试跨关系领域泛化的工作。两者都是具有挑战性的问题。社会领域的数据由于包含多种关系，具有很大的内部变异性泛化测试更具挑战性，因为它是预测一个看不见的关系类的域。这对于验证社会领域理论是否能够涵盖其所有关系，以及我们的模型在多大程度上实现了对社会领域的覆盖是困难的，但却是非常必要的。为了评估基于语义属性的模型，我们有5个设置，如表1所示：（1）端到端双流CaffeNet（默认）从头开始训练;（2）在ImageNet中预训练的端到端微调模型;（3）利用ImageNet预训练模型提取fc 7层的特征，然后训练线性SVM;（4）用微调模型替换设置（3）中的预训练模型;（5）对属性微调模型提取的特征进行组合，训练线性支持向量机。在设置（5）中，我们测试头部特征、身体特征以及两者的连接。只不过，初步学习率10−4用于scratch，10−5用于其他固定。每次我们运行30个epoch的训练样本。模型关系DOMAIN全球化E ND-TO-END 划痕百分之三十四点四41.9%–E ND-TO-END调优百分之四十六点二59.0%百分之十八点五PRE-TRAINED，SVM35.9%百分之五十三点三百分之二十七点七函数调谐，SVM48.6%百分之六十三点二27.1%H EAD 属性，SVM百分之四十四点八59.4%百分之二十一点五BODY 属性，SVM百分之五十七点二67.7%百分之三十二点八的LL 属性，SVM百分之五十七点二百分之六十七点八33.3%表1：关系/域识别（AC分裂）和域泛化（SR分裂）的准确性。“端到端微调”获得超过10%的改进，比“划痕”的每一个识别。然而，1数据集和训练模型可以在我们的项目页面下载：www.mpi-inf.mpg.de/social-relation在较难的泛化测试任务中（最后一列），因为18.5%的概率水平大约为20%。使用基于语义属性的模型，我们得到了最高的14.8%的改善，在在识别任务中，我们的最好成绩分别为57.2%和67.8%，比最好的基线分别高出8.6%和4.6%。一方面，识别关系要困难得多，因为类的数量比域大（16对16）。（五）。我们的属性模型获得了更大的改进，这个更难的任务。另一方面，由于领域的内部方差远大于关系的内部方差，因此，再识别关系和领域之间的差距特别是，最难认识的领域是神权.师生我们可以从这些改进中得出结论，社会心理学研究中提出的语义属性对建模高级社会概念非常有帮助，尽管有一半的属性模型是在其他数据集上训练的。在下一节中，我们将进一步分析我们的属性模型，以深入了解特定属性的贡献。6.3. 语义属性首先，我们比较了每个属性类别对整体绩效的贡献。然后，我们提出了定性的例子来了解哪些细节属性有助于提高识别。属性类别。在图6中，我们展示了每个单一属性类别的相对识别贡献，域模型以身体年龄为例，其X-Y坐标计算如下：（1）我们只使用一个功能：来训练模型bodyAge;（2）分别对关系和域进行性能评估，记为acc （ bodyAge ， relation ）和 acc （ bodyAge ，domain）。使用所有属性的准确度，表1中为52.7%和67.8%，表示为acc（all，relation）和acc（all，domain）;（3）acc（bodyAge，domain）/acc（all，dom-main）和acc（bodyAge，relation）/acc（all，relation）的归一化结果分别用作X、Y坐标。总的来说，我们可以在图6中观察到大多数属性都在对角线下方。这表明属性的相对的、我们的结论是，目前需要更多的属性的关系分类，因为它是一个更挑战性的任务，由于更多的类和更细的粒度。在属性贡献方面，活动和布料都排在关系和领域的前2位（右上角）。这与我们在第3.1节中对社会领域的解释是一致的，即社会关系通过外表来调节我们的行为和例如，联盟团体中的乐队成员和舞蹈队成员共用相似或相同的衣服-3488(a)父子(b)兄弟姐妹(c)乐队成员(d)同事所有属性：父子所有属性：兄弟姐妹所有属性：乐队成员所有属性：同事活动：父子服装：父亲-孩子身体性别：朋友Headage：(e)祖孙活动：兄弟姐妹服装：兄弟姐妹活动：乐队成员服装：乐队成员身体性别：同事身体性别：乐队成员年龄：同事年龄：同事(f)朋友(g)情人/配偶活动：同事服装：同事身体性别：同事头部年龄：同事(h)同事所有属性：grandm。活动：奶奶。衣服：奶奶。身体性别：奶奶。头部年龄：奶奶。所有属性：所有属性：情人/配偶活动：朋友活动：恋人/配偶服装：朋友服装：同事身体性别：朋友身体性别：爱人/配偶头部年龄：朋友头部年龄：爱人/配偶所有属性：同事活动：同事服装：colleagues身体性别：colleagues头部年龄：朋友10.90.80.70.60.50.4vity0.5 0.6 0.7 0.8 0.9 1领域识别贡献图6：来自12个属性的标准化贡献。在特定关系层次和共享域层次上进行联合活动。虽然这两个属性模型是从其他属性模型转移过来的（i）祖孙（j）朋友（k）爱人/配偶（l）同事数据集[47，45]，他们仍然比年龄所有属性：朋友所有属性：所有属性：朋友所有属性：朋友和性别，这是在PIPA数据集上学习的这反映了我们的计算模型成功地将如此-活动：朋友服装：朋友身体性别：奶奶。头部年龄：奶奶。活动：朋友服装：情侣/配偶身体性别：朋友头部年龄：同事活动：朋友服装：朋友身体性别：恋人/配偶头部年龄：同事活动：朋友服装：同事身体性别：朋友头部年龄：同事从社会心理学研究到视觉数据。在第三和第四贡献者年龄和性别方面，我们可以看到身体性别和头部年龄相对重要。这是合理的，在交配域和依恋域的社会心理学定义中，年龄和年龄差异、性别和性别差异是主导特征。另一个迹象是，年龄在头部图像中更好地学习，性别在身体图像中更好地学习。详细信息属性。为了弄清楚有助于社会关系识别的详细属性，我们在图7中展示了一些正面和负面的示例。全属性模型（我们最好的）和前4个单属性模型（在图6中排名）列在图像下面。在实证研究中，（d）、（e）、（f）分别被全属性模型和4个单属性模型正确预测。这些图像包含了许多强烈的社会线索，例如。在（e）中，“年龄差距大”、“老年妇女”、“小女孩”、“日常服装”和“亲密拥抱”有助于对祖孙的再认。值得注意的是，（d）中的person对几乎处于模糊背景中，但被正确识别，验证了我们的属性模型处理粗糙图像的能力。（a）（b）（c）（g）（h）中的其他正例被全属性模型正确识别，但被单属性模型得到噪声预测，e.G. 在（g）中，服装模特对同事进行预测，可能是因为这对夫妇穿着统一的服装参加活动。当结合所有属性时，其他强有力的线索，如“手臂搭在肩膀上”的亲密活动总的来说，消极的例子比积极的例子显示出更多的不寻常的错误和混乱的视觉线索例如，（i）的背景事实是祖孙，而“奶奶爬着抱着婴儿”的活动则是“奶奶抱着婴儿”的活动图7：关系识别nition.请注意，这里的图像标题是地面真相。使用所有属性模型或前4个属性模型（排名在图6中）预测的关系在图像下列出。“手”似乎很不寻常。尽管使用年龄或性别- 由于活动和服装是主要因素，全属性模型的预测是错误的。在另一个例子（l）中，人类注释者可以在新闻发布会上识别出官方同事，但由于图像中的身体/头部外观不清晰，我们的模型的预测失败了。7. 结论在本文中，我们探讨了一个具有挑战性的问题，识别社会关系的日常生活照片。虽然以前的工作仍然部分在所涵盖的社会关系，我们认为，以社会领域为基础的方法，以调查涵盖社会生活的各个方面的关系。我们评估了社会关系，社会领域的识别性能以及跨关系的泛化性能我们的实验强调了使用语义属性的重要性，这反过来又有助于连接到社会心理学理论的可检查的模型。除了目前的工作，我们相信，我们的工作可以铺平道路，以更实证的研究，社会关系，但接地和解释的背景下，社会心理学理论。确认这项研究得到了德国研究基金会（ DFG CRC1223）的支持。关系识别贡献真阳性假阴性C厌恶acti身体性别头端老龄化头性别他面对他们广告姿态耳息他头部app根据当地阿朗斯ale身体年龄3489引用[1] Bugental，D.B.：社会生活算法的获取：基于领域的方法。心理学公报，卷。一百二十六No. 2，pp. 187-219，2000。一、二、三、四、五、六[2] Reis，H. T.，西弗吉尼亚州柯林斯Berscheid，E.：人类行为和发展的关系背景。Psychological Bulletin，126（6），pp. 844-872，2000。3[3] Fiske，A. P.：社会性的四种基本形式：社会关系统一理论的框架。Psychological Review，99（4）：689，1992年。3[4] Fairclough，N.：分析话语：社会研究的文本分析。心理学出版社. 2003. 一、二[5] 哈斯拉姆，N.，Fiske，A. P.：内隐关系原型：社会关系认知组织的五种理论研究。Journal of Experimental SocialPsychology，28（5），pp.441-474，1992年。[6] Clark，M.美国，Mills，J.：交换和公共关系中的人际吸引力。 Journal of Personality and Social Psychology，37（1）：1979年12月3[7] 福阿E.B. Foa，U.G.：资源理论。社会交换。Springer US，pp. 77-94，1980年。3[8] Parsons，T. Shils，E. A. Smelser，N. J.（Eds.）：关于行动的一般理论：社会科学的理论基础。1965年出版。3[9] 麦克莱蒙湾R.，Messick，D.M：社会动机的框架行为科学，21（2），pp. 86-100，1976年。3[10]Chu，X.，欧阳，W.杨，W. Wang，X.：多任务递归神经网络即时性预测。IEEE计算机视觉国际会议. pp. 3352-3360，2015。二、五、六[11]杨，Y.，Baker，S.，Kannan、A.和Ramanan，D.，2012年6月。在个人照片中识别化学物质。IEEE计算机视觉与模式识别会议，pp。3522-3529，2012。2[12]巴尔，J.R.，洛杉矶卡蒙Bowyer，K.W.Flynn，P.J.：主动聚类与集成的社会结构提取。IEEE计算机视觉应用冬季会议。pp. 969-976，2014。2[13] Li，L.J.，夏玛地方检察官孔，X. Jafarpour，S.，范兹沃尔，R. Wang，X.：名人网：一个由大规模网络名人图片构建的社交网络。 ACM Transactions on MultimediaComputing ， Communications ， and Applications ， 12（1），No. 2015年3月。2[14]Ramanathan，V.姚湾，澳-地和Fei-Fei，L.：人类事件中的社会角色IEEE计算机视觉与模式识别会议。pp. 2475-2482，2013。2[15]兰，T.，锡加尔湖Mori，G.：人类活动识别层次模型中的社会角色。IEEE计算机视觉与模式识别会议，pp。公元1354-1361年。2012. 2[16]Shu，T.，Xie，D.，Rothrock，B. Todorovic，S. Zhu，S.C.：空中视频中群体、事件和人的角色的联合推断。IEEE计算机视觉与模式识别会议。 pp. 4576-4584 ，2015。2[17]张杰，胡伟，Yao，B.，Wang，Y. Zhu，S.C.：长时间视频序列中社会角色的推断. IEEE计算机视觉国际会议研讨会. pp. 1456-1463，2011。2[18]Murillo ， A.C. Kwak ， I.S. ， Bourdev ， L. 克里格曼 D.Belongie，S.：都市部落：从社会角度分析团体照片IEEE计算机学会计算机视觉与模式识别研讨会.pp. 28-35，2012年。2[19]Kwak ， I.S. ， Murillo ， A.C. Belhumeur ， P.N. ，Kriegman，D.J.和Belongie，S.J.：从骑自行车到冲浪：城市部落的视觉认知。2013年英国机器视觉会议。2[20]Shu，H.，Gallagher，A. Chen，H. Chen，T.：用于对人群进行分类的人脸图匹配IEEE图像处理国际会议。pp.2425-2429，2013。2[21]洪河Hu，Z.，刘，L.，王，M.，Yan，S.田，问：理解在社会网络中蓬勃发展的人类群体。IEEE Transactionson Multimedia，17（11），pp.1980- 1988，2015. 2[22]宋，Z.，王，M.，Hua，X.S. Yan，S.：通过人类服装和环境预测职业IEEE计算机视觉国际会议。pp. 1084-1091，2011。2[23]邵，M.，利湖，澳-地和Fu，Y.：你是干什么的？通过社会背景识别照片中的职业。IEEE计算机视觉国际会议。pp. 3631-3638，2013。2[24]Wang，G.，Gallagher，A. Luo，J.和Forsyth，D.：在社会背景下看人：认识人和社会关系。欧洲计算机视觉会议pp. 169- 182，2010年。2[25]Singla，P. Kautz，H.，Luo，J.和Gallagher，A.：使用马尔可夫逻辑发现消费者照片收藏中的社会关系。IEEE计算机学会计算机视觉与模式识别研讨会. pp. 1-7，2008年。2[26]Dai，Q.，Carr，P.锡加尔湖和Hoiem，D.：家庭成员的身份从照片收集。 IEEE Winter Conference onApplications of C

下载后可阅读完整内容，剩余1页未读，立即下载