没有合适的资源?快使用搜索试试~ 我知道了~
社会人工智能:非言语社会信号预测
110873社会人工智能:三元互动模型中的非言语社会信号预测Hanbyul Joo1†Tomas Simon1托马斯·西蒙MinaCikara2亚瑟·谢赫YaserSheikh1卡内基梅隆大学2哈佛大学{hjoo,tsimon,yaser}@ fb.com,mcikara@fas.harvard.edu摘要我们提出了一个新的研究任务和一个数据集,通过计算方法来理解人类的社会互动,最终赋予机器编码和解码人类使用的广泛的社会信号渠道的能力这个研究方向对于制造一台真正与人类交流的机器至关重要,我们称之为社会人工智能。我们首先将“社会信号预测”问题表述然后,我们提出了一个新的3D运动捕捉数据集来探索这个问题,其中广泛的社会信号(3D身体,面部和手部运动)在三元社会互动场景中被在定义的社会预测框架中提出了预测交互个体的说话状态、社会形成和身体姿态的基线1. 介绍想想人类是如何交流的我们用语言、声音、面部表情和身体姿势来传达我们的思想、情感和意图。这种对个人信息进行编码的社会信号随后被感知、解码,并最终被通信伙伴解释。值得注意的是,所有这些渠道的使用在社会互动中非常重要,其中微妙的含义通过这些信号的组合来传递。赋予机器类似的社会互动能力,对这些广泛的社会信号进行编码和解码,是人工智能(AI)的基本目标,有效地与人类合作。我们使用术语“社会人工智能”(AI)来指代具有这种能力的机器。构建社交AI的一种方法是将人类在社交过程中观察到的所有规则网站:http://domedb.perception.cs.cmu.edu/ssp†H. Joo目前就职于Facebook AI Research(FAIR)不好意思。Simon现在在Facebook Reality Labs通信[11]。不幸的是,尽管非语言互动在社交中很重要,但人们对它的了解仍然很少[45,44,6],这使得人们很难正式制定关于如何理解和使用社交信号的规则。有趣的是,我们最近见证了自然语言处理的一项伟大这一成功得益于数据驱动的方法,该方法利用大规模语言数据集和强大的建模工具深度神经网络来自动学习人类语言交流的模式。值得注意的是,这些成就并没有广泛利用语言学家几个世纪以来积累的关于语法和语言结构的先验知识出于这一动机,我们假设,一个类似的方法可以适用于建模非语言交流。然而,建立数据驱动的非语言交际模型存在一个根本性的困难:数据极其稀少。在口头语言领域中,单词包含通过少数离散符号的组合来记录口头信号的全部表达能力,并且已经存在因特网上的数百万篇文章、对话和语音音频,其易于用于数据驱动方法。然而,对于非语言信号,如何“记录”或收集这些信号是不确定的想象一下,在我们的日常生活中,一群人正在交流。个人的位置和方向,他们的身体姿势,凝视和面部表情(在其他人中)是我们感兴趣的数据。值得注意的是,这些社会信号是从群体中的所有人发出的(即,来自发射机和接收机的信号)需要同时收集以研究它们的相关性和因果关系。尽管互联网上也有数以百万计的视频记录了我们的日常活动,包括社交互动,但这些原始视频不能直接用于理解非语言互动的规则,因为我们必须从原始像素中提取所有语义视觉线索(相对位置,面部,身体姿势等)。在本文中,我们介绍了一个新的研究领域,其长期目标是建造能够真正在...110874用非语言信号与人类互动。该问题的关键思想是将社会交互定义为个体之间的信号预测问题,而不是找到社会信号与其语义之间的映射(例如,如情感计算或情感识别[53,52,54,17])。我们用公式表示,人类是通过从他人那里接收一组社会信号并发出响应信号作为输出来进行交流的,这些信号又作为输入直接传递给他人(如图11所示)。①的人。因此,我们假设社会行为能力可以通过模拟这些信号流之间的动态来学习。这种方法的优点是:(1)我们可以通过调查客观可测量的社会信号数据来解决问题,避免注释这些信号的潜在含义;(2)它使我们能够通过考虑原始的连续和高维信号空间来建模社会通信的微妙细节。重要的是,我们的目标是包括尽可能多的信号渠道,以研究各种社会信号渠道之间的相关性,包括面部表情,身体姿势,身体接近和身体取向。由于信号测量技术的限制(例如,动作捕捉)以及各种各样的交互环境,我们在工作室设置中收集大规模数据集[32,33],其中这些信号对于自然交互的人被无标记地测量。我们的数据集包括约180个序列在一个特定的三元社会互动的情况下,其中120名受试者参加。由于运动空间的高度复杂性,直接调查全谱社会信号的动态是有挑战性的,需要更大规模的数据。因此,我们简化了问题,集中预测低维,但重要的,输出信号说话的地位和社会形态发出的目标的人,同时仍然考虑到更广泛的渠道,包括身体运动和面部表情作为输入。我们发现,这种方法仍然提供了一个重要的机会,计算研究各种渠道的人际社会信号。我们的基线社会信号预测模型的结果,由神经网络实现,证明了社会信号之间的强预测性,也使我们能够定量地比较它们之间的相对影响我们进一步讨论了更具挑战性的预测任务,包括身体几何预测和整个视觉社会信号预测。2. 背景行为科学:由于非语言线索在社会交际中的重要性,它在心理学和行为科学中受到了极大的关注。这一 领 域 的 工 作 通 常 分 为 不 同 的 子 领 域 , 包 括Proxemics,Kinesics,Vocalics和Haptics [48]。在我们的工作中,我们只专注于Proxemics和Kinesics,图1.我们的目标是学习个体接收的输入信号X和个体发出的输出社会信号Y之间的动态关系。社交信号预测的目标是以数据驱动的方式回归函数Y=F(X)。与视觉线索密切相关。Hall首先引入了Proxemics的概念来描述人类在通信过程中如何使用他们的个人空间[26],Kendon研究了多人在公共空间中通信时建立的空间编队和方向(称为F编队)[35]。特别是面部表情,自从查尔斯·达尔文的开创性工作以来,已经受到了研究人员的大量关注[14]。埃克曼研究了情绪和面部表情之间的关系,并提出了面部动作编码系统(FACS),这是一种使用原子单位(Action Units)组合来描述面部表情的系统[18]。从那时起,该系统仍然是注释和测量面部表情的事实上的标准,并在许多领域产生了广泛的影响。尽管研究已经证实了肢体语言在交流中的重要性,但与面部相比,肢体语言仍然相对未被探索[15,48,43,3]。尽管许多研究人员在不同领域的努力,很少取得进展,在了解nonver-BAL通信和几十年前提出的方法仍然是最广泛使用的可用方法[48]。特别是在这一领域,研究人员一直在使用几十年前的手动行为编码程序;然而,大多数人正在从手动行为编码转向自动编码。社交信号处理:人们对使用计算方法研究非语言交流越来越感兴趣[66]。分析面部表情一直是视觉界的核心焦点[12,16,60]。还提出了许多其他从照片和视频中自动检测社交线索的方法,包括F-形成检测[59],从照片中识别语义[69],检测注意力[21],通过身体姿势识别情绪[58],以及检测社交显着性[51]。人工计算领域已经迅速发展,其中计算机视觉和其他传感器测量与机器学习技术一起使用,以了解人类预测人体运动:预测或预测人体运动是计算机视觉和机器学习中的新兴领域。研究人员提出了预测行人110875Cci=1在二元情境中的人类互动[29]。最近,深度神经网络用于从运动捕捉数据预测未来的3D姿势[47,22,31],但它们专注于周期性运动,如步行周期。最近的工作试图预测人体运动的2D图像域[67,65]。一些方法解决了社会情境中的轨迹预测[27,1,25]。社交信号数据集:如何测量和收集非言语信号数据对于追求数据驱动的方法实现我们的目标至关重要。然而,只有少数数据集包含社会相互作用的群体运动[2,42,37,56]。的场景在这些数据集中,通常是在一个表设置,限制自由的身体运动和捕捉上半身只。存在捕获更自由移动的多个人的数据集(例如,鸡尾酒会)[71,13,20],但这些仅包含用于人的位置和取向测量,被引入仅研究社会形成。存在提供通过运动捕获技术捕获的丰富3D身体运动信息的数据集然而,最近提出了使用大量相机系统的交互组的全身运动数据用于社交交互捕获[32,33]。这项工作显示了收集大规模社会互动数据的潜力,而没有穿着动捕服和标记所引起的常见测量运动信号:在计算机视觉中,人体和图像中的关键点的检测已经取得了很大的进展。存在公开可用的2D面部关键点检测器[5]、身体姿势检测器[9,68,50]和手部姿势检测器[6,68,50探测器[63]。3D运动可以通过多视图设置中的无标记运动捕获[23,40,19,33,34],通过RGB-D相机[61,4],甚至通过单目相机[55,7,41,72,49,46]来获得。最近,还引入了捕获身体和手的方法[57,34]。3. 社会信号预测社会信号预测的目标是通过使用来自交流伙伴的线索作为输入来预测目标人在社会情境中的行为线索(见图1)。①的人。我们假设目标人的行为与其他个体的行为线索相关。例如,目标人的位置和方向应该受到对话伙伴的位置(称为Proxemics [26]和F-形成[35])的强烈影响,目标人的注视方向,身体姿势和面部表情也应该受到对话伙伴的行为的“条件”。在社会信号预测任务中,我们对交互主体之间的这种条件分布进行建模,以最终教会机器人如何在由通信伙伴的行为驱动的类似社会情境中表现。存在受试者之间的社会信号的相关性很强的情况,例如握手或问候(wav-)。手或手)。但在大多数情况下,这种相关性是隐含的--在给定其他人的行为时,不存在关于如何行为的特定规则在我们的方法中,我们以数据驱动的方式解决这个问题,通过使用大规模多模态社会信号语料库自动我们首先从概念上阐述了社会信号预测问题,并在下一节中描述了一个专注于讨价还价场景的具体实现。让我们将目标人在时间t在社交情境中接收到的“所有类型的信号”表示因此X(t)包括来自其他个体的社会信号姿势、面部表情、身体位置、声调、口头语言-以及诸如执行对话的空间或可能影响目标人的行为的其他可见对象的其他上下文因素环境中的声音或物体可能吸引人的注意力)。我们将输入信号X(t)分为两部分,来自会话伙伴的信号Xc(t)和来自其他源的信号(例如,对象、环境和不与目标人交互的其他人类主体),Xe(t)。因此,在本发明中,X(t)={Xc(t),Xe(t)}。(一)项Xc(t)可以包含来自多个人的社会信号,并且我们分别表示来自每个主体的信号:Xc(t)={Xi(t)}N,(2)其中Xi(t)是来自社交交互中的第i个会话伙伴的信号,N是伙伴的总数。 我们还表示焦油发出的信号-在时间t处在社会情境中的人为Y(t)。然后,社会信号预测的目标是找到一个以X为输入,产生Y为输出的函数F来模仿目标人物在社会情境中的行为:Y(t+1)=F(X(t0:t),Y(t0:t)),(3)其中t0:t表示从t0到t的时间范围,影响目标人的当前行为注意,我们定义函数F以获取目标个人自己的信号Y(t 0:t)的历史直观地,该公式化将人类行为建模为表示目标人正在接收和发出的社交信号之间的动态的函数。该函数可以针对特定个体定义,表示目标人的个人行为编码特征,如目标的物理属性或文化基于此,不同的人可能会有不同的行为。如果该函数由来自许多人的数据回归,那么我们假设该函数产生更一般的和4108760c 0c 0共同的社会行为,其中个体特定的行为被平均化。以前的方法可以被认为是这个模型的子集例如,仅使用自然语言的会话代理(或聊天机器人)可以表示为:Yv(t+ 1)=F(Xv(t0:t)),(4)其中Yv和Xv仅表示语言信号。在计算机视觉和图形学中研究的人体运动预测[22,31]可以被认为是:Yn(t+ 1)=F(Yn(t0:t)),(5)其中Yn代表非语言的身体运动。请注意,在这个任务中,没有社交互动建模,并且预测仅针对使用个体自己先前信号的个体在我们的工作中,我们专注于三元社会互动场景中的非语言社会信号Y(t:t)=F。X1(t:t),X2(t:t),(6)其中,我们预测目标的社交信号,给出在相同时间窗口期间另外两个人的信号。特别是,我们考虑了不同的输入和输出社会信号,以调查他们的动态和相关性。4. 具有全谱社会信号测量的大规模数据集的可用性对于以数据驱动的方式计算地研究非语言交际是至关重要的。尽管现有的数据集提供了对人类运动和行为的测量[10,38,71,13,2,30],但没有数据集满足理解非语言人类行为的以下核心要求:(1)利用宽频谱的非语言线索(包括面部、身体和手)捕捉3D全身运动;(2) 捕获自然交互组(多于两个人以包括注意力切换)的信号;以及(3)大规模收集数据。数据集的有限可用性促使我们构建一个新的数据集,该数据集包含数百个交互组之间的社交我们数据集的关键属性如下:• 在谈判游戏场景中自然地与多个人互动,游戏经过精心设计,以诱导自然和自发的互动• 在捕获过程• 广泛的社交信号,包括面部、身体和手部的动作,都是使用最先进的无标记动作捕捉系统测量的。项目[32、33]410877图2.讨价还价序列的一个例子(左)一个示例场景显示两个卖家和一个买家。(右)重建的3D社交信号显示3D身体,3D面部和3D手部运动。还计算了来自面部和身体的3D法线方向,并且在这里还可视化了手动注释的每个人的说话状态• 多种同步模式,包括来自500多个视图的RGB视频,来自10个RGB+D传感器的深度图,以及来自23个麦克风的• 通过无线和有线麦克风记录个人的语音信号,并手动注释• 通过融合来自10个RGB+D传感器的深度图来提供3D点云我们的数据集提供了一个新的机会,调查各种人际非语言行为线索出现在社会情况下的动态我们的数据集是根据大学批准的IRB方案1采集的,并公开发布用于研究目的。4.1. 讨价还价博弈协议为了唤起自然的互动,我们让参与者参与一个名为“讨价还价”的社交游戏。我们发明这个游戏来模拟两个卖家和一个买家之间的讨价还价。三元交互被选择为包括有趣的社交行为,例如轮流和注意力变化,这在以前的二元交互数据集中是缺失的[56]。在游戏中,两个卖家正在推销他们自己的产品,而买家则在两个卖家之间决定他/她购买哪种产品游戏持续一分钟,出售他/她的产品的卖家将获得5美元的奖励。为了最大化每个卖家的行为对买家决策的影响示例场景如图2和补充视频所示。详细的游戏协议见补充资料。4.2. 测量社会信号和符号我们使用Panoptic Studio来重建多个相互作用的人的3D解剖关键点[32,33]。作为一个关键的优点,该方法不需要在受试者的身体上附着传感器或标记1IRBYY 2015 00000478510878需要来自对象的初始化姿势。作为输出,系统在每个时间t2为每个个体产生3D身体运动B(t)和3D面部运动F(t)。我们还将物体的全局位置表示为X(t)。从这些测量中,我们还通过分别找到躯干和面部的3D正常方向来计算身体方向θ(t)和面部方向φ(t)。我们在下面描述测量的详细表示。测量信号的可视化见图2身体运动:我们遵循的身体运动表示霍尔顿等人的工作。[28],将帧处的身体姿势表示为73维向量,B(t)∈R73。这种表示法是基于CMU Mocap 数 据 集 [24] , 具 有 21 个 关 节 ( 63 个 维度),以及根关节(髋关节的中心)在地板平面上的投影(3个维度),由根的速度值表示的相对身体位置和方向(3个维度),以及脚步信号(4个维度)。仅在x-z平面上相对于y轴计算方向,位置和方向表示从前一帧的变化,而不是绝对值,遵循详细的工作[31,28]。特别地,B(t)的前63个维度表示以人为中心的坐标中的身体运动,其中根关节在原点处并且躯干面向z方向。 我们执行重定向过程,将Panoptic Studio中的原始3D运动数据(其中骨架定义与COCO数据集[39]相同)转换为具有固定身体比例的身体运动表示因此,在我们最终的运动表示中,去除了诸如肢体的高度或长度的个体特定线索,并且仅保留运动线索。位置和方向:对于每个个体的全局位置x(t),我们使用身体的根关节的坐标,忽略y轴上的值,因此x(t)∈R2。我们用一个二维单位向量来表示身体方向θ(t)∈R2和面部方向φ(t)∈R2,定义在x-z平面上,忽略y轴上的值。 注意我们使用单位向量而不是角度表示,因为角度表示在缠绕时具有不连续性问题在2φ和−2φ附近ping。与身体运动部分B(t)中表示的相对位置和方向相反,这些x(t)、θ(t)和φ(t)表示全局坐标中的值,用于模拟社会形成。在总之,在社会形态预测中,个体在帧处的状态由6维向量[x(t)<$,θ(t)<$,φ(t)<$]<$∈R6表示。发言状态: 每个个体的语音数据V(t) 也被分配给每个人的无线麦克风记录下来。从音频信号,我们手动注释- 二进制说话标记S(t)∈ {0,1},其描述目标主体在时间t是说话(标记为1)还是不说话(标记为0)。通过利用这些不同的行为线索在讨价还价的场景中测量 我们的目标是回归方程6中定义的函数。为了进一步限制问题,我们假设目标人是位于买方3左侧的卖方,并且作为输入,我们使用买方(X1)和另一个卖方(X2)的社交信号。基于我们的社会信号测量,函数的输入和输出表示为,Y=[x0,θ0,φ0,B0,F0,S0],面部运动:对于人脸运动信号,我们首先拟合[ 8 ]的可变形人脸模型,并使用初始5维,X1=[x1,θ1,φ1,B1,F1,S1],X2=[x2,θ2,φ2,B2,F2,S2],(七)因为我们发现剩余的维度对我们的重建质量具有几乎可以忽略的影响。请注意,[8]中的面部表情参数按其对构造的影响进行排序,并且初始分量在表达面部运动时具有更大的影响。 为此,面部运动在时间实例由5维向量表示F(t)∈R5(见这些面部表情的视觉化的补充材料).在这里,我们也不包括个人特定信息(脸部形状参数对于个人是变化的)并且仅保持运动提示。2该系统还产生3D手部运动,但我们在本文中不使用这种测量,因为在具有挑战性的手部运动中偶尔会出现故障(例如,当两只手彼此靠近时然而,在这方面,其中,我们使用上标0来表示目标主体的社交信号(社交信号预测的输出)。5. 讨价还价场景我们使用我们的讨价还价的情况下,作为一个例子的社会信号预测问题的计算模型三元互动。在本节中,我们具体定义了建模中使用的输入和输出信号,然后提出了三个社会信号预测问题,预测说话状态,预测社会形成和预测身体姿势(Kinesic信号)。注意,我们专注于通过如等式6中所定义的那样将其他个体信号作为输入来估计目标人具体实施详见补充资料。相信这些仍然是重要的线索,我们发布了重建的未来工作的成果。3简化问题,特别是地层预测。510879pp00005.1. 预测演讲我们预测目标主体当前是否在说话,用S0表示。这是一个二元分类任务,可以用交叉熵损失进行训练。我们首先研究了目标人物的说话信号S0和人物自身的社会信号(身体运动B0或面部运动F0,或两者)之间的相关性我们预计这种相关性比个体之间的联系更强。形式上,函数FB0→S0采用目标人目标对象和其他人。请注意,我们只考虑地平面上的位置和方向(在2D中),忽略对象的高度,因此Yp(t),Xi(t)∈R6。这个预测问题的目的是看看是否马-中国人可以学习如何建立一个社会形态来与人类互动[64]。5.3.预测身体姿势(运动信号)预测社交场合中的身体运动(通过使用其他受试者的信号)是具有挑战性的,因为身体信号之间的相关性是微妙的并且不太明确。到S0(t0并且类似地,:t)=FB0→S0.ΣB0(t0:t)、(8)为了研究这个问题,我们在这里提出了两种基线方法。只使用社会形态。第一种方法仅使用其他受试者的社会形态信息.Σ0.12ΣS0(t0:t)=FF0→S0F0(t0:t)、(9)B(t0:t)=Fp→B0Xp(t0:t),Xp(t0:t).(十五)S0(t0:t)=F(F0,B0)→S0. F0(t:t),B0(t:t)、(10)这是一个不适定问题,有多种可能的解决方案,因为通信伙伴的形成信号其中FF0→S0取目标人物而F(F0,B0)→S0则同时接受面部和身体两种线索.我们将这些函数的性能与它接收来自一个通信伙伴的信号,另一个卖家:几乎不能告诉我们目标人物的具体行为。然而,我们可以考虑预测骨架的几个必要属性例如,身体位置和方向需要满足社会形态属性,当目标人的位置发生变化时S0(t0 :t)=FB2→S0.ΣB2(t0:t)、(11)需要预测后腿运动。直觉上,我们期望预测的骨架显示出类似的社会数量,S0(t0:t)=FF2→S0.ΣF2(t0:t),(十二)形成,位置和方向,如在社会形成S0(t0:t)=F(F2,B2)→S0. F2(t:t),B2(t:t)、(十三)预测,但使用更复杂的结构,身体运动。在这个意义上,我们可以将函数Fj其中函数分别使用身体线索、面部线索和这两种这个框架使我们能够定量地研究阶段:预测Fp描述的社会形态,等式14和从预处理预测3D身体运动所述社会轨迹Yp(t0:t):社会信号之间的联系。例如,我们可以很容易地假设存在一个强核心-B0(t0.:t)=Fp→B0Fp. X1(tp:t),X2(t0ΣΣ:t)来自同一个体的信号之间的关系(例如,目标人的说话和面部运动),而不同个体之间的信号之间的相关性(例如,说到目标人和另一个人的身体运动)可以被认为是弱的。通过比较它们的表现,我们验证了这些信号之间仍然存在着很强的联系。5.2.预测社会形态我们预测目标的位置和方向=Fp→B0(Yp(t0:t)),(16)其中Fp→B0是目标主体自己的社交轨迹与身体骨架之间的映射由于轨迹(位置和方向)是身体的一个子部分,或者,我们期望预测的骨架包含与社会轨迹相似的信号。对于函数Fp→B0,我们遵循与Holden等人的工作类似的方法。[28]第10段。通过使用身体运动作为输入。 我们可以使用会话伙伴的完整身体信号作为输0510880pppp⊤⊤入,作用:人,用Yp=[x0<$,θ0<$,φ0<$]<$,给定B0(t0:t)=F(B1,B2)→B0.ΣB1(t0:t), B2(t0:t). (十七)来自沟通伙伴的相同线索渠道这个问题与Proxemics [26]和F-形成[35]密切相关,说明了人类如何在社交中使用他们的空间。从形式上讲,在这个特定的例子中,我们期望Yp(t0:t)=Fp.ΣX1(t0:t),X2(t0:t),(14)议案我们发现这种方法显示出更多样的-每个身体运动,响应其他子运动,其中,Yp、X1和X2包含用于以下的全局位置和方向信号[xii,θi,φi]n(其中i=0、1或2):对象。为此,我们提出了一种混合方法,结合上半身的预测结果,这种方法的根和腿的运动,以前的方法。5108816. 结果在本节中,我们展示了三个预测任务的实验结果,预测说话状态,社交形式和来自不同输入源的手势(运动信号)。其核心方向是探索真实社会传播中不同行为渠道之间存在的相关性。6.1. 预处理讨价还价数据给定讨价还价博弈的测量数据,我们首先手动标注博弈的开始和结束时间,其中开始时间在社会形态建立时确定,结束时间在社会形态被破坏时定义。我们根据这个开始和结束时间裁剪出运动数据集,这样我们就忽略了主体进入和退出捕获空间的时间。对于每一个讨价还价的游戏场景,我们还注释了玩家在我们的实验中,我们指定左边的卖家是我们的目标人物,并预测这些受试者的社会行为。如我们的方法部分所述,我们将运动数据重新定位为标准化的骨架尺寸,以消除身体骨架的尺寸变化,类似于[28]。我们还合成了脚步信号,并使用[28]的方法将身体运动与全局平移和方向解耦。对于面部运动,我们在个人面部的3D关键点上拟合Facaewarehouse模型[8最后,我们将数据集分为140个训练集和40个测试集。然而,由于存在的序列中的重建误差是严重的一些帧,我们只选择了79个训练集和28个测试集,手动验证是无错误的。我们还将所有训练集以一定的间隔(10帧)划分为120帧的切片,并生成约10K个训练样本。我们还考虑了一个翻转版本,将同一组中的我们标准化所有输入数据,使它们具有零均值和单位方差。6.2. 口语分类我们通过观察社交信号的其他渠道来预测目标人物目前是否在说话。个人内部信号。首先,我们研究了当目标个体自己的社会信号被用作输入时的表现三种不同的输入源-面部表情,身体姿态,以及两者-分别用于训练神经网络模型。特别是,我们在本实验中使用相同的神经网络架构,保持输入维度和网络大小相同,以尽可能公平地进行比较(参见输入信号自我其他卖家随机人面部+身体88.40%78.42%49.65%脸88.93%80.14%49.64%身体73.12%70.48%50.22%F+B,掩蔽体82.48%75.10%–F+B,面具脸56.59%64.27%–表1.以不同社会信号源为输入的说话状态分类精度最后两行测试了在将部分输入数据归零而不进行重新训练后“面部+身体”模型的补充材料)。为了用不同类型的输入来训练网络,我们用在训练集中计算的平均值来屏蔽输入中未使用的通道。来自这些输入信号的预测精度在表1的第二列(标记为“自”)中示出。正如我们的研究结果所表明的那样,来自目标个体的社会信号与说话表现出很强的相关性。例如,目标人物的面部线索显示出与目标人物自己的说话状态的最强相关性(约89%的准确度)身体运动也显示出强相关性,预测准确率超过73%在表1的标记为“面部+身体”的第二行中示出的具有身体和面部信号两者的结果更具体地说,给定“面部+身体”的训练模型,我们在输入数据中屏蔽面部部分或身体部分(在“测试”时)并评估性能。去除身体部分后的准确性与原始性能相似,这意味着训练的网络对身体线索的依赖性较低,而如果去除面部部分,则存在更大的下降。人际信号的结果。一个更有趣的实验是通过使用其他卖家的社交信号作为输入来预测目标人的发言状态。类似地,考虑三个不同的输入源,并且结果示于表1的第二列中。结果表明,人际社会信号之间存在着很强的联系另一个进一步分析见补充材料。随机信号的结果 作为基准,我们还-通过使用来自随机indi的信号形成实验在随机序列中,我们的目标个体没有任何社会联系,这表明了表1中的机会水平。消融研究,以验证每种影响510882类型位置(cm)身体Ori。(o)面对欧瑞(o)PosOnly29.83(13.38)15.24(7.23)19.02(7.64)正+面25.23(9.74)13.20(5.17)17.61(6.89)阳性+身体26.57(10.24)12.80(4.37)17.51(5.60)Pose+Face+Body24.59(10.23)12.33(3.71)17.01(5.18)图3.通过比较从表1中的“面部+身体“的训练网络中去除社交信号输入的每个通道后与原始性能相比,移除每个部件后的左图是使用目标人自己的信号的结果,右图是使用其他卖家的信号。右边的颜色条显示帧从原始性能下降的百分比。部分我们进行了一个消融研究,通过比较去除训练网络中的每个通道后的预测性能。在这个测试中,我们使用表1中的“面部+身体”训练的网络我们屏蔽了某个信道(例如,面部运动分量或身体关节部分),并检查相对于原始输出的性能下降。结果如图3所示,其中圆圈的颜色和大小表示性能降低的量这一结果表明,与张口运动相对应的面部运动的第一分量对说话状态的预测能力另一个有趣的结果是,右手的预测能力比左手强。6.3. 社会形态预测我们利用交流伙伴的信号来预测目标人--“左卖方”的位置和方向在这个测试中,我们通过考虑不同来源的组合来探索预测精度:使用身体位置、身体方向和面部方向。表2显示了结果。通过使用所有信号,我们获得了最佳性能。直观地,我们可以想象,目标人其中仅使用位置线索的预测性能最差,但仍然是合理的。6.4. 身体姿势预测身体姿态预测的定量评估如表3所示。在Eq.的第一种方法中,15,身体运动直接从目标人的估计的社会形态(位置和取向)回归,并且输出示出了跟随轨迹运动的合理的腿部运动,但是具有最小的上身运动。表2.社会形成预测误差(标准)。平均位置我们的估计和地面实况之间的误差以厘米为单位报告身体和面部定向误差在程度上介于估计的面部/身体法线方向和地面实况之间。类型Avg.联合错误(cm)STD.Fp→B0(方程式第十五章)8.312.26F(B1,B2)→ B0(等式十七、8.722.00混合8.611.84平均体重(基线)7.832.33表3.社会身体姿势预测误差(cm)。Hybrid使用Fp→B0(等式15)和F(B1,B2)→B0(Eq.17)上半身预测。作为替代方法,在Eq. 17,输出不考虑全局形成信息,而是通过响应其他主体的运动来显示更动态和真实的身体运动最后,我们结合了两种方法(标记为然而,定量误差往往较高。值得注意的是,基线方法,总是产生一个固定的“平均姿态”计算的训练集,显示出最好的性能。这是因为从地面实况计算3D误差的误差度量不能完全评估运动看起来有多自然看补充视频。6.5. 讨论我们提出了一个数据驱动的社会信号预测框架,它允许我们调查人际社会信号之间的动态和相关性。我们形式化的社会信号预测框架,并描述考虑各种渠道的输入和输出社会信号的子任务。为了建立模型,我们从数百名参与者中收集了Hag-gling数据集,并展示了明确的证据,证明在Gen-uine互动中出现的社会信号本文所描述的方法是赋予机器非语言交流能力的一个重要方向。仍然有几个未探索的问题,包括如何更好地评估更自然的行为,同时建模语言和非语言信号,以及建模比三元场景更多样化的社会互动。鸣谢。我们感谢Hyun Soo Park、Luona Yang和DonielleGoldinger在设计和执行数据捕获方面提供的帮助和510883引用[1] Alexandre Alahi,Kratarth Goel,Vignesh Ramanathan,Alexandre Robicquet,Li Fei-Fei,and Silvio Savarese.社会lstm:人类在拥挤的空间轨迹预测在CVPR,2016年。3[2] X. Alameda-Pineda,J.斯塔亚诺河苏布拉马尼安湖巴特林卡,E. Ricci,B.莱普里岛Lanz和N. Sebe Salsa:一种用于多模态群体行为分析的新型数据集。InTPAMI,2015.三、四[3] H. Aviezer,Y. Trope和A.托多罗夫身体暗示,而不是面部表情,区分强烈的积极和消极情绪。InScience,2012.2[4] Andreas Baak,Meinard M,Gaurav Bharaj,Hans-peterSei- del,and Christian Theobalt.一种数据驱动的方法,用于从深度相机进行实时全身姿势重建。见ICCV,2011年。3[5] Tadas Baltrus Mesquaitis , Peter Robinson , 和 Louis-Philippe Mesquaitis。一个开源的面部行为分析工具包。InWACV,2016. 3[6] R.鸟语身势语和上下文:身体运动通讯论文集。宾夕法尼亚大学出版社,1970年。1[7] Federica Bogo,Angjoo Kanazawa,Christoph Lassner,Pe- ter V. Gehler,Javier Romero,and Michael J.黑色.保持它SMPL:从单个图像自动估计3D人体姿势和形状。在ECCV,2016年。3[8] 曹 晨 、 翁 彦 林 、 周 顺 、 童 一 英 、 周 坤 。Facewarehouse:用于视觉计算的三维面部表情数据库。在TVCG,2014. 五、七[9] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在CVPR,2017年。3[10] Jean Carletta,Simone Ashby,Rumtien Bourban,MikeFlynn , Mael Guillemot , Thomas Hain , JaroslavKadlec , Vasilis Karaiskos , Wessel Kraaij , MelissaKronenthal,et al. AMI会议语料库:预告片。2005年,国际机器学习多模式互动研讨会。4[11] Justine Cassell、Catherine Pelachaud、Norman Badler、Mark Steedman 、 Brett Achorn 、 Tripp Becket 、 BrettDouville、Scott Prevost和Matthew Stone。动画对话:基于规则的面部表情、手势和语调的生成&。在1994年计算机图形学和交互技术年会上. 1[12] 朱文胜,费尔南多·德拉·托雷和杰弗里·F。科恩用于个性化面部动作单元检测的选择性转印机CVPR,2013。2[13] Marco Cristani,Loris Bazzani,Giulia Paggetti,AndreaFos-sati , Diego Tosato , Alessio Del Bue , GloriaMenegaz,and Vittorio Murino.通过f-队形的统计分析发现社会互动。在BMVC,2011年。三、四[14] C达尔文。人类和动物的情感表达。约翰·默里1872年2[15] 比阿特丽斯·德·格尔德为什么是尸体?将身体表达纳入情感神经科学的12个理由在斐洛-伦敦皇家学会学报B:生物科学,2009年。2[16] Fernando De la Torre , Wen-Sheng Chu , XuehanXiong,Francisco Vicente,Xiaoyu Ding,and Jeffrey F.科恩内部。自动人脸和手势识别,2015年。2[17] Paul Ekman和Wallace V Friesen。非语言行为的全部功能:分类、起源、用法和编码。《符号学》,1969年。2[18] Paul Ekman和Wallace V Friesen。面部动作编码系统。心理咨询出版社,1977年。2[19] A. Elhayek、E.Aguiar,阿吉亚尔A.Jain,J.汤普森湖皮舒林M.安德里卢卡角布雷格勒湾Schiele和C.希奥博尔特高效的基于convnet的无标记运动捕捉,在一般场景中使用少量相机。CVPR,2015。3[20] M Farenzena , A Tavano , L Bazzani , D Tosato , GPaggetti,G Menegaz,V Muriino和M Cristani。在三维环境中通过视觉注意力焦点的社会互动。在模式识别和人工智能人类行为分析研讨会上,2009年。3[21] A. Fathi,J. K. Hodgins和J. M.瑞格社会交往:第一人称视角CVPR,2012。2[22] 卡特琳娜·弗拉基亚达基,谢尔盖·莱文,潘纳·费尔森,和吉坦德拉·马利克.用于人体动力学的循环网络模型。在ICCV,2015年。三、四[23] Juergen Gall , Carsten Stoll , Edilson De Aguiar ,Christian Theobalt , Bodo Rosenhahn , and Hans-PeterSeidel.使用关节骨架跟踪和表面估计的运动捕获。CVPR,2009。3[24] Ralph Gross和Jianbo Shi. cmu的人体运动数据库。2001.三、五[25] 阿格里姆·古普塔、贾斯汀·约翰逊、李飞飞、西尔维奥·萨瓦雷塞和亚历山大·阿拉希。社交伙伴:具有生成对抗网络的社会可接受的轨迹。在CVPR,2018年。3[26] 爱德华·特威瑟·霍尔隐藏的维度。双日公司,1966年。二、三、六[27] Dirk Helbing和Peter Molnar行人动力学的社会力模型。物理评论E。3[28] 丹尼尔·霍尔登斋藤纯和高村拓用于角色运动合成和编辑的深度InTOG,2016. 五、六、七[29]
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功