电影中角色关系的联合预测

80 浏览量更新于2023-10-23 收藏 1.32MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

4321朱诺建议马克Vijay和 Paulie一起跑朱诺向保利坦白Mac游戏机Juno- 我们来谈谈这东西- 马克和瓦内萨愿意协商开放式收养- 嘿伙计- 嘿，维杰。你好吗？- 你听说了吗？朱诺·麦高夫怀孕了- 是啊- 还有...- 我想我爱上你了。- 你的意思是，作为朋友？- 号我是说真的- 总有一天，你会回到这里，亲爱的按你的方式(Juno、马克）（Vijay，Paulie）（Juno，朱诺和马克是陌生人维贾伊和保利是同学朱诺和保利是恋人麦克是朱诺学习电影人物Anna Kukleva1，2Makarand Tapaswi1Ivan Laptev11InriaParis，France2德国萨尔布吕肯马克斯-普朗克信息学akukleva@mpi-inf.mpg.de，{makarand.tapaswi，ivan.laptev}@ inria.fr图1：这项工作的目标是联合预测电影中所有角色之间的互动和关系。有些互动是基于对话（例如建议，承认），有些主要是视觉（例如，运行），以及其它基于两种模态的融合（例如，控制台）。当一对角色出现在影片时间轴中时，底部的彩色行将突出显示他们的关系在右边。从电影朱诺，2007获得的示例剪辑。摘要人与人之间的关系往往决定了他们之间的关系。另一方面，社会关系是建立在几个互动。随着时间的推移，两个陌生人更有可能在成为朋友的同时打招呼和介绍自己我们对相互作用和关系之间的这种相互作用着迷，并相信这是理解社会情境的一个重要方面。在这项工作中，我们提出了神经模型来学习和联合预测相互作用，关系和所涉及的一对字符。我们注意到，交互是由视觉和对话线索的混合通知，并提出了一个多模态架构，从中提取有意义的信息。定位视频中的一对交互角色是一个耗时的过程，相反，我们训练我们的模型从剪辑级弱标签中学习。我们在MovieGraphs数据集上评估了我们的模型，并显示了模态的影响，使用较长的时间背景来预测关系，并使用弱标签与地面真实标签相比实现了令人鼓舞的性能代码在线。11https://annusha.github.io/LIReC/1. 介绍作为人类的一个突出方面是我们与他人互动的能力，并在我们的生活中发展各种关系。虽然有些关系以自上而下的方式驱动着一对人所经历的典型互动（例如，父母通常爱和养育他们的孩子）;几乎所有的社会（非家庭）关系都是通过自下而上的互动来驱动的（例如，陌生人通过一次愉快的聊天或一杯共享的饮料成为朋友）。为了让智能体真正成为我们生活的一部分，我们需要它来吸收这种复杂的相互作用，并学会在不同的社交场合中表现得适当。我们假设，在这个方向上的第一步涉及学习人们如何互动，以及他们的关系可能是什么。然而，用真实的、真实的、基于经验的数据训练机器是一个非常复杂的提议。相反，我们依赖于电影，这些电影提供了我们生活中关键时刻的快照，描绘了人类在各种社会情况下最好和最坏的行为[47]。相互作用和关系已在文献中单独交互通常被建模为简单的98499850动作[19，36]和关系主要在静态图像[29，43]和最近的视频[30]中进行研究。然而，我们认为，只有通过共同建模才能实现对社会情况的全面理解例如，考虑一部浪漫电影中一对个体我们看到，人物首先见面，互相交谈，并逐渐坠入爱河，改变他们的关系，从陌生人到朋友，再到情人。这通常会导致他们结婚，随后是争吵或不忠（电影中的强烈偏见）和争吵，然后由他们的一个朋友调解。我们工作的目标是试图理解人们生活中这些丰富的时刻给定电影中的短片段，我们希望预测互动和关系，并定位在整个电影中经历它们的角色。请注意，我们的目标需要结合视觉和语言线索;某些交互最好是可视地表达（例如，运行），而其它的通过对话驱动（例如，承认）-见图。1.一、由于我们的目标是相当具有挑战性的，我们做了一个简化的假设-我们使用修剪（时间本地化）剪辑，其中的相互作用是已知的。我们有兴趣研究两个重要问题：（i）学习共同预测关系和互动是否有助于提高两者的绩效？以及（ii）我们是否可以在剪辑或电影级别使用交互和关系标签，并学习识别/定位所涉及的角色对我们称之为弱跟踪预测。第一个问题的解决方案是尝试使用多任务公式在跨越共同字符对的几个片段上操作，而第二个问题使用最大边际损失与多实例学习的组合（见第二节）。（3）第三章。捐款. 我们对最近发布的MovieGraphs [47]数据集中的51部电影进行了研究（见第二节）。4.2）。数据集注释基于自由文本标签，并且具有超过300个交互类和大约100个关系的长尾。据我们所知，我们的工作是第一个试图根据视觉和语言线索预测电影中人物之间的互动和长期关系的工作。我们还表明，我们可以学习本地化的视频剪辑中的字符，同时预测使用弱剪辑/电影级标签的相互作用和关系，而不会显着降低性能。2. 相关工作我们目前在理解视频中的动作/互动，研究社会关系以及分析电影或电视节目等相关任务方面的相关工作视频中的动作和交互。理解人们的行为可以有许多不同的方式。其中，动作分类涉及预测在一个简短的修剪视频剪辑[24，41]的主导活动，而动作定位涉及预测活动以及时间范围[15，39，51]。一个新兴的领域涉及通过对所有视频中对应于相同动作类的时间片段进行聚类，以无监督的方式发现动作[2，25，38]。最近，人们对创建用于学习动作的大规模数据集（数百万个剪辑，数百个类）感兴趣[1，5，11，18，34]，但它们都没有反映人对人（p2p）多模式交互，其中几个复杂的动作可能同时发生。AVA挑战和数据集[19]由来自老电影的15分钟视频剪辑组成，具有原子动作，如姿势，人与物体的交互，以及人与人的交互（例如，手，挥手）。然而，所有标签都基于短（3秒）时间窗口，P2P动作在多个人之间没有注释，并且关系标签不可用。也许最接近我们研究相互作用的工作，阿隆索等人。[36]使用带有轨迹的以人为中心的描述符来预测两个人之间的互动。然而，电视-人类互动数据集[36]仅限于4个视觉类别，而我们的工作中有101个多模态类别。由于我们对研究复杂的多模p2p相互作用和长程关系感兴趣，我们在MovieGraphs数据集上展示了我们的方法[47]。识别视频中的动作需要时空信息的聚合。早期的方法包括手工制作的特征，例如兴趣点[26]和改进的密集轨迹[48]。通过端到端的深度学习，时空3D卷积神经网络（例如，I3D [5]）用于学习视频表示，从而在视频理解任务中获得最先进的结果。对于长视频建模，学习聚合函数[16，33]，子采样帧[49]或累积来自特征库[50]的信息是流行的选择。在静态图像中的关系。大多数关于预测社会关系的研究都是基于图像[14，17，29，40，43]。例如，相册中的人物（PIPA）[54]和社会背景中的人物（PISC）数据集[29]在社会关系识别中很后者包含5种关系类型（3种个人，2种专业），[29]采用基于注意力的模型，该模型着眼于整个场景以及人员检测来预测关系。或者，基于域的方法由Sun等人提出。[43]扩展了PIPA数据集，并根据Burgental的理论将16种社会关系分为5类语义属性用于构建预测关系的可解释模型[43]。我们认为，建模关系需要着眼于人与人之间的长期时间互动，这是静态图像作品所不允许的。因此，我们的工作是从根本上不同于上述文献。视频中的社会理解了解人在9851亲吻散步传球跑步跳舞射击放拉收到愿望检查接受谈话听到介绍作品歌唱思考国家重复服从流言照片侮辱戏弄谎言承诺我我JKJKJK1N+视频不仅仅是研究动作。相关主题包括聚类视频中的人脸[22，45]，基于多模态信息命名轨道[35，44]，研究人们在交互时看的地方[13，32]，预测角色情感[10，47]，建模对象和角色之间的空间关系[27，42，55]，识别组中执行的动作[3，8]，预测角色效果[56]，为人们正在做的事情制作字幕[37，7]，回答有关事件，活动和角色动机的问题[28，46，23]，推理社交场景，事件[52，53]，理解社会关系[30，47]，以及使用多种模态的元数据预测[6]。也许与我们预测关系的工作最相关的是[30，31]。Lv等人[31]提出了第一个用于建模视频片段中关系的数据集，并提出了一个多流模型来分类16种关系。最近熟人老板孩子同事顾客敌人前情人朋友知名度情人经理父母兄弟姐妹陌生人工人图2：（选定的）交互和关系之间的归一化相关图。较暗的区域表示较高的分数。非常具有挑战性，使用多个剪辑有助于提高性能。我们在元组中表示正确（vi，ai，cij，cik）作为pi=（cij，cik），并且Liu等[30]提出一个图形网络来捕获长期i i和短期的时间线索与上述工作不同的是，我们致力于预测整部电影中人物之间的关系。我们提出了一个联合模型的互动和关系，因为它们可能会影响对方，也本地化的视频中的字符3. 模型在本节中，我们提出了预测成对角色之间的相互作用和关系的方法（第二节）。3.1），并将视频中的角色定位为轨道（第3.1节）。3.2）。记法。我们将A定义为所有交互标签的集合，包括视觉和口语（例如，与控制台一起运行）;以及R作为人与人之间的所有关系标签的集合（例如，父-孩子，朋友）。我们处理完整的电影，其中每个电影M由三组信息组成：1. 字符CM={c1，. - 是的- 是的..2. 带有交互注释的修剪TM={（v1，a1，c1j，c1k），. . .，（v N，aN，cNj，c Nk）}，其中v i对应于多模式视频剪辑，aN∈ A是定向交互标签，并且c ij用于描述剪辑v i中的角色c j的轨迹。3. 所有字符对之间的有向关系所有字符对为PM={（cj，ck）<$j，k，j/=k}。注意，T中的交互元组可以在时间上彼此重叠。例如，杰克可能看起来看着吉尔我们在学习方法中通过在损失函数中屏蔽重叠片段来处理此类交互标签。3.1. 剪辑中的交互和关系图图2显示了一些选定的交互与我们数据集中的所有15种关系之间的示例相关性我们观察到，像服从这样的互动与工人-管理者的关系密切相关，而敌人可能会开枪，或拔出（武器），或犯罪。受这些相关性的激励，我们希望共同学习互动和关系。当交互的一对字符是已知的，我们预测他们的相互作用和关系使用多模态剪辑表示Φ（vi，p）∈RD。如图所示3，Φ结合了来自多个来源的特征，如视觉和来自视频的对话提示，以及通过对它们的时空范围建模（通过跟踪）的字符表示交互. 我们使用两层MLP ，其中分类层WI2∈R| 一|×D，bI2∈R|一|来预测角色之间的互动剪辑v中交互a的得分被计算为sI（v，a）=σI（wI2·ReLU（WI1Φ（v，p）+bI1）+bI2），RM= {ri一=所有剪辑的关系（vi，cj，ck）}一（一）i∈[1，N]. 为了简化符号，我们分配a，其中σ（·）表示S形算子。我们学习关系标签ri每个剪辑。但是，请注意剪辑表示参数以及MLP由迷你-关系通常跨越多于一个剪辑，并且通常跨越整个电影（例如，父-子）。对于每个片段vi，我们的目标是预测主要交互ai、执行该交互的角色ci j和ci k以及它们的关系ri。实际上，我们支持-最大化每个样本ΣLI（v）=[mI−sI（v，a<$）+sI（v，a<$）]、（二）a<$∈A\OI（v）a<$/=a当预测与单个短剪辑的关系时，其中[·]+是ReLU运算符，mI是主，并且OI（V）是时间上来自剪辑的交互标签的集合9852一+Rr图3：模型架构。左：我们的输入是一个经过裁剪的视频片段，用于一个交互，由视觉帧和其持续时间内的所有对话组成。每个交互都与两个字符相关联，并且通过从裁剪的边界框中提取特征来直观地表示它们使用固定的预训练模型（BERT用于文本，I3D用于视觉）处理模态以提取剪辑表示表示为Φ（v）。右图：在第二个面板中，我们展示了我们的联合交互和关系预测模型的架构。特别是，多个剪辑用于计算关系，我们融合这些功能，同时计算交互标签。与...这种损失促使我们的模型将正确的交互关联到剪辑v，同时推送其他非重叠的交互标签。在推理过程中，我们将剪辑v的相互作用预测为a=argmaxasI（v，a）。关系。虽然互动的持续时间通常很短（几秒钟到一分钟），但电影中的关系可能会持续几分钟到整部电影。为了获得对关系的鲁棒预测，我们训练了一个模型，该模型观察了几个描绘同一对角色的修剪视频剪辑。让我们表示V jk{v1，. - 是的- 是的.. 在下面，为了简洁，我们去掉下标jk联合预测的相互作用和关系是使用多任务制定。我们考虑多个剪辑V并训练我们的模型来预测各个剪辑的关系以及所有交互。我们通过关联交互ΦI（v，p）和关系ΦR（V，p）的剪辑表示来引入两个任务之间的依赖性。图3显示了用于此任务的架构。我们预测相互作用如下：sI （ v ， V ， a ） =σ （ wI2·ReLU （ WI1[ΦI （ v ，p）;ΦR（V，p）]））.（五）线性层包括偏置，但为了简洁起见被省略。损失函数LI（v）现在使用sI（v，V，a），但在其他方面保持不变。组合损失函数为与预测相互作用类似，我们代表indi-使用Φ对V的两个剪辑，应用池化函数g（·）λLIR（V）=LR（V）+Σ LI（v），（6）（例如avg，max）来组合各个剪辑表示为Φ（V，p）= g（Φ（v，p）），并采用线性分类器WR∈R| R|×D，bR∈R| R|来预测人际关系。所述评分函数其中λ平衡两个损失。3.2. 谁在互动？|V|v∈V.ΣsR（V，r）=σrwRΦ（V，p）+bR（3）计算来自具有关系r的剪辑V的字符对p的似然性。我们使用类似的最大边际损失函数来训练模型参数ΣLR（V）=[mR−sR（V，r<$）+sR（V，r<$）]、（四）r<$∈R<$r<$r它试图给正确的关系r ′打分，比其他关系高r′。不像LI，我们假设单个标签应用于V中的所有剪辑。如果一对字符改变了关系（例如，从陌生人到朋友），我们选择存在单个关系的剪辑集合V 在测试时，我们预测关系为r=argmaxrsR（r，V）。到目前为止，我们假设剪辑v描绘了执行交互a的两个已知角色。然而，电影（和现实世界）通常更复杂，我们观察到几个角色可能同时互动。为了更好地理解视频，我们提出了一种方法来预测角色以及他们执行的交互以及他们之间的关系。虽然交互或关系可以容易地用作剪辑级标签，但是定位视频中的一对角色可能是繁琐的任务，因为它需要注释视频中的轨道。我们提出了一种方法，可以与这种弱（剪辑级）标签，并估计可能相互作用的字符对。预测互动和角色。作为第一步，我们看看联合预测的相互作用和字符对-a）、FCFCFCFCReLUReLUReLUReLUFCFCtanhFCtanhFCtanhtanh字符2字符1剪辑文本成形夹目视b）、相互作用I0.65承认0.64手表0.35解释0.27会谈EURR0.33陌生人0.27经理关系N0.72朋友0.69问平均池FC分类器ReLU分类器9853我RC一IC++特斯回想一下，p表示由vi组成的剪辑元组中的正确字符对，PM是所有字符的集合，这用于类似于Eq的弱标签损失函数。10个。p=argmaxsRC（V，r，p）+sIC（v，a，p），（12）电影里的情侣我们更新了评分函数（等式2）。第一章依赖于所选的字符对p∈ PM，Lweak（V）=pΣ[mRC−sRC（V，r′，p′′）+sRC（V，r′，p′）]，sIC（v，a，p）=σ（wI2·ReLU（WI1Φ（v，p），（7）r<$∈R，r<$=/r<$p<$∈PM其中Φ（v，p）现在编码任何字符对p的剪辑表示（我们对未看到的字符使用零）。我们Lweak（V）=Lweak（V）+λ（十三）Σ Lweak（v）.（十四）训练我们的模型，通过最小化以下损失来预测交互和字符IRCRC|V|ICv∈V在推理过程中，我们将评分函数的ICLIC（v）=[mIC−sIC（v，a<$，p<$）+sIC（v，a<$，p<$）].（八）和RC来生成一个3D张量，|PM|一|×| R|.|. 作为a<$∈A\OI（v）p<$∈PM之前，我们计算给定GT的字符对准确度，∗ ∗∗ ∗ ∗（a<$，p<$）/=（a，p）r，给定GTp的相互作用精度r和关系如果我们将评分函数s IC（v，a，p）视为维度矩阵，|PM|×|一|，负样本取自除具有重叠交互标记OI（v）的列和其中的元素（a<$=a<$，p<$=p<$）之外的任何位置。在测试时，我们计算给定地面实况（GT）交互作用的字符对预测精度，给定GT字符对的准确性，以及通过沿两个维度拾取最大得分的联合准确性。用弱标签训练。当GT字符对p在训练过程中未知时，我们修改等式中的损失。8通过首先选择对当前参数得分最高的对p_p和在训练期间已知的a_pp=argmaxsIC（v，ax，p），（9）p给定GTp和a的精度。我们还可以通过选择在所有三个维度上使张量最大化的元素来对所有三个维度进行联合预测。4. 实验我们首先描述实施细节（第二节）。4.1），然后简要分析数据集和任务的挑战性（第4.1节）。4.2）。节中4.3我们将互动和关系预测作为单独和联合任务进行检查。秒4.4从学习交互和同时估计这对字符开始最后，我们还讨论了预测的相互作用和本地化字符对的关系。我们在这一节中提出了定量和定性的评价。Lweak（v）=Σ[mIC−sIC（v，a<$，p<$$>）+sIC（v，a<$，p<$）] -是的4.1. 实现细节a<$∈A\OI（v），a<$/=a<$p<$∈PM（十）视觉特征。我们使用在Kinetics-400上预训练的ResNeXt-101模型[20]与我们知道GTp的情况相反，我们从整个列（a=a）中丢弃负数，以防止在选择p时的微小变化抑制其他字符对。在实践中，我们将sIC（v，a，p）视为多项式分布，并从中抽取p样本，以防止模型仅在一对上卡住。推理以与上述类似的方式执行。完全否定。如果对于大多数情况，损失满足（= 0），则例如，在1个样本处。正如我在[12]中所展示的，通过使用max而不是来选择硬否定可以帮助提高性能。我们采用类似的策略来选择硬否定，并计算所有字符对的损失，数据集。一批16个连续的帧被编码，并且特征图被全局平均池化以用于剪辑表示，并且在感兴趣区域（ROIPool）上平均池化给定修剪的片段Vi，我们在片段的时间跨度上最大化池上面提取的特征以挑选最重要的片段。对话功能。为了获得文本表示，首先将所有对话解析成句子。一个完整的句子可以短到只有一个单词（例如“嗨。”）或者由多个字幕行组成。如果多条线以“..."结尾，则也会连接它们。然后，使用预训练的BERT基础模型处理每个句子，如果存在，则使用来自下一个+9854人的掩蔽句子我们每秒钟提供一个面具Σ它们的最佳相互作用，即，p<$∈PMmaxa<$（·）在方程中8和10。如在句子对分类任务中所做的第二个句子（更多细节，参见[9]）。我们最大池在所有的句子预测相互作用、关系和角色。我们提出了用于学习模型的损失函数，估计哪些角色正在执行哪些交互以及它们的关系是什么。类似于Eq。7，我们首先修改关系得分以依赖于p：sRC（V，r，p）= σ（wRg（Φ（V，p））+bR）.（十一）在修剪的剪辑中说出以获得最终表示。请注意，每个剪辑始终具有可视表示。在没有对话框或轨迹的情况下，我们将缺失模态的表示设置为0。剪辑表示Φ。我们处理对应于最大池化后获得的每个模态的特征向量，R r9855时间范围与两层MLP。脱落（p=0）。3），在MLP中使用ReLU和tanh（·）非线性最后的剪辑表示是所有模态的串联（见图1）。3左）。多标记掩蔽。由于多个交互可能同时发生或与其他剪辑具有重叠的时间范围，因此我们使用掩蔽来排除负面贡献。通过这些标签对损失函数的选择。OI（v），对应于与v重叠的剪辑集合的标签，通过检查大于0.2的重叠（IoU）来创建。学习我们使用64的批量大小训练模型，并使用Adam优化器，学习率为3e-5。4.2. 数据集我们在MovieGraphs数据集上评估了我们的方法[47]。该数据集为51部电影中的7600个场景提供了详细的基于图形的社会情景注释。两种主要类型的相互作用是目前-详细的相互作用（例如. 笑）持续几秒钟并且通常是总体概要交互的一部分（例如，娱乐），可以持续长达一分钟。我们忽略这项工作中的这种区别，并以类似的方式处理所有交互这些分层注释是与视频中的相同时间跨度相关联的多个交互的总数不同于P2P实例的数量，因为一些交互涉及多个人。例如，在一对夫妇（cj和ck）倾听他们的治疗师（cl）的交互中，两个p2p实例是创建：cj→listens to→cl和ck→listens to→cl。数据集被划分为火车（35部电影），vali-dation（7部电影）和test（9部电影）分裂。训练集由15，516个交互（和20，426个p2p实例）和2，676对具有注释关系的人验证集和测试集分别有3，992和5，380个p2p实例，每个都有大约600个关系对。标签缺失。在至少有两个人参与的互动中对于与交互相关联的一对人，两者都具有76%的数据集的跟踪特征。在其他情况下，由于跟踪失败或不在场景中，一个或没有字符出现。对于评估，我们只考虑具有关系的样本，或者当一对字符出现时。合并交互和关系标签。我们将交互标签的数量从324减少到101，将关系从106减少到15，以减轻每个类只有1-3个样本的严重长尾问题然而，合并不会对类的多样性产生不利影响，例如，确定、希望、通知、忽略是我们与通信相关的标签集中的不同交互。我们采用分层的方法来合并交互。首先，所有类别分为4类：（i）信息性或指导性（例如，解释、建议、协助、指导）（二）模态交互精度视觉对话轨道Top-1Top-1 SoftTop-5✓--18.724.645.8-✓-22.430.150.6✓✓-25.031.954.8✓✓✓26.132.657.3表1：不同模态的交互预测准确度涉及运动（例如，打，玩，拥抱，捕捉）;(iii)中性化合价（例如，避免、假装、读取、搜索）;和（iv）负效价（例如，责骂、嘲笑、偷窃、抱怨）。在每个子类中，我们根据它们的含义在常用用法中的相似程度合并我们还将关系的数量减少到15个主要类：陌生人、朋友、同事、情人、敌人、熟人、前情人、老板、工人、经理、顾客、熟人、父母、孩子和兄弟姐妹。有向的互动和关系用于一个人与另一个人之间。例如，当父母通知→孩子，与孩子相反的定向交互对父母的话可以听也可以不听此外，本发明还互动和关系也可以是双向的，两个人都以相同的意图行动。恋人们互相亲吻。4.3. 预测相互作用和关系我们首先分别提出预测相互作用和关系的结果，然后是我们的联合模型。交互作用分类。我们在表1中分别分析了每种模态对相互作用分类的影响。与视觉特征相比，对话对模型性能的影响更大，因为电影中基于对话的交互很普遍然而，这两种模式是互补的，当一起提供了2.6%的准确性增加。正如预期的那样，结合所有模态，包括每个参与角色的轨迹，提供了26.1%的最高预测准确率。除了准确性，我们还报告了软准确性，这是一个当预测与剪辑的任何重叠交互相匹配时将其视为正确的度量，即。 a∈aOI（v）. 当使用所有模态时，我们达到32.6%的准确率。在图4中，我们看到了两个交互示例，它们很难单独基于视觉线索进行预测。在上面的例子中，我们看到地面实况标签读取是强调的，可能是由于对话框提到了字母，并且在检查视觉轨迹时以最高分数下面的例子是一个有趣的情况，没有对话框（所有0向量）有助于预测。在这种情况下，我们的模型似乎已经学会了离开对应于没有任何对话的步行同样，通过包含有关曲目的信息，我们的模型能够预测正确的标签。我们还研究了表4中不同时间特征聚合方法的影响。最大池外9856读数0.66轨道- “亲爱的无眠者和儿子，我一生中从未写过这样的信。- 每个人给陌生人的信开头都这么写。表2：Int.和Rel。要求0.77通知0.72解释0.69建议0.65赞美0.63成形夹目视解释0.7道歉0.67读数0.65再保险0.62通知0.62剪辑文本解释0.62坐0.6吃0.58欢迎0.58轨道方法Int.Rel. Rel. 参与25.326.8Rel. ←Int.26.325.9Rel. →内部 26.3 28.1表3：用于交互和关系的联合建模的不同架构。方法Int.平均值24.2总数25.4最大值26.1表4：时间聚合方法对交互准确性的影响。步行0.72解释0.68手表0.66停留0.65指控0.65手表0.76剩余0.73步行0.72运行0.71跟随0.69剩下0.75步行0.74运行0.7手表0.62跟随0.69监督否定多国公司。精度采样间隔角色关节随机-0.99 15.42 0.15全额-25.5 55.0 14.2弱和-18.9 20.0 4.6弱和25.1 25.0 7.8弱和最大值23.0 32.3 8.2图4：不同模态对交互预测的影响性能在每个示例中，我们显示了由视觉提示（左）、视觉+对话提示（中）和视觉+对话+跟踪信息（右）预测的前5个交互。正确的标签用绿色边框标记。在第二节中讨论。四点三。形成平均和总和，因为它允许形成包括最有影响力的段的关系分类。在一部电影中，关系往往是持续很长时间的。比如，陌生人不会在一瞬间成为朋友，父母永远是父母。我们假设通过观察一次互动来预测关系是具有挑战性的，并在图5中显示了改变剪辑数量（V的大小）的影响。我们看到，随着剪辑数量的增加，6个夹子处的下降在方差内。我们选择18个剪辑作为每帧和速度之间的权衡。在训练过程中，我们为具有相同关系的同一对人随机抽样多达18个片段。在测试时，剪辑是固定的，并均匀分布在所有出现的字符对上。交互作用和关系的联合预测。我们设置损失权衡参数λ = 1。5、共同优化网络，预测交互和关系。我们评估了如何对这两个任务进行建模的不同选项表5：完全监督和弱监督设置的交互和字符对的参见第4.4讨论在表3中。总的来说，用于预测相互作用的串联关系特征表现最好（Rel. →Int.）。表2显示，关系的准确性提高了1.3%，而交互作用仅提高了0.2%。在进一步的研究中，我们观察到，一些互动实现了很大的改善，而另一些人看到了下降。例如，拥抱（+17%），介绍（+14%）和跑步（+12%）等互动与特定的关系有关：兄弟姐妹，孩子，爱人与拥抱;敌人，爱人与跑步。另一方面，其他一些互动，如谈话，指责，问候，通知，叫喊，表现从1- 8%下降，也许是因为他们有相同的前三个关系：朋友同事陌生人人际关系也呈现出类似的趋势。兄弟姐妹、熟人、爱人对应于特定的互动，如拥抱、问候、亲吻，分别提高了11%、8%和7%而老板和经理有相当一般的互动要求，订单，解释和减少5- 7%.我们观察到，共同学习确实有助于提高个人能力。然而，由具有共同关系的人执行的交互，或表现出共同交互的关系我们相信这是28272625240 10 20 3040剪辑数量图5：随着我们分析更多的片段，关系的准确性增加。我们选择18个剪辑作为性能和速度之间的权衡。由于长尾类的存在，4.4. 本地化字符我们在表5中给出了字符定位和交互预测的评估。我们报告互动剪辑文本成形夹目视检查任务随机Int. 只Rel. 只联合相互作用0.9926.1-26.3关系6.67-26.828.1RELN准确度9857陌生人夹可能的磁道对a）、b）、c）、给定预测所有方法监控精度Int.Rel.Char. 联合仅限国际-20.7-仅限真实值22.4Int + Rel-20.7 20.5--- 你不喜欢维多利亚？- 她笑起来像土狼。- 这是真的吗？d）、- 有一点吧告诉他们你做了什么。整数+字符满19.7 - 52.8 11.1整数+字符弱17.9 - 29.7 6.34图6：交互作用（Int）的联合预测的示例，Int + Rel + Char充分20.018.688.82.29ship（Rel）和字符对（Char）。视觉剪辑，Int + Rel + Char弱15.629.621.61.50对话框，可能的轨道对显示在左侧。给定2条信息，我们能够回答第三条：谁啊？ Int + Rel → Char;做什么？Char + Rel → Int;和什么关系？Char + Int→ Rel.我们还可以通过最大化3D张量所有维度的得分来联合预测所有三个分量。最好在屏幕上看到变焦。监督否定多国公司。精度表6：联合交互、关系和字符对预测准确度.在预测列时提供其他标签：Int.，相关性：还有夏尔参见第4.4讨论给定正确字符对的准确度;字符对预测精度给出正确的相互作用;和整体精度。在全面监督下进行培训。在字符对已知的情况下（给出了地面真值对p），我们实现了25.5%的交互准确率这与我们仅预测相互作用的设置（26.1%）相当。我们认为，差异是由于我们的目标，以最大限度地提高得分的正确互动和字符对超过整个矩阵|PM|×|一|.联合准确率为14.2%，显著高于随机的0.15%。培训监督不力。在这里，交互标签适用于剪辑级别，即使在训练期间，我们也不知道哪些角色参与交互表5显示了对字符对进行采样比等式中的arg max更好。9（4.6%对7.8%的关节精度），因为它可以防止模型在特定选择上卡住。此外，在20个时期的老化期之后，将训练从所有否定的总和切换到硬否定（sum-max），进一步将准确度提高到8.2%。关节特征定位、相互作用和关系预测在表6中呈现。在使用GT字符对（完全监督）学习的情况下，包括关系学习将预测字符对的准确率提高到令人印象深刻的88.3%。交互精度还表7：测试集的评价列Int.，Rel和Char是指交互、关系和字符对预测精度。在具有完全/弱监督的联合学习期间，当给出其他标签时，报告个体准确度。增加到25.8%，而没有关系的培训为25.5%（表5）。当使用弱标签学习时，我们看到与以前类似的趋势。多项式采样和从所有（总和）到硬（总和-最大）否定的切换都将联合准确度提高到了2.14%，而完全监督则为2.71%图6显示了来自我们数据集的示例预测。我们提出了联合预测时，没有提供信息的部分d相比，部分a，b，c，其中两个三条信息。测试集。表7汇总了我们所有模型在测试集上的结果。我们看到了类似的趋势，除了由于不同的val和test分布而导致的关系准确性下降总的来说，我们观察到学习交互和关系共同有助于提高性能，特别是对于具有独特对应关系的类，但需要进一步研究其他类别。此外，字符定位是可以实现的，我们可以用弱标签训练模型，而不会显着降低性能。5. 结论我们提出了新的任务和模型来研究电影中人物之间的相互作用和关系。我们的神经架构以视觉剪辑、对话和字符对的形式有效地编码了多模态信息，这些信息被证明是预测交互的复杂工具。联合预测的相互作用和关系被发现是特别有益的一些类。我们还提出了一种方法，本地化字符对给定他们的相互作用/关系标签在剪辑的水平，即。在训练期间没有角色级别的我们将分享对MovieGraphs数据集所做的修改，以促进未来在这一令人兴奋的领域的工作，提高对人类社会状况的理解鸣谢。该项目得到了Louis Vuit- ton-ENS人工智能主席和法国政府的部分支持，作为“未来投资”计划的一部分，参考ANR-19-P3 IA-0001（PRAIRIE3IA研究所）。朋友亲子母会谈谁家长做你说什么？会谈会谈什么母关系？没有什联合预测采样Int.Rel.Char. 联合随机--0.99 6.67 15.420.01充分总和-25.8 16.688.32.71弱总和✓25.8 12.042.00.86弱最大和✓20.8 21.833.92.149858引用[1] Sami Abu-El-Haija、Nisarg Kothari、Joonseok Lee、PaulNat-sev 、 George Toderici 、 Balakrishnan Varadarajan 和Sud-heendra Vijayanarasimhan。Youtube-8 m：大规模视频分类基准。arXiv预印本arXiv：1609.08675，2016。[2] Jean-Baptiste Alayrac ， PiotrBojanowski ， NishantAgrawal，Ivan Laptev，Josef Sivic，and Simon Lacoste-Julien.从叙述式教学视频中进行非监督式学习在CVPR，2016年。[3] Timur Bagautdinov，Alexandre Alahi，Francois Fleuret，Pas- cal Fua，and Silvio Savarese.社交场景理解：端到端多人操作本地化和集体活动识别。在CVPR，2017年。[4] 达芙妮湾伯根塔尔《社会生活的算法》（Algorithms ofSocial Life）：基于域的方法。Psychological Bulletin，126（2）：187[5] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在CVPR，2017年。[6] Paola Cascante-Bonilla ， Kalpathy Sitaraman ， MengjiaLuo，and Vicente Ordonez. Moviescope：使用多种模式对电影进行大规模分析。 ArXiv ， abs/1908.03180 ，2019。[7] DimaDamen 、 HazelDoughty 、 GiovanniMariaFarinella 、 Sanja Fidler 、 Antonino Furnari 、 EvangelosKazakos、Da- vide Moltisanti、 Jonathan Munro、 TobyPerrett、Will Price和Michael Wray。扩展以自我为中心的愿景：EPIC-KITCHENS数据集。在ECCV，2018。[8] Zhiwei Deng ， Arash Vahdat ， Hexiang Hu ， and GregMori.结构推理机：用于分析群体活动识别关系的递归神经网络。在CVPR，2016年。[9] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。[10] Abhinav Dhall ， Roland Goecke ， Jyoti Joshi ， MichaelWagner，and Tom Gedeon.2013年野外挑战赛中的情感识别在2013年国际多式联运会议[11] Ali Diba ， Mohsen Fayyaz ， Vivek Sharma ， ManoharPaluri，Jurgen Gall，Rainer Stiefeldings，and Luc VanGool. 大规模视频理解。 arXiv 预印本 arXiv ：1904.11451，2019。[12] 放大图片作者：David J. Fleet，Jamie Ryan Kiros，andSanja Fidler. VSE++：用硬否定词改进视觉语义嵌入。在BMVC，2018年。[13] Fan Lifeng ， Wenguan Wang ， Siyuan Huang ， XinyuTang ， and Song-Chun Zhu. Understanding human gazecommunication by spatio-temporal graph reasoning. 在CVPR，2019年。[14] Andrew C Gallagher和Tsuhan Chen。理解一群人的形象。CVPR，2009。[15] Rohit Girdhar 、 Joao Carreira 、 Carl Doersch 和 AndrewZisserman。视频动作Transformer网络。在CVPR，2019年。[16] Rohit Girdhar、Deva Ramanan

下载后可阅读完整内容，剩余1页未读，立即下载