没有合适的资源?快使用搜索试试~ 我知道了~
社交智能:问题和视频的评估(中文)
8807(严肃的脸)(沉默)(打断)但这是星期五马特!今天是星期五。我你说你会做的但你没有做!Social-IQ:一个人工社会智能Amir Zadeh1,Michael Chan1,Paul Pu Liang2,Edmund Tong1,Louis-PhilippeMoonlight11语言技术学院,2机器学习系卡内基梅隆大学multicomp.cs.cmu.edu/social-iq{abagherz,mkchan,pliang,edtong,mooper}@cs.cmu.edu2019 - 02 - 1500:00:00问题2:没有受到指责的人如何应对这种情况? <高级>A1.他认为另一个人在偷懒,即使他没有说出来。<高级> A2。他站在那个女人一边,表示对她的支持。<中间体> A3。他认为他比争论的两个人都好。 <简单>A4.他不想选边站。 <高级>问1:穿白衬衫的女人和男人之间的讨论如何?<中间体>A1.这位女士正在指责穿白衬衫的男人,他似乎是罪魁祸首。<简单> A2。她用紧张的声音责备她,不让他为自己辩护。<高级> A3。他们正在进行一场浪漫的谈话。 <简单>A4.一个积极的论点,双方都在指责对方。<高级>Q3:为什么这位女士看起来如此不知所措? <高级>A1.因为一个小问题变成了大问题。中间<体>A2.她的事情太多了,这个新问题使她烦恼。 <高级>A3. 这位女士很生气,因为男人们侮辱了她。 <简单>A4.因为他们两个男人似乎都无视她。中间<体>图1:最佳观看放大和颜色。Social-IQ数据集问题和视频的概述Social-IQ通过回答问题来评估人工社会智能。该数据集包含1250个视频,7500个问题,30000个正确答案和22500个错误答案。问题和答案按复杂性级别进行注释:简单、中级和高级。Q表示问题,A表示答案。绿色的答案是正确的,红色的答案是不正确的。摘要随着智能系统越来越多地融入我们的日常生活,人工社会智能成为一个突出的研究领域。智能系统必须具有社会智能,以便理解人类意图并与人类保持丰富的交互水平。人类语言提供了一种独特的不受约束的方法来探索问题,并通过对社会情境的回答进行推理。这种不受约束的方法扩展了以前的尝试,通过数字监督(例如,情绪和情感标签)。在本文中,我们介绍了社会智商,一个不受约束的基准,专门设计用于培训和评估社会智力,gent技术。通过提供丰富的开放式问题和答案,社交智商打开了一扇通往可解释的社交智力的大门该数据集包含经过严格注释和验证的视频、问题和答案,以及针对每个问题和答案的复杂程度的注释。社交智商包括1250个自然的野外社交情境,7500个问题和52500个正确和错误的答案。尽管人类可以以非常高的准确性推理社会情境(95。08%),现有的最先进的计算模型在这个任务上挣扎。因此,Social-IQ带来了新的挑战,这将引发未来在社会智能建模,视觉推理和多模态问题回答(QA)方面的研究(试图说话)史蒂文去拿了钥匙我们要把钥匙拿回来。那么容易得到的.(严肃的脸)88081. 介绍社会智力的定义和研究在心理学,社会学和心理语言学中有着丰富的历史[44,47]。这些研究旨在评估理解社会情境背后的认知过程;一个隐藏的认知过程,往往超出了明确的意义和结构的理解[23]。随着智能系统越来越多地成为我们日常生活中的现实,社交智能成为未来人工智能(AI)系统的关键部分。与传统的人工智能系统可以基于数字标签来测量现象不同,社会智力的心理测量评估需要超越数字标签的探测器。为此,我们提出了社会智商(社会智力)数据集。社会智商为不受约束和可解释的社会评价和理解人工智能打开了大门。它包含了一个严格的注释和手动验证的7500个问题,52500个答案(30000个正确,22,500个错误)of 1250social社会in the wild野生videos视频.问题回答是一种有效的方法,探索对潜在现象的理解水平[27,6]。在机器学习中,这种形式的探测在多个不同的领域具有良好的优先级,从理解书籍和文本[25]到理解电影中的事件[26]。为了建立一个适合社会理解的问题回答资源,Social-IQ努力分析社会情况,因为它们发生在野外。自然的互动被相机捕捉,并每天从生活的不同方面上传到社交媒体;比如生日聚会或者篮球比赛。 通过使用大量的YouTube视频,Social-IQ涵盖了广泛的社会和行为情况。然而,社会智商在问题类型和每个问题如何探测社会智力方面是多种多样的。这些问题也涵盖了广泛的复杂性(高级,中级和简单)。我们在本文中的贡献如下:1)我们正式定义了一个开放式的问答任务,用于测量当前和未来AI系统的社会智能。2)我们提出了这一领域的第一个数据集,称为社会智商,它专注于社会智力的心理测量 3)我们分析了最先进的性能在多模态QA的社会智商数据集。通过我们的实验,我们观察到社会智商是一个具有挑战性的数据集;人类可以达到非常高的准确率(95。08%),而最先进的机器学习(64。82%)以较大幅度(在具有50%随机性能的任务上)落后。这种差距突出了社会智商等资源的价值;一个能够不受约束地探测社交智能的数据集。2. 相关作品本文中的数据集和实验涉及以下领域:2.1. 问答智能问答是人工智能最具挑战性的目标之一,它植根于数十年来对人工智能的研究[17,54]。在过去的几年里,人们对使用神经模型进行智能问答的兴趣激增。最近,问答已经演变成一个多模态的框架。该领域的数据集始于DAQUAR [33],其中图像和问题配对在一起。随后,其他四个成功和有影响力的数据集如下:COCO-QA [37]、VQA [6]、FM-IQA [15]、Vi-sual7w [63].在上述所有数据集中,问题都是关于单个图像的。最近,视觉问答的想法MovieQA [43]专注于理解电影中的事件以及它们从电影帧,脚本和情节中的排序。接近这个想法,TVQA [26]提出了一个替代数据集,用于理解电影和情节。总的来说,与视觉问答和文本问答相比[59,11],缺乏专门设计用于衡量当前和未来AI系统中社交智能Social-IQ建立在从以前的多模态数据集吸取的经验教训的基础上,包括一些关键组件:1)不受约束和无脚本的环境:社交智商视频来自YouTube上的各种野外视频。在这些视频中有各种不同的角色。这些视频中的社交场景很少有脚本,事件比电影更不稳定。2)多模态刺激:所有问题都与视频中的事件直接相关,并且需要来自多个模态的信息来正确回答。这个问题以各种方式为基础,包括视频、对话和音频。3)注释者偏见:与著名电影不同,任意的社交在线视频在注释之前不太可能被注释者看到。此外,为Social-IQ设计了多个验证阶段,以消除注释偏见,并确保视频,问题和答案的质量保持较高。4)可解释性:社会智商的注释者伴随着他们的答案有足够的推理,超越了只有几个字组成的简短答案。社交智商答案的平均长度比以前的数据集长近2.2. 多模态机器学习多模态机器学习是最近机器学习中最成功的趋势之一[7]。在深度学习进步的推动下,多模态模型8809被研究团体创造性地使用,这些研究社区围绕着多模态语言分析[58]、情感分析[46,31],情绪识别[29],人格特征识别[56],图像字幕[5,4,34],多-时间媒体描述[50,51,62],和视频播放-[14,32,19,60]。3. 社会智力受过去测量社会智力的心理学和社会学研究的启发[21,45,35,48,39,53],我们根据以下四个标准设计了社会智商指南:1)社会情境中的判断,2)处理人类智能行为,3)理解心理状态,特质,态度和属性4)参考和接地的记忆。社会智商中的问题涉及至少一个或多个上述社会智力标准。以下是上述每项标准的详细定义,并附有示例:社 会 情 境 中 的 判 断 : 与 Piotr Sztompka [42] 和 MaxWeber [52]开发的社会学定义相一致,我们将社会情境定义为涉及两个(二元)或更多个体的社会交换或行为。更正式地说,社会情境涉及人类的身体运动、意图和一系列相互回应的独特互动。社交场合可以通过语言和非语言渠道进行交流。这方面的智能包括理解社会状况背后的原因和意图此标准的可接受问题示例如下:“这群人相处得好吗?“ (yes该组织似乎 ”或者“房间的气氛如何?“(it因为参与的人似乎在争论和不同意)。在这两种情况下,问题都针对特定社交互动的核心。处理人类智能行为:这个标准指的是人类如何以及为什么以某种方式行动或反应[40]。探索人类行为的示例问题包括:“这两个人是如何证明他们互相支持的?“(by拥抱了很长一段时间),或“为什么女人假装没有听到男人?“(she她这样做是因为她的感情被他伤害了)。值得注意的是,根据这一标准,直接行动问题是不可接受的。例如,“这个人在举重吗?“(yes,他在健身房里这样做)是不能接受的社会智商的问题,因为他们不调查社会智力。理解心理状态、特质、态度和贡献:我们将特质定义为稳定的个性特征,而状态则是取决于一个人在特定时间的处境和动机的暂时行为或感受[8]。两种特质和状态都是通过com来表现的人与人之间的关系[16]。此外,我们将态度定义为一个人此标准的可接受问题示例包括:“那个黑袍人,看起来像是能承受压力的人吗?”(不,因为他的笔记本电脑的一个简单的问题让他比他应该的更恐慌),“为什么穿紫色裙子的女人叫穿西装的男人精神病患者?“(她认为他对自己的所作所为毫无悔意)。我们将人类属性定义为表现出一定的礼貌或一贯的行为(例如勇敢,公正)。属性的示例问题包括:“那个穿蓝衬衫的人是怎么表现出他的勇敢的?“(by站起来面对欺负沉默的人的人群)。参考和接地存储器:除了上述标准外,社交智能还包括通过多模态接地理解各种参考。这种形式的基础超越了一种模态的简单引用(即,个人的名字或外貌)。在社会情境中,即使角色的身份是未知的,人类也会建立一个共同的基础来指向实体。例如社交智商致力于多样化的参考。由于人类理解这些引用(只要引用是确定的),我们鼓励为实体提供广泛的引用方法。值得注意的是,参考文献应包含在相应的视频中。例如,不能从视频中推断出的单个名称是不可接受的。除上述标准外,要求社会智商中的所有因此,关注无生命实体、物体和动物的问题被拒绝。比如:“男人捡的是什么?”(一个大木箱)是不能接受的。然而,一个问题,如“该名男子提出的箱子在压力?“(Yes这个箱子对他来说太重了)被接受了。理解和回答社会智商中的问题可能需要不同水平的社会智力。我们为问题和答案添加了一个复杂性度量,作为处理它们所需的智力和理性水平的主观近似值。每个问题或答案(正确或不正确)都被分配了一个复杂度级别。复杂性水平被定义为基于3个水平(简单、中等和高级)的Likert量表,概述了回答问题、接受(正确)或拒绝(不正确)答案所需的社会智力水平简单的复杂性级别被分配给需要简单的社交智能和对视频的理解的问题和答案。例如,“谁是这个群体中的主导者?”“(the穿红衣服的女人),这可能需要简单地理解谁在说话及其语调。对于先进的COM-88101 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 231 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23先进(41%)并(8如何(26%)简单(19%)0.060.040.020≤3 4 5 67 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24≥25(a) 问题长度分布(c)问题类型分布中级(40%)(e)问题复杂度分布0.20.180.160.140.120.10.080.060.040.020(b) 正确(绿色)和不正确(红色)答案长度的分布0.50.450.40.350.30.250.20.150.10.050(d)视频中活跃角色数量的分布(f)视频类别图2:最佳观看放大和颜色。社交智商数据集统计。(a)以字数显示问题长度的分布问题的平均字数是10个。87.(b)以平均10个单词的数量显示答案长度的分布。46个字回答正确(绿色)和不正确(红色)都遵循相同的分布。(c)Social-IQ数据集中的各种问题类型。(d)视频中活动角色的数量分布。(e)社会智商中问题复杂性的分布,大多数问题是中级和高级。(f)Social-IQ数据集中的各种主题。复杂程度、问题和答案需要对视频、人物及其交互以及潜在的多跳推理和参考解析的深入理解和分析。举例来说:“最不同意男人的女人选择了什么策略来对抗他?”(她决定先责备他太天真,然后又说他不道德)。这个问题回答对需要理解视频中角色之间的互动,以及互动如何随着时间的推移而发展。4. 社会智商数据集在本节中,我们将介绍社交智商(Social IQ)数据集的详细信息,该数据集遵循上一节(第3节)中概述的测量社交智商的指南。 社会智商是在自然的社会情境中评估社会智力的一个问题回答(QA)基准。Social-IQ提供了1250个视频,7500个问题,52500个答案。swers(30,000正确,22,500错误)。我们首先全面概述了Social-IQ数据集的统计数据。之后,我们讨论了严格的符号过程和多个验证阶段。4.1. 数据集统计数据在本小节中,我们介绍了社会智商数据集的主要统计数据。我们将统计数据分为三个部分:问题统计,b)答案统计,和c)多媒体统计。问题统计:Social-IQ数据集总共包含7500个问题(每个视频6个)。图2(a)显示了问题长度在字数方面的分布社会智商测试中的平均问题长度是10.87字图2(c)显示了Social-IQ数据集中的不同问题以“为什么”和“如何”开头的问题,通常需要因果推理,是社会智商中最大的一组问题。这是Social-IQ数据集的一个独特特征,也是Social-IQ与其他多模态QA数据集(通常有什么(对象)和谁的问题是最常见的[26,43])的区别因素。图2(e)展示了社会智商问题的复杂性分布。数据集的大部分由高级和中级问题组成(两者之间的份额几乎相等),而简单的问题共享数据集的一小部分。社会智商中问题类型和复杂性水平的分布表明了数据集的挑战性。答案统计:社交智商包含30000个正确答案(每个问题4个)和22500个错误答案(每个问题3个)。图2(b)展示了Social-IQ数据集中答案的单词长度分布。正确答案(绿色)和错误答案(红色)都遵循类似的分布。平均下来,一共有10个。46个字≤3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 ≥25112233445≥50.14其他(3%)是(10%)0.12谁(1%)描述0.1(2%)0.08为什么什么(158811社交智商测试的答案这也是Social-IQ数据集的独特特征,因为平均答案长度比其他多模态QA数据集长(平均长度在1. 24比5 3字[6,38,33,26,43])。长的平均长度表明了社会智商答案的详细程度Social-IQ数据集中存在多个正确答案,允许在多个解释对某个问题正确的情况下,对注释者的多样性和主观性进行建模此外,具有多个正确答案可以实现答案生成任务(其中10个需要多个正确答案才能成功评估[36,30])。多媒体统计:Social-IQ数据集由来自YouTube的1250个视频组成。图2(f)展示了Social-IQ中视频类别的概述总共有1,239分钟的带注释的视频内容(10,529分钟的完整视频)。图2(d)显示了视频中字符数量的分布。Social-IQ数据集中的所有视频都包含带有详细时间戳的手动转录。4.2. 注释程序Social-IQ数据集的注释分6个不同的阶段进行(图3)。在14个月的时间里(跨越三个注释季节),共有50名注释者1在进行注释之前,注释者为此任务进行了几次培训(在第4.3小节中讨论),以正确理解第3节中定义的社会智力测量。这6个阶段的详情如下:视频采集阶段:包括YouTube在内的在线社交媒体平台包含大量具有各种社交场景的野外视频。作为第一步,使用一组广泛的搜索词从Youtube2上收集了一组2000 个 视 频 这 些 检 索 词 的 选 择 遵 循 先 前 由 CMU-MOSEI数据集[58](包含250个不同的检索词)确定的优先顺序。我们要求所有视频在80%的帧中保持至少一个人脸(使用MTCNN [61]检测)。一组2000个视频是用这个策略获得视频验证阶段:在获取初始视频集之后,对于每个视频,两个经过训练的注释者检查视频以确保存在社交场景。具体来说,注释者关注的是社交互动、意见分享和沟通的存在总共有1250个视频是通过这种方式挑选出来的。问题生成阶段:在这一阶段,专家安-1聘请并培训卡内基梅隆大学的本科生。2视频遵循知识共享许可证。视频采集阶段视频验证阶段问题创建阶段问题验证阶段第一阶段答案验证阶段1,250个视频图3:用于创建社交智商数据集的6个阶段。视频采集和验证阶段制作了1250个包含社交场景的视频。问题创建和验证阶段产生7500个问题。回答和回答验证阶段产生52,500个答案(30,000个正确,22,500个错误).测试者被要求提出一些问题,以探究第3节所定义的社会智能。给定一个视频,指示两名经过培训的注释者每人问3个问题。记录员也被要求保持他们的问题的多样性和高度的复杂性。他们对每个问题提出了一个正确答案和一个错误答案。此外,他们用复杂性标签来标记他们的问题和答案。在这个阶段之后,每个视频由6个问题,6个正确答案和6个错误答案组成。问题验证阶段:给定一组6个问题,我们要求一组单独的2个注释者来验证问题(无论它们是否符合第3节中的定义)。如果注释者对问题的有效性有争议,则该问题将被删除并传递到问题创建阶段进行重新注释。对答案执行类似的过程。此外,这两个注释器用复杂性标签标记每个问题和答案。筛选阶段:一组两个注释者回答每个视频的6个问题(每个注释者3个)。这些注释者不同于在问题创建阶段提出问题并在问题验证阶段验证问题的注释者。每个注释者为每个问题创建3个正确答案和2个错误答案(不知道来自问题创建阶段的任何先前正确或错误答案)。与问题创建阶段类似,注释者被鼓励保持他们的答案多样化。注释器还用复杂度级别标记每个答案在这个阶段之后,每个问题包含4个正确的-7,500个问题52,000个答案8812Q1.房间里的男人对彼此有什么感觉?Q2.戴蓝帽子的人是怎么被取笑的?Q3.为什么右边那个穿黑色连帽衫的男人在他朋友开始说话的时候摇了摇头?Q1.视频中的人对小丑在那里感到舒服吗?Q2.谁对小丑最感兴趣?Q3.小丑是怎么开始骚扰穿条纹衬衫和靴子的女人的?Q1.金发女人和红发女人在一起感觉如何?Q2.当两个女人在争吵时,为什么那个男人不介入?Q3.这个男人认为那个红头发的女人是完全无辜的吗?Q1.男人们在认真地交谈吗?Q2.坐在红色椅子上的人是否很兴奋地和坐在他面前的人交谈?Q3. 这两个人基本上是一致的吗?Q1. 男人想让女人笑吗Q2.这个人对水倒在他脸上有什么感觉?Q3. 这位女士吐痰是想冒犯这位男士吗水在他的脸上?Q1.为什么坐在前排的那个穿格子衬衫的男人做了个奇怪的表情?Q2.被人叫了一声,右边那个穿藏青色夹克的男人是怎么回应的?Q3.人们彼此友好吗?图4:Social-IQ数据集中的示例视频和问题,这是自然主义社交情境中评估社交智力的基准在野外的在线视频展示了各种社会情况,这些情况构成了社交智商数据集的基础。Social-IQ提供了1250个视频,7500个问题,52500个答案(30000个正确,22500个错误)。3个错误的答案(包括1个正确的和1个错误的问题创建阶段)。答案验证阶段:与问题验证阶段类似,一组2个注释器(与问题创建和验证阶段中的注释器不同)验证每个答案。验证答案的多样性以及它们是否被正确标记(如果正确/不正确的答案确实是正确/不正确的)。此外,他们用复杂程度来标记答案。经过上述阶段,1250个视频,7500个问题,52500个正确和错误的答案组成了Social-IQ数据集。图4显示了Social-IQ数据集中的一些视频示例,以及问题、正确答案和错误答案的注释。4.3. 注释员培训由于第3节中指南的严格性,需要详细的注释者选择和培训过程以实现高质量的注释。培训过程分为三个阶段:初级训练阶段:培训的第一阶段包括深入理解第3节中的标准。在一个单一的培训课程中,定义了社会智商标准注释者还学会了如何通过为Social-IQ构建的指定在线注释系统来这个注释系统的通用实现称为CMU-Crowd:https:github.com/A2Zadeh/CMU-Crowd 可 供 学 术 使用。中级培训阶段:在使用在线注释系统之前,注释者将获得第4.2小节中每个注释阶段的培训视频。在观看视频后,注释者在开始Social-IQ注释之前完成了问题创建阶段的一组10个持续督导阶段:作者每周持续监测标记者的表现。在一年的时间里举办了一组8个注释讲习班。工作质素欠佳的注释员会被要求出席个别会议接受再培训。值得注意的是,整个注释时间轴的培训和监督旨在鼓励问题和答案的创造性和多样性我们的措施没有阻止注释者探索提问和回答问题的新方向。事实上,注释者是通过基于以下内容的金钱礼物来激励8813他们的注释的创造性和他们的能力,带来的问题和答案,从地区未探索的pre-proximate。5. 实验我们实验的第一个目标是分析最新技术在社会智商方 面 的 表 现 我 们 在 MovieQA [43]3 , TVQA [26]4 和CMU-MOSEI [58]的记分牌上对表现最好的模型进行了广泛的我们比较这些模型的性能与对方和人类水平的性能在二进制和多项选择设置。在二进制情况下,模型给出了一个答案,并期望预测答案是正确还是不正确。在多项选择的情况下,模型应该从一组4个答案中选择正确的答案(其中3个是不正确的)。我们实验的第二个目标是识别社交智商中的任何潜在偏见。针对偏差的模型是通过设计简单的模型来证明数据中是否存在可以在训练过程中利用的微不足道但经常发生的模式。以下基线旨在探索这些偏差。在所有这些基线中,LSTM模型用于对每个输入模态的顺序信息进行编码,并且答案取决于类似于[26]的输入编码的级联我们首先概述了利用偏见的模型,然后是相关任务的最先进的执行模型。Q+A:我们研究的是只有问题和答案(没有视频,音频或文字记录)的正确和不正确答案的可预测性。该基线表明是否存在正确或不正确答案的模式,这可以导致在没有任何视频上下文的情况下识别正确性。我们使用BERT嵌入[11]作为语言的上下文分布式单词表示。BERT嵌入已被证明是常识推理和问题回答的合适表示。Q+A+T:这种偏差证明了抄本(T)在预测正确和错误答案方面的有用性。与Q+A基线类似,T的分布特征也使用BERT嵌入提取5。然后使用LSTM对T的嵌入序列进行编码。Q+A+V:这种偏见通过使用整体视觉嵌入来预测正确和错误答案,证明了视觉模态(V)的有用性。我们使用从DenseNet161 [20]中提取的代表(最后平均值http://movieqa.cs.toronto.edu/leaderboard/3http://tvqa.cs.unc.edu/leaderboard.html5由于BERT将输入单词标记化,我们修改BERT嵌入的代码以保持标记和单词之间的映射,因此可以在视频的持续时间内正确计算时间戳。表1:各种模型的性能,包括MovieQA [43]、TVQA[26]和CMU-MOSEI [57]中的最新技术水平。A2↑表示二进制精度,A4↑表示多项(四项)选择(越高越好)。人类水平的表现和神经系统的最新技术水平之间存在很大的差异,差距为30。26%在二进制问题回答任务。池化层,2208维)。虽然视频最初的采样率为30fps,但我们只使用1fps进行基线实验。Q+A+Ac:这种偏倚证明了声学(Ac)模态在预测正确 和 错 误 答 案 方 面 的 有 用 性 。 我 们 使 用 来 自COVAREP [10]的低级和高级声学表示,包括12个Mel频率倒谱系数、音高跟踪和浊音/清音分割特征[12]、声门源参数[9,13,1,3,2]、峰值斜率参数和最大色散系数[22]。以下基线属于TVQA [26]、MovieQA [43]和CMU-MOSEI [58]数据集的最新技术我们根据它们的表现和结构多样性选择这些基线。End2End多模式存储器网络(E2EMMemNet):这基线 具有 示 promissing- ing在MovieQA数据集上的性能。我们基于原始实现[41]和使用DenseNet161功能和COVAREP的多模态扩展实现了此基线。多模态双重注意力记忆(MDAM)[24]:该基线也是MovieQA数据集的最佳表现之一。MDAM使用两种注意力:1)基于视觉框架的自我注意(时间)和2)基于问题的交叉注意。然后,使用深度递归神经网络进行回答。人类95.08-基线度量精度A2↑ A4↑随机50.0025.00Q+A(BERT)[1]57.0228.61Q+A+T(BERT)[11]57.8729.36Q+A+Ac(BERT+COVAREP)57.2229.58Q+A+V(BERT+DenseNet161)63.9132.62LMN [49]61.1231.81[第28话]60.8831.01[41]第四十一话62.5831.46MDAM [24]60.2330.71[第26话]59.9629.89[第55话]63.1529.82最惠国待遇[56]62.7830.86张量最惠国待遇64.8234.148814分层记忆网络(LMN)[49]:该基线是ICCV 2017 6的“联合视频和语言理解研讨会”的获奖者基线有两个主要模块:静态单词记忆模块,其基于视觉帧构建转录单词的表示;以及动态字幕记忆模块,其基于帧的高级描述符构建转录句子的表示。焦 点 视 觉 - 文 本 注 意 力 ( FVTA ) [28] : FVTA 是MovieQA的一个强有力的基线该基线提出了一种称为焦点视觉文本(FVT)的新形式的注意力;使用外积来构建联合多模态空间的注意力扩展。多流内存(MSM)[26]:该基线是TVQA数据集的最佳基线来自视觉、听觉和语言的多所有的模式都是使用循环网络嵌入的,并在随后的阶段融合在一起以回答问题。张量融合网络(TFN)[55]:最初是为多模态情感分析提出的,我们通过基于转录,视觉和声学模态嵌入的外部张量积来调节答案,从而扩展了这个模型TFN的一个强大方面是对数据的单峰、双峰和三峰分量执行融合。在融合之前,使用三个LSTM总结模态。融合的输出被添加到问题和答案中以做出最终预测。记忆融合网络(MFN)[56]:该模型用于情感分析,情感识别和个性特征识别的任务。它使用了一种增量记忆注意力,它存储了多个LSTM之间的连续记忆变化.然后,它对模态的变化进行多模态融合,并将信息存储在单独的存储器中。MFN模型使用转录本、音频和视频之间的对齐信息,这是理解多模态语言的重要组成部分[58]。Tensor-MFN是通过在TFN和MFN模型上执行架构和超参数搜索并将它们组合成联合模型而创建的基线。简而言之,Tensor-MFN使用DenseNet 161场景嵌入和Tensor Fusion在MFN的循环阶段进行多模态融合。人因绩效证明了人因绩效(注释者事先未看到问题和视频),6http://movieqa.cs.toronto.edu/workshops/iccv2017/二进制格式,类似于用于所有基线的设置6. 结果和讨论表1显示了第5小节中基线的性能。乍一看,我们的偏差分析实验证明来自Q+A的Social-IQ数据集中的偏差最小。BERT嵌入通常以其在常识推理中的成功而闻名,表现出比随机略高的性能。这从本质上说明,单纯通过问题和答案进行常识推理不足以回答社会智商中的问题。在Social-IQ数据集中回答问题需要常识和背景。来自T、Ac和V的上下文信息能够提高回答性能。具体来说,通过添加来自DenseNet161的视觉信息,改进最高。除偏倚分析模型的性能外,MovieQA、TVQA和CMU-MOSEI的最新模型结果见表1。报告人的性能(在确认阶段计算)95。08%的二进制任务。最先进的模型和人类表现之间的差距仍然很大。这意味着Social-IQ数据集的挑战性以及在此方向进一步研究的必要性7. 结论最后,本文介绍了Social-IQ(Social Intelligence),这是一个先锋的现实世界无约束数据集,旨在评估现有和未来AI技术的社会智能和能力。社会智商还关注模型的可解释性,通过使用开放式答案来模拟模型对社会智力的理解背后的基本原理这个经过严格标注的数据集包含了7500个问题,52500个答案,跨越了1250个自然的社会情境。我们的实验结果表明,尽管人类可以以高准确率(95。08%),现有的QA模型在这一任务上挣扎。因此,Social-IQ是一个具有挑战性的数据集,我们希望它能激发未来在社会智能建模、视觉推理和多模态QA方面的研究该数据集与提供的功能一起公开提供,用于研究目的确认我们要感谢我们的注释者在注释Social-IQ数据集方面的奉献。此外,我们还要感谢Amy Lee和Helen Li准备的教程以及他们对标注员的管理和指导这项工作由美国国家科学基金会(NSF)资助1750439和OculusResearch(Facebook Reality Labs)资助8815引用[1] 帕沃·阿尔库基于基音同步迭代自适应逆滤波的声门波分析。言语交际,11(2-3):109[2] Pa av oAlku,TomBckstrm,andErkkiVilkman.没有用于参数化流体流的归一化振幅商。美国声学学会杂志,112(2):701[3] 帕沃·阿尔库,赫尔默·斯特里克,埃尔基·维尔克曼。抛物谱参数--声门流量定量的新方法。言语交际,22(1):67[4] Peter Anderson,Xiaodong He,Chris Buehler,DamienTeney,Mark Johnson,Stephen Gould,and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议(CVPR)上,2018年6月[5] Jyoti Aneja,Aditya Deshpande和Alexander G. 施温卷积图 像 字 幕 。 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),2018年6月。[6] Stanislaw Antol , Aishwarya Agrawal , Jiasen Lu ,Margaret Mitchell,Dhruv Batra,C Lawrence Zitnick,and Devi Parikh.Vqa:可视化问答。在IEEE计算机视觉国际会议论文集,第2425- 2433页[7] 塔达斯·巴尔特鲁斯·艾提斯、柴坦尼亚·阿胡贾和路易斯-菲利普·莫伦西。多模态机器学习:一项调查和税收经 济 学 。 IEEE Transactions on Pattern Analysis andMachine Intelligence,2018。[8] 威廉·F·卓别林,奥利弗·P·约翰,刘易斯·R·戈德堡。状态和特征的概念:以理想为原型的维度属性。人格与社会心理学杂志,54(4):541,1988.[9] Donald G Childers和CK Lee。声乐质量因素:分析、综合与感知。美国声学学会杂志,90(5):2394[10] Gilles Degottex,John Kane,Thomas Drugman,TuomoRaitio,and Stefan Scherer.语音技术合作语音分析库。在Acoustics,SpeechandSignalProcessing(ICASSP),2014年IEEE国际会议上,第960-964页。IEEE,2014。[11] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert:为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv:1810.04805,2018。[12] Thomas Drugman和Abeer Alwan。基于残余谐波的联合鲁棒浊音检测和基音周期估计。InInterspeech,pages1973[13] Thomas Drugman 、 Mark Thomas 、 Jon Gudnason 、Patrick Naylor和Thierry Dutoit。从语音信号中检测声门闭合瞬时:定量的审查。IEEE Transactions on Audio,Speech,and Language Processing,20(3):994[14] Lijie Fan , Wenbing Huang , Chuang Gan , StefanoErmon,Boqing Gong,and Junzhou Huang. 用于视频理解的运动表示的在IEEE计算机视觉和模式识别会议(CVPR),2018年6月。[15] Haoyuan Gao , Junhua Mao , Jie Zhou , ZhihengHuang,Lei Wang,and Wei Xu.你在跟机器说话吗?用于多语言图像问题的数据集和方法。神经信息处理系统的进展,第2296-2304页,2015年[16] 詹妮弗·乔治。状态或特质:积极情绪对工作中亲社会行为的影响应用心理学,76(2):299,1991。[17] 小伯特·F·格林,爱丽丝·K·沃尔夫,卡罗尔·乔姆斯基和肯尼思·劳里。棒球:一个自动的问题回答器。在1961年5月9日至11日,西方联合IRE-AIEE-ACM计算机会议上发表的论文中,第219-224页ACM,1961年。[18] 爱德华·H·霍维什么是情绪、情感和情感?将迈克尔·佐克的方法论应用于情绪分析。在语言产生,认知和词汇,第13-24页。施普林格,2015年。[19] De-An Huang,Vignesh Ramanathan,Dhruv Mahajan,Lorenzo Torresani , Manohar Paluri , Li Fei-Fei , andJuan Carlos Niebles. 什么让视频成为视频:分析物视频理解模型和数据集中的时间信息在IEEE计算机视觉和模式识别会议(CVPR),2018年6月。[20] Gao Huang,Zhuang Liu,and Kilian Q.温伯格密集连接的卷积网络。CoRR,abs/1608.06993,2016。[21] 塞尔玛·亨特社会智力的测量应用心理学杂志,12(3):317,1928年。[22] 约翰·凯恩和克里斯特·戈布尔小波极大值离散度对呼吸音 到 紧 张 音 的 区 分 。 IEEE Transactions on Audio ,Speech,and Language Processing,21(6):1170[23] 作者声明:John F Kihlstrom,Nancy Cantor 社交能力情报手册,2:359[24] Kyung-Min Kim 、 Seong-Ho Choi 、 Jin-Hwa Kim 和Byoung-Tak Zhang。 视频故事问答的多模态双注意分类。arXiv预印本arXiv:1809.07999,2018。[25] 托米是一个很好的例子,乔纳森·安·舒瓦茨、菲尔·布朗森、克里斯·戴尔、卡尔·莫里茨·赫尔曼、加·阿博·梅利斯和埃德·沃德·格雷芬斯特。叙事性阅读理解测验。计算语言学协会的交易,6:317[26] Jie Lei,Licheng Yu,Mohit Bansal,and Tamara L Berg.Tvqa:本地化的合成视频问答。在EMNLP,2018年。[27] 威廉·J·M·莱韦尔特和斯蒂芬妮·凯尔特。 问答中的表面形式与记忆。Cognitive Psychology,14(
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Haskell编写的C-Minus编译器针对TM架构实现
- 水电模拟工具HydroElectric开发使用Matlab
- Vue与antd结合的后台管理系统分模块打包技术解析
- 微信小游戏开发新框架:SFramework_LayaAir
- AFO算法与GA/PSO在多式联运路径优化中的应用研究
- MapleLeaflet:Ruby中构建Leaflet.js地图的简易工具
- FontForge安装包下载指南
- 个人博客系统开发:设计、安全与管理功能解析
- SmartWiki-AmazeUI风格:自定义Markdown Wiki系统
- USB虚拟串口驱动助力刻字机高效运行
- 加拿大早期种子投资通用条款清单详解
- SSM与Layui结合的汽车租赁系统
- 探索混沌与精英引导结合的鲸鱼优化算法
- Scala教程详解:代码实例与实践操作指南
- Rails 4.0+ 资产管道集成 Handlebars.js 实例解析
- Python实现Spark计算矩阵向量的余弦相似度
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功