没有合适的资源?快使用搜索试试~ 我知道了~
3MASSIV: 多语言,多模态,多方面的社交媒体短视频
21064项目URL:{}--3MASSIV:多语言、多模式、多方面的社交媒体短视频Vikram Gupta1,*,Trisha Mittal2,*,Puneet Mathur2,VaibhavMishra1,Mayank Maheshwari1,Aniket Bera2,Debdoot Mukherjee1,Dinesh Manocha21*Shenzhen,中国2马里兰大学,College Park,美国vikramgupta,vaibhavmishra,mayankmaheshwari,sharechat.cotrisha,puneetm,bera,umd.eduhttps://sharechat.com/research/3massiv摘要我们提出了3MASSIV,这是一个多语言,多模态和多方面的数据集,它包含了从短视频社交媒体平台Moj中提取的各种短视频。3MASSIV包括50k短视频(平均持续时间为20秒)和100K未标记的11种不同语言的视频,并捕捉流行的短视频趋势,如恶作剧,失败,浪漫,喜剧,通过独特的视听格式表达,如自拍视频,反应视频,对口型,自唱歌曲等。3MASSIV提供了一个机会,通过注释这些独特的视频的概念,情感状态,媒体类型和音频语言,对这些独特的视频进行多模态和多语言语义理解。我们对3MASSIV进行了全面的分析,并强调了我们数据集与其他具有强大基线的当代流行数据集相比的多样性和独特性。我们还展示了3MASSIV中的社交媒体内容在本质上是动态的和时间性的,这可以用于语义理解任务和跨语言分析。1. 介绍视频的语义理解一直是一个研究得很好的问题,但仍然继续从计算机视觉和多媒体研究社区获得很多关注,因为视频编码了丰富的信息,这些信息可以使用各种任务在不同维度上理解。在分析这些视频以执行动作分类[34,40,64]、动作定位[16,85]、视频描述[11,75]、视频问答[41,66,81]、对象和场景理解[85]等任务方面取得了显著进展。 这些任务的重点是识别视频中存在/发生的视觉方面,例如,动作、场景、对象检测和分类。*前两位作者对这项工作的贡献相同。图1. 3MASSIV:我们重点介绍三个由特定用户上传的视频。其概念标签分别为节日、情侣浪漫、喜剧我们还看到了视频类型的多样性,自拍,分屏和特效。我们还观察到内容是如何在时间上与真实世界事件对齐的;例如,节日。3MASSIV拥有50K这样的注释视频,跨越11种语言,带有屏蔽的用户标识符和时间戳,用于对社交媒体内容进行更深入的语义分析。为了保护隐私,脸部被模糊了。检测这些视觉方面有助于回答视频中发生了什么?但是,它并没有捕捉到观众是如何理解视频的?以及视频的创建者希望传达哪个(哪些)概念?在这项工作中,我们从视频创作者和观看者的角度研究了短视频社交媒体平台Moj1上上传的视频的语义理解,这是以前没有探索过的,主要是由于缺乏大规模的注释视频数据集。考虑到社交媒体的迅速采用,对创作的全面理解,1https://mojapp.in21065消费者对这些视频的购买力和流行动态形成了一个重要而及时的研究方向。为了促进这一未被探索的研究方向,我们提出了一个新的数据集,3MASSIV,从短视频平台Moj上发布的短视频构建。即使现有的语义理解数据集来自社交媒 体 ( 例 如 , YouTube [1], Vine [48] , Face- book[52]),它们不适合我们的任务。我们强调了关键挑战,并详细说明了3MASSIV如何解决这些挑战:• 分类法:先前的数据集[1,19,34]采用自顶向下的 方 法 , 从 独 立 于 领 域 的 分 类 法 ( 例 如 ,freebase)和使用此词汇从社交媒体中挖掘视频。然而,这些词汇对于捕捉社交媒体话语中此外,这种方法会生成[52]采用统一采样来解决这个问题,而我们使用基于流行度的视频采样来构建一个全面的自下而上的分类来弥合这个差距。• 新颖的视频类型:现有的数据集不能捕获新颖且具有挑战性的视频格式,如分屏视频、特效(覆盖在面部上的面具/图形)、肖像视频、与预先录制的音频的对口型等(图1),这些格式在社交媒体平台上占主导地位。3MASSIV从一个短视频平台Moj上策划视频,并为这些媒体类型进行注释,以填补这一空白。• 视频叙事:广义上讲,社交媒体上有三种不同类型的视频:a)微叙事:视频持续时间短[48](5-6秒)或从较长视频中剪辑出来[15,46,85],b)长叙事:较长的视频[1,10,78],通常超过1-2分钟,讲述更详细的叙事或故事c)短叙事:这些比微视频长(通常为10-20秒),并在时间限制方面为作者和内容创作者提供更大的灵活性。尽管Tiktok、Reels、Youtube Shorts和Moj等短视频平台呈爆炸式增长,但计算机视觉和人工智能社区尚未详细探索短视频,主要原因是缺乏大规模标记数据集。3MASSIV包含完整的视频,这些视频以简短而简洁的叙述创建,提供了一个了解这种视频理解新途径• 稀疏/嘈杂的主题标签:由于专家注释成本高昂,大 型数 据集 通 常使 用创 建 者添 加的 主 题标 签[48]。然而,标签通常是稀疏的- 56%的视频在MV-58中没有标签[48]。此外,它们可能有噪声,如(A.6)所示。我们的数据集3MASSIV通过使用专家注释器手动注释视频来解决这个问题。• 语言多样性:用于视频语义理解的现有数据集没有探索语言多样性的动机,而3MASSIV包含来自11种语言的视频,并使用音频语言进行注释,以促进视频的多语言语义理解。3MASSIV包含概念、情感状态、音频类型、视频类型和语言注释,用于理解创作者我们使用以下注释标记视频,以模拟观看者的视角:• 概念:每个视频都由专家注释器为一个概念(跨越34个标签)进行注释。我们的数据集包含广泛流行和独特的社交媒体概念,如恶作剧,失败,浪漫,慈善事业,喜剧等。图2显示了一些示例,这些示例表明,理解这些视频,这些视频非常以人为中心,自我拍摄的短篇故事超越了视听方面的检测和分类,并使3MASSIV具有挑战性。• 情感状态:我们为这些视频中的11个同样,为了理解创作者的观点,我们提供了图1显示了一些示例。• 音频类型:音频类型是独特的和多样化的录制/自唱的歌曲,对话,单声道- logues,乐器等。• 视频类型:视频格式包括幻灯片,动画,分屏,自拍,电影/电视系列剪辑等,在短视频平台上非常流行。此外,我们的数据集3MASSIV可用于各种任务和应用,例如:• 多语言建模:我们为11种不同的语言提供注释,为多语言语义理解提供机会。• 创作者建模:我们还提供了掩蔽的创作者标识符和这些创作者最近上传的视频(10万个视频),开辟了令人兴奋的用户建模想法,灵感来自语义视频理解。• 时间分析:社交媒体内容的生命周期很短,而且非常动态。为了加强对这里的理解,我们提供了这些视频的时间戳,这可以帮助对这些平台上流行内容的性质进行时间动态建模此外,我们还提供了屏蔽的用户配置文件,以识别来自同一创作者的视频,从而分析他们的视角随着时间的推移而发生的变化。据我们所知,3MASSIV是第一个人类注释的大规模短视频数据集,可以21066用于跨11种语言对概念、情感状态和媒体类型进行建模,为理解社交媒体内容提供了独特的机会。总的来说,3 MAS-SIV包含由23121个创作者上传的900小时的视频数据,其中有50K专业注释的视频和100K未标记的视频,平均持续时间约为20秒。在第4节中,我们还提供了基线结果,以凭经验在第5节中,我们讨论了3MASSIV在各种研究问题上的应用。2. 相关工作我们回顾了社交媒体视频语义理解的相关数据集,并在表1中进行了总结。2.1. 语义理解数据集已经提出了各种数据集和任务用于视频理解。动作分类是一个流行的研究问题,已经提出了[8,10,16,20,32,34,36,40,43,46,64,85]等基准数据集概念理解:超越视觉元素的动作分类、检测和分割,主题/概念分类数据集专注于对视觉和音频元素之间的相互作用进行建模,以理解视频所表示的整体主题/概念。例如,YouTube-8 M [1]专注于将视频分类为时尚,游戏,购物,动物等类别。.分类法是手动策划的,以捕获纯粹的视觉类别,数据集使用YouTube视频注释系统进行机器注释,以收集视频。类似地,整体 视频 理 解 ( HVU )[15]使 用Google Vision API和Sensifai视频标记API2注释来自[1,34,85]的视频,以获得概念以及场景,对象,动作,属性和事件。MicroVideos[48]贡献了从微视频应用程序Vine收集的视频,并将用户生成的标签解释为注释。最近,正在研究从社交媒体帖子中理解意图和动机的数据集[29,39,60,69,70,76,82]。其他视频理解任务:[12,45,51,53,56,72]已被提出用于视频中的对象检测,分割和跟踪。在视觉和语言的交叉点,已经提出了用于视频描述[71,75],问答[41,66,81],视频对象基础[9,84]和文本到视频检索[4,42]的SVD [30]为近似重复视频检索提供了一个数据集。2.2. 社交媒体内容使用语言和非语言线索来理解个体的感知情绪是人工智能和心理学中用于各种应用的重要问题。一2https://cloud.google.com/vision,https://sensifai.com/这样的应用是为了理解来自多媒体内容(如广告和电影)的投射的[80]有大量的文献表明,从单一的模态或多种形式的组合,如面部表情[2,58],语音/音频信号[59],身体姿势[47],行走方式[7]和生理特征[35]。研究范式发生了转变,研究人员试图融合多种模态来执行情绪识别,也称为多模态情绪识别。早期融合[62]、晚期融合[21]和混合融合[63]等融合方法已被探索用于多种模态的情感2.3. 社交媒体内容视频的多语言分析:以前已经研究过图像和视频的多语言分析。哈尔-瓦特等。[25]提出了一个双语数据集,包括英语和印地语字幕。Ohishi等人。[49]将该数据集扩展到包括日语字幕,并提出了一个三语数据集。双语视频理解的方法包括[6,31,50]。另一方面,已经提出了几个用于多语言视频理解的数据集[57,71]以及分析它们的技术[55],尽管它们在音频语言中缺乏多样性。社交媒体内容的用户建模:人们越来越依赖社交媒体平台来分享他们的日常生活,这反映了他们的个性特征和行为。基于其在线角色和活动的用户建模已成功用于数字营销[3,77]和内容推荐[73,79]。不仅在消费者方面,而且用户分析也有助于帮助这些社交媒体平台上的内容创建者[5,27]。为了进一步研究这些方向,我们提供了屏蔽的用户标识。社交媒体内容的时间分析:社交媒体内容的一个独特特征是帖子的生命周期短[17]。这种动态和时间演变的内容是显而易见的,可以映射到主要节日,庆祝活动,政治事件,新闻和趋势[24]。这种动态和时间上不断变化的内容有助于更好地理解社交媒体平台。3. 我们的数据集:3MASSIV在本节中,我们将介绍3MASSIV并详细说明数据集收集和注释过程。3.1. Taxonomy我们为以下分类法注释我们的数据集。附录A.1中提供了税收分类法所有注释标签的详细说明。概念:为概念创建一个分类法是一个不平凡的工作,既需要全面性,也需要频率覆盖。我们采用了自下而上的方法21067-[29]第29话:我的世界,我的世界![15]第十五话YT8M,动力学,HACS动作、对象、概念、事件、属性、场景NA‘†NA、MG、HA分别表示表1. 3MASSIV与相关图像和视频数据集的比较。我们的数据集对社交媒体短视频的概念、音频/视频类型、情感状态和音频语言进行了详尽和专业的注释。大多数其他数据集专注于特定任务,如动作分类,而不为其他维度进行注释。YT8M、SOA和HVU采用更全面的注释。我们报告数据集视频的范围或平均持续时间。对社交媒体行为进行建模,而不是为现有分类挖掘视频。为了实现这一目标,我们聘请了一个数字社交媒体专家团队来扫描150万个热门帖子,并为帖子分配了一个简洁描述的标签。分类法增长到1000多个概念,并被精简到34个流行的标签,覆盖了本研究中超过75%的视频。其中一些概念,如失败,恶作剧,喜剧,浪漫,慈善事业是我们数据集所独有的,如图2所示。我们在图3a中说明了这些概念的分布。情感状态:我们为视频的投射情感标签提供注释。受[13]的启发,我们对情感状态采用了11标签分类法。我们在图3b中展示了这些情感状态的分布。音频类型:社交媒体创作者使用各种音频风格,如对口型预先录制的歌曲,独白,对话,自唱歌曲或器乐。我们提出了7个标签的分类法,以覆盖音频内容类型的广泛频谱(图3c)。视频类型:我们提供注释,用于根据视频的创建/编辑方式对视频类型进行分类(图-图3d)。视频可以传统地来源于电影或电视节目剪辑,或者在个人手持设备上自拍。视频还包含幻灯片、静态图像和分屏。此外,许多创作者还发布带有文本的视频,以添加语言信息来增强视听效果。语言:我们为视频注释音频语言,并在图3e中突出显示数据集的语言多样性3.2. 数据收集我们从一个领先的短视频应用程序中收集数据集,支持超过15种语言。该平台包含由专业和业余内容创作者上传的短视频,用户可以查看,喜欢,分享和评论。我们提取了超过1。在9个月内(2021年2月至2021年10月)上传了500万个视频,涵盖11种语言,从这个集合中共享50k标记和100k未标记。这些视频是在删除近似重复内容后根据平台参与度标准入围的视频的持续时间在4. 5 116秒(平均20秒)。据报道,具有敏感性质的视频和那些包含裸体,暴力和虐待的视频被删除。关于数据收集的其他步骤见A.2。3.3. 数据注释我们聘请了社交媒体领域的专家,他们为50K视频提供标签。选择注释器是为了确保我们可以为每一个视频添加11种不同语言的标签,这些标签由精通视频主要语言的专家编写和使用为注释者提供了指南,其中包括关于每个任务的说明、类标签的定义(附录A.4,表7)和一些制定的示例,以使他们熟悉注释任务。注释者加入:我们遵循严格的注释者加入机制。我们向新的候选人提供了一套100个职位,这些职位已经由专家审查员预先注释,并与其他候选人进行了比较。不符合基准的候选人不被分配进一步的职位,他们的答复被丢弃。注释者间一致性:我们使用Krippendorff的alpha(K-alpha)[38]评估了不同概念中所有标签的注释者间一致性,以说明多个注释者之间的标签可靠性。所有注释均由3名注释者进行,他们的多数票被接受为地面真相标签。在三方意见不一致的情况下,专家注释者解决了冲突并分配了最终标签。概念、音频类型、视频类型和情感状态这4个分类的K-alpha值为0。77,0。59,0。62,0。40,分别。我们在表6中提供了详细的每个标签注释者协议。我们在大多数任务上都达成了强有力的协议。 3MASSIV最终被拆分成列车,数据集大小持续时间源标签音频类型视频类型情感重点郎年[32]第三十二话1M4分钟YouTubeMGNANANA体育活动分类(487类)NA‘[第78话]278015-10 分钟WebHANANANAHAR(203班)NA‘[48]第四十八话260k6秒藤MGNANANA活动、对象、平台特定类NA‘猜谜[61]10k30秒众包HANANANAHAR +对象分类(157类)NA‘YouTube-8M[1]8M2-10 分钟YouTubeMGNANANA视频主题分类NA‘动力学[34]300k10秒YouTubeHAR(400/600/700班)NA‘[19]第十九话100k2-6 秒众包HAR(174班)NA‘[第10话]395941-55 分钟众包厨房里的动作是的‘[第52话]562k10秒Facebook场景、对象、动作NA‘[46]第四十六话1M3秒10个来源339个行动类NA‘HACS [85]1.5M2秒YouTubeHAR(200班)NA‘[80]第80话我的世界23K7 .第一次会议。3秒YouTubeHANANA是的感知EC(6类)NA‘欧洲经济共同体[65]23k1-25 分钟在线视频MGNANA是的诱发EC(15类)NA‘我们50k(+100k)-社交媒体平台HA注释为7班注释为8个班是的概念,情感状态,媒体类型,语言注释为11种语言‘HANANANAHANANANAHANANANAHANANANAHANANANAHANANANA21068(a) 恶作剧场景:一个男人试图通过在她的鞋子上涂上粘合剂来恶作剧这位女士,目的是为观众创造一个有趣的场景。需要深入的语义理解来理解场景的时空音频上下文以分类为(b) 失败场景:孩子试图用一个小蹦床表演一个夏跳,但未能完成翻转。为了正确分类,模型需要关注视频结尾处的意外跌倒,以将其分类为(c) 慈善场景:一个男人遇到并问候需要帮助的陌生人,并给他们一份礼物。为了将其识别为善意的姿态,我们的模型需要了解视频中受试者的经济状况和情绪状态,并专注于代币的交换。(d) 喜剧场景:两个朋友之间有趣而讽刺的言语交流两人在表演过程中都表现出了一系列的情绪,但视频的总体结果是一种喜剧性的情景。专注于面部表情或人类姿势可能不足以理解场景。图2. 3 MASSIV中存在的独特概念:我们的主题分类包括几个在社交媒体领域流行但在文献中未被探索的独特主题:(a)恶作剧视频显示计划的恶作剧行为,旨在引起共同创作者的反应[28];(b)失败的视频,记录不成功的尝试,导致伤害-喜悦[54];(c)慈善视频描绘有帮助的服务,道德援助或慈善行为的行为;(d)脚本和自然喜剧视频,可以根据演员之间的代理关系进一步分类-夫妇,家庭,孩子,朋友等。验证和测试集的比例为60:20:20。3.4. 数据集分析3MASSIV包含55262个带注释的视频和100K未标记的视频,总共有910小时的视频数据。图3a-概念:如图3a所示,喜剧和浪漫的频率高于其他标签,而宠物的频率最低。鉴于短视频社交媒体平台的趋势激励创作者创作具有广泛吸引力的内容,这是预期的。情感状态:图3b显示了11种情感状态在Corpus中找到的。我们观察到的阶级不平衡反映了人类自然情感的分布。音频类型:图3c突出了一个有趣的现象,其中超过50%的视频从预先录制的源借用背景音乐,而自言自语的对话和独白相对较少。类似地,对现有音频进行对口型同步是视频创作的第二种最视频类型:如图3d所示,数据集中超过三分之二的视频是自拍。摄影技术的进步也帮助创作者增加了视觉效果21069±(a) 概念分类法(b) 情感标签(c)音频类型(d)视频类型(e)语言图3. 3 MASSIV分类:子图3a -数据描述值#概念34#语言11#情感状态11#音频类型7#视频类型8#创作者23121#注释器95#标签视频55262#无标签视频100K总持续时间标记310小时总持续时间未标记600小时平均持续时间20. 2(9。5)秒最小/最大持续时间4.5/116秒表2. 3MASSIV统计作为视频的文本效果,使它们成为下一个最流行的视频格式。语言:该数据集包括11种语言的视频,其中印地语是主要语言。持续时间:3MASSIV包括视频范围从4.第一章5s-116s,平均持续时间为20秒。创作者:3MASSIV由来自23121个独特创作者的视频组成。 这些创作者中的大多数(15998)在我们的数据集中,7133只贡献了一个视频,而7133贡献了多个视频。这证明了我们的数据集在创建者方面的巨大多样性。分类相关性:在附录A.5,图5中,我们展示了概念和情感状态/媒体类型之间的相关性。我们观察到,心碎的浪漫视频主要有悲伤的情感状态;慈善事业与善良密切相关。同样,我们观察到,带有魔术标签的视频与惊喜情感状态有关;情侣浪漫表现出对情感的最强倾向。这些相关性提供了以下见解:3MASSIV由描绘与其他基础方面的强关联的视频组成,并且可以利用这种相关性来更好地进行语义理解。4. 基线实验我们进行基线实验,以突出3MASSIV的独特和具有挑战性的方面4.1. 概念分类我们报告的结果,概念分类使用不同的形式单独和组合使用晚21070表3a中的融合。我们报告所有实验的前1、前3和前5准确度。视听表示: 我们使用在Kinetics700 [8]上训练的3DResNet [23]骨干进行实验,以进行时空建模。我们还评估 了更 深( R3 D- 101)和 深度 可分离 架构 ( R(2+1)D-101)。50) [67]但没有观察到收益。因此,我们在所有实验中使用R3 D- 50。对于音频建模,我们利用年龄预训练的VGG [26]模型和CLSRIL 23 [22]。VGG被训练用于声音分类([18]),CLSRIL 23被训练用于23种印度语言的语音数据。我们冻结视听骨干,并训练分类器和多模态融合层。结果和讨论:从表3a中,我们观察到视觉模态的性能高于音频,这突出了视觉模态对于我们的数据集3MASSIV的重要性。在结合使用晚期融合的模式时,我们观察到4%的增益(第6行和第7行)。这证明了数据集的多模态性质。通过将VGG和CLSRIL23特征与视觉模态相结合,我们注意到进一步的增益显示了这两种音频表示中的互补信息(第8行)。这并不奇怪,因为我们的数据集包含各种各样的音频类型,如歌曲,独白和对话。虽然VGG已经被训练用于建模声音(音乐,车辆,小溪,乐器等),CLSRIL23更专门用于理解人类语音。我们在附录B.1.1中扩展了训练细节和超参数错误分析:我们分析错误的情况下,不同的方法,模态主干Top-1前3Top-5视觉R(2+1)D-50 50.6 72.3 81.4视觉R3 D-50 52.7 74.5 83.6视觉R3 D-101 52.6 74.1 83.3音频VGG 31.6 50.5 60.9音频CLSRIL23 31.2 50.1 60.6视频、音频R3D-50 + VGG视频、音频R3 D-50 + CLSRIL 23 54.9 75.482.9视觉、音频R3D-50 + VGG + CLSRIL 2356.5 76.583.8(a) 概念分类方法模态Top-1前3F1Kosti等人[37]视觉三十五0881. 920的情况。19音频二十七岁1066岁。670的情况。21Tsai等人[68] 视听三十八岁。0583岁900的情况。29(b) 情感状态分类表3. 基线实验:使用不同模态和组合在3MASSIV上进行概念和情感状态分类的基线实验。图4b和图4a中的直径类型。我们注意到在图像、反应视频和(a)概念分类的错误率(b)每个音频类型标签每个视频类型标签的幻灯片,展示了视频数据集中这些类型的新颖性。反应视频包含分屏,并且很复杂,因为模型需要关注突出的部分。同样,幻灯片放映包含大量突然的场景变化,使其极具挑战性。在音频类型上,我们注意到该模型对对口型、乐器和静音/噪音等类别的准确性较低。这不是意料之外的,因为这些并没有提供关于这个概念的相关信号。类似地,口形同步对音频通道中的大部分语义信息进行编码。这些观察结果强烈强调了我们的数据集3MASSIV的独特挑战在图7a(附录B.1.2)中,我们绘制了视听模型的混淆矩阵。我们注意到迷因、孩子、家庭、朋友和情侣喜剧等概念标签之间的混乱,这表明了对这些内容的语义理解的挑战。我们还研究了使用图7b中的视听方式对概念类别准确性的影响(附录B.1.2)。4.2. 情感状态分类我们选择了两种最先进的情感状态分类模型,并在3MASSIV上进行了基准测试。结果总结见表3b。我们报告前一名,前三名21071图4. 音频和视频类型的分类:我们对概念分类的错误分类进行了深入的分析我们试图理解错误分类的视频的音频类型和视频类型之间的关系准确度得分。此外,由于每个情感标签的数据点数量不平衡,我们还报告了F1评分。第一种方法,Kosti等人。[37]是一种情感识别模型,它使用视频中主要主体的面部表情和背景背景。Tsai等人[68]是一种基于多模态Transformer的模型,它使用视觉和音频模态,并在其他情感识别数据集上显示出高性能。我们观察到这些模型在3MASSIV上的性能不是很高。在对这些模型的进一步分析中,我们注意到与以人为中心的概念标签恶作剧相关的视频经常被错误分类。同样,带有静态图像和动画的视频经常被错误分类。5. 社交媒体内容分析创建者用户配置文件建模:我们利用创建者对概念的亲和力来改善语义,21072方法职位数量Top-1前3Top-5视听-56.576.583.8ProbDist156.977.284.1ProbDist558.577.784.7ProbDist2059.378.985.7ProbMax2058.878.185.2表4. 创建者剖析:具有语义推断的创建者简档的概念分类,其具有视听表示。目标Top-1前3Top-5Top-1前3Top-5印地语40.161.570.561.279.185.5Telugu48.172.181.654.978.286.1泰米尔45.866.678.151.073.882.3卡纳达48.572.779.656.878.484.4旁遮普39.962.272.945.769.579.4表5. 跨语言实验:我们在除目标语言之外的所有语言上训练视听概念分类模型,并在目标语言(绿色列)列上进行评估;所有语言都用于训练(蓝色列)。站在第四桌。对于每个创作者,我们挖掘他们最近上传的视频,并使用我们的视听语义模型来预测这些帖子的概念概率。我们对预测的概率分布进行平均,并使用它们来表示创建者(ProbDist)。然后,通过后期融合将crerator表示与视听特征相结合,用于训练模型。我们观察到的收益超过5%的视听基线,将创作者的个人资料作为语义理解之前我们改变了最近帖子的数量,并通过增加帖子的数量观察到收益(行2,3,4),表明较长的创建历史有助于对创建者进行建模。我们还对每个帖子进行了最大预测(ProbMax)而不是概率分布(第5行)的实验。这个简单而有效的基线激励了进一步的调查建模创建者用户配置文件只使用语义。跨语言分析:我们还在表5中探索了3MASSIV对5种流行语言的跨语言分析。对于每种目标语言,我们将其从训练集中删除,并使用其他语言训练视听模型。我们在目标语言上评估这个模型以获得零射击结果。我们在绿色列中展示了该实验的概念分类的在蓝色列中,我们使用所有5种语言进行训练和测试。我们可以看到,绿色和蓝色列之间的性能差距是显着的,这表明3MASSIV可以用于推进跨语言视频理解任务的最新技术水平。时间分析:我们探索3 MASSIV的另一个有趣的我们注意到与真实世界事件的强烈联系(图8)。我们根据10周(2021年8月29日至11月7日)的浏览量提取了表现最好的50K帖子,并使用我们的模型分析了这些帖子的预测。我们观察到,内容涉及体育概念,因为即将到来的主要体育联盟。同样,由于最近的节日季节,我们看到一些庆祝6. 道德、数据和用户隐私尊重用户隐私:为数据集收集的视频都在Moj上公开提供。该平台已取得用户的知情同意,以便公开使用这些视频。用户标识符和确切的发布日期已被屏蔽,以保护隐私。尊重知识产权:创作者有完全的自由删除他们的内容。我们的数据集提供了访问视频的直接URL链接,而平台拥有这些视频的权利。这将允许用户删除平台上的视频,从而停用链接。我们的数据收集和传播工作遵守平台准则。选择退出表格:用户可以选择通过数据集主页上的选择退出表格请求将其视频从数据集中删除。处理误用:采取了适当的谨慎措施,不得将任何用户信息、视频(原始或处理)或Meta数据存储在社交媒体平台计算基础设施之外的永久存储设备上我们的目标是应要求传播数据,并记录对数据集的所有访问,这些数据集仅用于研究目的。许可证:我们发布3MASSIV仅用于研究目的(即没有商业用途)。注释者补偿:我们确保所有注释者都能按小时获得公平的补偿,并告知他们由于长期接触社交媒体内容而导致的潜在社交媒体疲劳[83]。7. 结论我们提出了3MASSIV,一个多语言,多模态和多方面的,从社交媒体平台提取的社交媒体短视频的人工注释数据集。3MASSIV由来自流行社交媒体平台的50K标记短视频和100K未标记短视频组成,使用11种不同的语言。 3MASSIV有助于进一步理解体现独特特征和细微差别的社交媒体内容的语义。我们进行了深入的分析,并使用基线比较显示了数据集的挑战和独特性。我们还介绍了3MASSIV在各种用户建模任务和跨语言任务中的应用。8. 确认Mittal、Mathur、Bera和Manocha得到了ARO赠款W911NF1910069和W911NF2110026的部分支持。21073引用[1] Sami Abu-El-Haija,Nisarg Kothari,Joonseok Lee,PaulNatsev , George Toderici , Balakrishnan Varadarajan ,and Sudheendra Vijayanarasimhan. Youtube-8 m:一个大规模视频分类基准。arXiv预印本arXiv:1609.08675,2016。[2] Kingsley Oryina Akputu,Kah Phooi Seng和Yun Li Lee。智能教学环境中的面部情感识别。IMLCS,第9-13页[3] Ali Abdallah Alalwan , Nripendra P Rana , Yogesh KDwivedi,and Raed Algharabat.营销中的社交媒体:对现有文献的回顾和分析。Telecom and Informatics,34(7):1177[4] Lisa Anne Hendricks 、 Oliver Wang 、 Eli Shechtman 、Josef Sivic、Trevor Darrell和Bryan Russell。使用自然语言对视频中的时刻进行本地化。在IEEE计算机视觉国际会议论文集,第5803-5812页[5] 阿图罗·阿尔加阿达和弗朗西斯科·伊卜·安切洛蒂。 社会媒体+社会,6(3):2056305120944624,2020。[6] Emmanuel Azuh,David Harwath,and James R Glass.从视觉背景语音音频中发现双语词汇.在INTERSPEECH,第276-280页[7] Uttaran Bhattacharya,Trisha Mittal,Rohan Chandra,Tan- may Randhavane , Aniket Bera , and DineshManocha.步骤:时空图卷积网络用于步态的情感感知。arXiv预印本arXiv:1910.12906,2019。[8] 若昂·卡雷拉,埃里克·诺兰,克洛伊·希利尔,安德鲁·兹瑟曼.关于动力学-700人类行动数据集的简短说明。arXiv预印本arXiv:1907.06987,2019.[9] Zhenfang Chen,Lin Ma,Wenhan Luo,and Kwan-YeeK Wong.视频中弱监督的时空接地arXiv预印本arXiv:1906.02549,2019。[10] DimaDamen 、 HazelDoughty 、 GiovanniMariaFarinella 、 Sanja Fidler 、 Antonino Furnari 、 EvangelosKazakos 、 Davide Moltisanti 、 Jonathan Munro 、 TobyPerrett、Will Price和Michael Wray。Epic-kitchens数据集:收集,chal-chains和基线。IEEE Transactions onPattern Anal-ysis and Machine Intelligence(TPAMI),43(11):4125-4141,2021。[11] Pradipto Das , Chenliang Xu , Richard F Doell , andJason J Corso.几个词就能表达一千帧:通过潜在主题和稀疏对象拼接对视频进行语言描述。在IEEE计算机视觉和模式识别会议论文集,第2634-2641页,2013年。[12] Achal Dave 、 Tarasha Khurana 、 Pavel Tokmakov 、Cordelia Schmid和Deva Ramanan。Tao:用于跟踪任何对象的大规模基准。欧洲计算机视觉会议,第436-454页Springer,2020年。[13] Munmun De Choudhury , Michael Gamon , and ScottCounts.高兴,紧张还是惊讶?社交媒体中人类情感状态 的 分 类 。 在 Proceedings of the International AAAIConference on Web and Social Media,第6卷,2012年。[14] Dorottya Demszky,Dana Movshovitz-Attias,JeongwooKo , Alan Cowen , Gaurav Nemade , and SujithRavi.Goemo- tions:细粒度情感的数据集。arXiv预印本arXiv:2005.00547,2020。[15] Ali Diba , Mohsen Fayyaz , Vivek Sharma , ManoharPaluri,Jurgen Gall,Rainer Stiefeldings,and Luc VanGool. 大 规 模 视 频 理 解 。 arXiv 预 印 本 arXiv :1904.11451,38:39,2019。[16] Bernard Ghanem Fabian Caba Heilbron、Victor Escorcia和Juan Carlos Niebles。Activitynet:用于人类活动理解的 大 规 模 视 频法 律 程 序 中IEEE Conference onComputer Vision and Pattern Recognition , 第 961-970页,2015。[17] Martin S Fiebert , Azadeh Aliee , and Hoda Yassami.facebook帖子 的寿命 :年龄性 别效应 。InternationalReview of Social Sciences and Humanities,7(2):140[18] Jort F Gemmeke、Daniel PW Ellis、Dylan Freedman、Aren Jansen 、 Wade Lawrence 、 R Channing Moore 、Manoj Plakal和Marvin Ritter。音频集:音频事件的本体和人类标记的数据集。在2017年IEEE声学、语音和信号处理国际会议上,第776-780页。IEEE,2017年。[19] Raghav Goyal,Samira Ebrahimi Kahou,Vincent Michal-ski , Joanna Materzynska , Susanne Westphal , HeunaKim,Valentin Haenel,Ingo Fruend,Peter Yianilos,MoritzMueller-Freitag,etal.The”somethingsomething”video database for learning and evaluatingvisual common sense.在IEEE计算机视觉国际会议论文集,第5842-5850页[20] Raghav Goyal、Samira Ebrahimi Kahou、Vincent Michal-ski 、 Joanna Materzynska 、 Susanne Westphal 、 HeunaKim、V
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功