360°视频中的球形空间关系和视听关系

137 浏览量更新于2023-10-15 收藏 936KB PDF 举报

全景视频

数据集

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2031沙沙声产生的原因Pano-AVQA：基于360◦视频的视听问答Heeseung Yun Youngjae Yu Wonsuk Yang3， Kangil Lee4，Gunhee Kim11首尔国立大学、2艾伦人工智能研究所、3牛津大学、4现代汽车公司{heeseung.yun，yj.yu} @ vision.snu.ac.kr，{wonsuk1001，smddls77} @ gmail.com，gunhee@snu.ac.krhttps://github.com/hs-yn/PanoAVQAQ.有哪些相对侧上Q. 在哪里会说话的人在做什么A. 走路A. 白.相对于？A. 对的图1. Pano-AVQA是一个全景视频问题回答数据集，用于评估球形空间推理和视听推理，超出了具有有限上下文的正常视野。Pano-AVQA从现实生活环境中引入了各种新的问题集，考虑了球形空间关系和视听匹配。摘要360 ◦视频传达场景周围环境的整体视图。它提供的视听线索超越了在一个实施例中，所述光学系统具有确定的法向视场，并且在球体上显示独特的空间关系。然而，以往的全景视频基准任务仍然局限于评估视听关系的语义理解或环境中的球形空间属性。我们提出了一个新的基准称为Pano-AVQA作为一个大规模的接地视听问答数据集全景视频。使用5.4K的360位视频片段，我们收集了两种类型的新颖问答接线盒接地对：球面空间关系QA和视听关系QA。我们从Pano-AVQA中训练了几个基于变换的模型，结果表明我们提出的球形空间嵌入和多模态训练目标相当有助于更好地理解数据集上的全景环境。1. 介绍由于它们能够捕捉整个周围环境而不受视野限制，360°视频已经被广泛应用。作为一种记录现实生活风景的新颖媒介，它越来越受欢迎。如示于图1，与传统的正常视场（NFoV）视频不同，360◦视频允许用户关注原始现实生活环境中的任何感兴趣区域。公开提供360◦视频从视频共享平台（例如，YouTube）并且它们的全向感知应用迅速从自动驾驶汽车[1，2]，机器人[3，4]扩展到虚拟增强现实[5，6]，360◦视频中的视觉理解在计算机视觉研究中值得认真关注。360度全景视频的广阔视野为视觉理解带来了新的挑战，这些挑战在NFoV视频理解中被低估，包括球面空间推理和视听推理。由于360°全景视频是在球形环境空间中编码的，因此360°全景视频中的空间推理，即球形空间推理，需要一种新的方法来识别周围对象之间的各种关系。此外，360◦视频包含比360 ◦视频更多样化的声音视觉来源。传统视频，其允许更丰富的上下文视听对应。鉴于视觉和听觉刺激的空间注意力是人类固有的，甚至是一致的[7]，从全景视频中捕捉视觉和听觉信号之间的联系对现实生活中的场景理解非常有益。Q.短裤是什么颜色的用严肃的声音说话光头男子穿粉红色衣服人2032360°视频理解的这两个主要基石，即球形空间推理和视听推理，已经由以前作品，包括自动电影摄影[8]，全景显着性检测[9，10]和自我监督的空间音频生成[11]。然而，没有已知的任务结合语言查询来处理360°视频域中的任务。为此，我们提出了360◦视频上的空间和视听问题回答作为一种新的基准任务。360视频理解在这项工作中，我们引入了Pano-AVQA数据集作为一个新的360◦视频问答数据集，需要在全景视频上精细地结合视觉，音频和语言模态。我们收集公开提供的来自在线的360 ◦视频，并使用（音频，视频，关系）描述对注释它们;结果，我们贡献了20 K空间和31.7K视听问答与来自5.4K全景视频剪辑的边界框接地配对。在这个数据集上，我们提出了一个基于Transformer[12]的空间和视听问答框架。通过在整个训练过程中关注其他模态提供的上下文，我们的模型学会了从全景环境中融合整体信息。为此，我们建议基于四元数的坐标表示用于精确的空间表示和音频偏斜度预测的辅助任务，其广泛适用于多声道音频输入。我们总结了我们的主要贡献如下。1. 我们提出了新的基准任务的空间和视听问题回答的360个视频，以-ward的全方位的环境的整体语义理解。2. 由于据我们所知，目前还没有针对这一目标的数据集，因此我们将Pano-AVQA作为360个视频的第一个大规模空间和视听问答数据集，由51.7K个具有边界框接地的问答对组成。3. 我们为360◦视频设计了一个视听问答模型，有效地融合了来自全景球的多模态线索。我们将这个模型与几个基线系统，并评估他们的Pano-AVQA数据集。2. 相关作品了解全景视频。大量关于360°视频的文献将全景视频的视觉理解扩展到许多实用应用，例如自动电影摄影[8]、高光检测[13]、摘要[14]、跟踪[15]和视觉显着性检测[9，10]。然而，大多数现有的工作集中在不同的视觉线索存在于全景视频。最近的一些作品，如用于接地视点的叙事描述[16]，用于音频增强的空间音频[11]或对象移除[17]，专注于利用视觉线索以外的模态。与先前的作品不同，我们利用语言查询来评估对全景视频中的视听信号的理解我们提供了关于全景视频的大规模注释数据集，这对于全景视频中的视听基础或场景图生成可能是潜在有益的。多模态问题分类。源于图像VQA [18]，视频VQA已被广泛研究。[19，20，21，22，23，24，25]视觉语言关系在各种情况下，如电影[19]，电视节目[23，25]，网络GIF [20]和动画剪辑[22]。最近，已经出现了基于声音模态回答问题的新兴作品，包括诊断音频问题回答[26]、开放域口语问题回答[27]和视听场景感知对话[28]。最接近我们的工作是AVSD [28]，它利用剪辑中的音频和视频信息来顺序回答问题。虽然AVSD评估模型的转换能力，但当涉及到视听关系时，AVSD主要关注声音的存在（例如，你听到背景里有噪音吗？）.另一方面，Pano-AVQA处理细粒度的视听关系，如背景或空间推理。360◦视频（例如。喇叭声的对面是什么？）. 具体而言，我们将处理各种空间重新-在全景领域，这揭示了新的光在视频空间推理。视听场景理解。利用音频和视频两者进行场景理解已经在信号处理领域中被广泛研究。多模态视听学习的早期工作集中在改善视听语音识别[29，30]。由于在各种平台中普遍存在配对的视频与音频，最近的方法利用未标记视频的表示学习[31，32，33，34，35，36]，这有利于各种下游任务，如声音定位[4]，音频空间化[33]，视听源分离和共同分割[34，37，32，31]。虽然这些方法在视听场景理解方面取得了一些成功，但它们假设观点已经注意到了一个突出的背景。以前的一些研究集中在对全景视频的理解的视听场景[35，4]，但是他们将全景帧视为正常帧，忽略了全景视频中存在的不可忽略的失真。相反，我们在没有预定上下文的情况下处理音频和视频的对准，即，正常的视野，因此，2033听起来视听剪辑对象制作视觉/声音描述问答对图2. 在第2节中讨论的Pano-AVQA数据集的数据收集管道。3 .第三章。在周围环境中考虑更多的上下文。3. Pano-AVQA数据集Pano-AVQA数据集的目标是为全景视频上的细粒度时空和视听问题回答（QA）提供基准。为了实现这个目标，每个问题-答案对应该封装音频信号以及剪辑中的视觉对象。由于没有现有的数据集可以用于此目标，我们从头开始收集数据。图2展示了我们的数据集收集管道。从网上收集的360◦视频中，我们提取了大约5秒的片段，从中我们收集了人类工人的三种类型的注释：（a）边界框和声音基础，（b）视觉和声音描述，以及（c）问答对数据集构建的完整描述请参见附录。3.1. 任务定义我们介绍了两种新类型的全景问题回答任务，对于全景场景理解至关重要：(i)球形空间推理和（ii）视听推理，我们设计的开放式问题的任务。请参考图1和附录中的QA对示例。球面空间推理解决了需要识别360◦视频中对象之间的空间关系的QA。由于360◦视频没有任何主方向，我们只质疑相对空间关系。也就是说，我们骗-考虑目标对象与参考对象的空间关系每个答案可以是名称或属性（例如，颜色、动作等）或以下空间关系之一：左/右到，相对，上面/下面，或旁边。此任务的一个示例模板包括[ob-ject 1]与[object 2]的关系在哪里？/ [relation]。视听推理涵盖了关于从声音中识别物体的查询，反之亦然，对于特定的视觉物体和物体发出的声音可能答案包括物体或声音本身或它们的属性，如颜色或响度。此任务的两个示例模板是“谁/什么正在发出[声音]？”/ [object]。或者说，什么样的声音才是真实的呢？/[声音]。3.2. 数据收集我们使用58个关键词从YouTube收集360°视频（例如，体育、旅游、室内、烹饪），以促进环境的多样性。为了一致性，我们将每个视频转换为等矩形格式并丢弃具有单声道音频的视频对于有效的视听QA对，视频必须包含清晰可辨的音频信号。由于原始视频通常太长，包含平淡无奇的内容，我们提取的兴趣片段平均跨度为5秒。我们实现了自动提取器，其读取原始音频源和视频帧以及音频峰值周围的切片，所述音频峰值的均方根振幅大于周围片段的均方根振幅至少整个音频的均方根振幅的标准偏差。在提取过程中，我们应用以下过滤器来确保剪辑的质量。首先，我们减少的机会，包括类似的声音剪辑使用l2之间的距离，每个坎迪梅尔频率系数日期夹第二，我们丢弃剪辑包含合成或计算机生成的帧，通过检查颜色直方图中的偏度第三，我们过滤掉静态剪辑;我们使用每个帧的pHash计算64位DCT图像散列，并且忽略具有小于三个散列值的任何剪辑。最后，使用现成的对象检测器[38]，我们移除具有少于三个显著对象的剪辑。除了自动过滤，我们还检查任何剩余的无效性，包括遮挡、后期配音和背景音乐的存在3.3. 数据注释即使对于人类来说，直接创建一个涉及360°视频的视觉和音频特征的问答对也可能过于繁琐。因此，我们将整个注释管道分解为三个子任务。注释众包V：行走的人✔S：喋喋不休✔V：灰色病变S：轻微的发动机转速噪音Q. 走路的人发出什么声音？A. 喋喋不休。V：远处❌五：红绿灯Q. 灰车在哪里行走的人？A. 以上2034∈ − × −∈ −−- -数据集任务C剪辑数量长度（小时）附加信息[8]第八话NFoV摄影H867.3NFoV视频[15]第十五话对象跟踪H911.71物体踪迹Yu等人[13个国家]精彩部分检测H11572NFoV视频Lee等人[14个]总结H28592.23Photostream360 [16]NFoV接地H8643.98-YT-ALL [11]音频空间化H1146113.1-休闲街[11]音频空间化R433.5-OAP [35]对象预测R16515-Pano-AVQA问答H5.4k7.69接地QA表1. Pano-AVQA与现有360◦视频数据集的比较。C列表示收集程序，其中H表示在线收集的数据集，R是用定制设备记录的数据集。为了在获得细粒度注释的同时降低复杂性：边界框收集、视觉/声音描述和问题答案生成。每个子任务的结果在进行下一个子任务之前都要经过验证。边界框集合。首先，我们为工作人员提供一组候选边界框，并要求他们选择那些包含发出声音的对象的边界框。这些对象应当被清楚地识别为声源或者尽管被遮挡但仍是人类可推断的（例如，戴面具的人（Man in a mask talking）为了获得候选边界框，我们在ImageNet检测数据集[39]上运行Detectron 2 [38]预训练到剪辑的中心帧。我们使用ImageNet检测数据集从头开始预训练模型，该数据集包括许多发声对象，如吉他和鼓。为了以最小失真捕获不同大小的对象，我们从等矩形和多个NFoV投影中提取边界框。然后，我们将边界框的坐标从透视投影校准到球面坐标。nates。给定坐标（x，y）[ 1，1]2和透视（θ，φ）（π，π）（π/2，π/2），我们使用简单而有效的策略来获得球坐标f（x，y）：M（θ，φ）·（1，x，y）t博物馆的历史）。问答对。鉴于对象和声音的简短描述，我们最终创建了球形空间和视听QA对。根据前视频QA数据集的收集实践[20，43，44]，我们将手动和自动QA生成相结合。从每个视频的对象和声音描述的集合中，我们遵循第2节中讨论的模板。3.1生成QA对。为了获得球形空间推理任务的空间关系，我们使用边界框坐标来手动将对象之间的关系指定为以下类别之一：在…的旁边，在…的对面，在…的左/右，在…的上/下。基于模板的生成的一个限制是，答案分布可能对问题模板中的一些单词具有强统计偏差，使得问题可回答而不考虑上下文。例如，用话语相关的声音描述注释的大量男人/女人可能带来场景中所有可见的人都在说话的误解。为了缓解这个问题，我们通过用不相关的音频和视觉描述替换原始描述或将相同的问题扔到coun上来生成额外的QA对。f（x，y）=M（θ，φ）·（1，x，y）、（1）在这种情况下，例如与不说话的人的剪辑后处理。以确保语法正确cosθ cos φsin θcosθsinφ M（θ，φ）=sinθ cos φcos θsinφ sin θ。sinφ0 cosφ视觉和声音描述。要求工人简要描述（1）注释对象的外观或动作，以及（2）它们发出的声音（如果有的话）。写声音描述不像写视觉描述那么简单。为了帮助工人创造更多的图形描述，我们为他们提供了声音描述词（例如，喊叫、乱弹、砰等）从音频分类和字幕数据集中提取[40，41，42]。我们还禁止工人通过对于收集的QA对，我们使用LanguageTool1进行校对。我们还手动验证问题是否可从视频中获得，边界框是否正确，以及声音描述是否以任何形式包括在QA对中以用于视听QA。3.4. 数据分析Pano-AVQA 由 51.7K QA对（ 42.8K训练，3.7K验证，5.3K测试）组成，这些QA对来自从2.9K视频中提取的5.4K剪辑总共有5.8K个唯一答案，平均长度为3.7个单词。平均问题长度为12.1个单词。与360度的其他数据集相比，在表1中的视频，Pano-AVQA贡献了大规模和视觉关键字（例如，用男声而不是男人的在桌子旁边喊叫）或讲话的内容（例如，女人1https://github.com/languagetool-org2035i=1--10410310310245°(c) 音频标签分发��=0°45°(a) 问题分发(b) 应答分布（d）应答接地分布图3. Pano-AVQA数据集统计的图示。(a)问题中的前n元语法的分布。(b)前20个常见答案的分布。(c)[40 ]第40话最后一句话(d)答案边界框接地的中心点分布关于360°视频的不同数据集以及附加注释，即，与视频剪辑相关的接地问答。在QA对中，20K对属于球面空间推理，31.7K对属于视听推理。我们可以很容易地注意到具有空间关系的问题的普遍性（单词第3（a）段。包含来自不同来源的音频信号对于现实生活中的视听推理至关重要。图3（c）显示了通过运行预训练的音频神经网络[45]获得的前3个Audioset [40]标签的分布。虽然人的声音（例如，演讲、叙述等）标签是最常见的，由于vlog在视频集中的流行，我们的数据集仍然包含相当数量的其他标签，如车辆，动物和乐器。此外，人类的讲话取决于像声音的音调，速度和风格等因素。我们的数据集反映了这些不同的模式，通过从人类语音的详细描述（如大声叙述，喃喃自语等）生成QA对。除了QA对，我们的数据集包含51.7K个对象，这些对象用边界框注释，这些边界框与回答问题最相关，即回答接地。图图3（d）示出了边界框的中心点的分布虽然大多数点都位于赤道（即，φ=0◦），相当数量的盒子远离赤道分布，甚至位于赤道附近波兰人这种分布表明，我们的数据集从广泛的整体角度反映了360◦4. 方法为了解决全景视频上的视听问题回答的新问题，我们提出了一个名为LAViT（L语言视听转换器）的模型，如图所示。4.第一章它侧重于解决两个挑战建模（i）视频、音频和语言的特征表示，以及（ii）协调三种不同模态的编码器-解码器结构。总之，我们通过以下方式解决这些问题：（i）从一组视觉对象和音频事件中提取球形空间嵌入，以及（ii）利用基于变换器的架构作为多模态编码器，其灵感来自其最近在VQA研究中的成功[46，47，48，49，50，51]。4.1. 输入表示视觉表示。我们首先以1 fps对视频进行均匀采样（即，大约五个全景帧），以降低计算复杂度，同时保持视频中正如在第二节中所解释的3.3，我们使用更快的R-CNN [52]，使用ImageNet Detection [39]训练来提取和表示区域建议。我们将其应用于等矩形和NFoV投影，这是互补的，因为前者的格式显示的关键对象更连续和更大，后者的格式显示的对象失真较小。我们使用球面坐标（θ，φ，w θ，h φ）应用非最大值抑制以从具有IoU阈值τ = 0的两个不同投影中滤除重叠提议。六十五如果检测到的对象太多，我们只保留置信度较高的前35个建议。最后，我们得到了对象嵌入biNper360位视频，其中N=35是提案的数量接下来，我们将区域建议的笛卡尔坐标转换为基于旋转四元数的空间表示。-90°��=0°90°演讲音乐男汽车音乐风船是的不左男右反向说话声上黑下白男性言语女性上灰色左上穿白衬衫的蓝色左下角2036i=1−i=0时i=0时i=0时i=0时i=1我≥i=0时我i=0时我i=0时我--i=1≥--关于我们i=0时i=0时i=0时[CL SL]0Q.说话的那个人的t恤是什么颜色的？是什么颜色⋮123⋮012⋮[CL SV]012...我��⋮⋮012012012(a)输入表示（b）多模态编码器（c）解码器训练图4.所提出的名为LAViT（L语言音频-视频转换器）的架构的概述{c i}N以反映球形几何形状：θ θ θ语言表征。我们使用WordPiece to- kenizer [56]将问题拆分为令牌，并使用预训练的BERTbase-uncased [53]提取语言表示。ci=（t，cos2，−ysin2，xsin2，w，h），（2）tations{l}K，其中l是特殊语言符号其中，t表示以秒为单位的时间步长，θ是旋转和[CLS1]。ii=00从球体底部（0，0，1）到物体中心的角度，单位向量（x，y，z）是物体中心的位置，（w，h）是宽度和高度。为了旋转轴的唯一性，我们只选择水平面上的轴，即，XY平面，从而从旋转四元数中省略最后，我们得到视觉表示viN，其中对于i，vi=fb（bi）+fc（ci1使用线性FC层fb、fc。我们通过平均-池化v iN得到v0，并将其作为类似于[CLS]的特殊视觉符号[CLSV][53]中的符号或[47]中的令牌。音频表示。我们使用立体声音频来反映周围环境的空间信息 [54] 。作为特征提取器，我们采用了用AudioSet [40]训练的类似VGG的CNN [45]我们分别对左声道和右声道上的音频信号运行提取器。由于将音频分割成相等的长度可能会导致混合不同的事件，因此我们需要一种合理的方法来识别音频事件何时发生变化。受CTC [55]的启发，我们将具有相同前k类的音频段重新排列为单个4.2. 编码器我们的模型的编码器由三个单峰编码器和一个多峰编码器，如图所示。第4（b）段。单峰编码器。对于语言、音频和视觉输入表示IiK、a iM、v iN中的每一个，我们首先应用层归一化[57]并将它们馈送到对应的单峰编码器中，为此我们使用Transformer [12]的编码器模块。我们为语言堆叠了九个编码层，为音频和视觉模态堆叠了五个层，如[46]所示可以在计算资源或性能的上下文中调整层数。多模式编码器。我们也利用Transformer的编码层进行多模态编码，但具有不同的注意力输入。具体来说，我们使用主要模态作为注意查询（即，主路径）和另一模态作为注意力关键值（即，上下文路径），使得两个不同的模态可以融合在一个编码层中。我们为每个模态堆叠两个编码层，以与其他两个模态一起执行此操作对于单峰活动因此，我们将音频流拆分成多个编码器输出{l′}K ，{a′}M，{v′}N与Transformer前k个标签（k=3）相同的片段。对于每个编码层T（主，上下文），我们获得多模态音频事件，我们最大池化对应的音频特征，从而获得左声道音频嵌入{a0}M编码器输出，{ai}M ，{v（i′）N：和右声道音频嵌入{ai}M，其中M是事件的数量i i=1l′=T（l′，{a′}），a′=T（a′，{v′}），v′=T（v′，{l′}），我们最终获得音频表示{ai}N得双曲余切值.艾伊吉维ˆ′ ′i j li i j′ ′ ′ ′00 1 1i=0时li=T（lai，{avi}），ai=T（avi，{vli}），vi=T（vli，{lai}）.ai=fa（ai）+fa（ai）对于i1使用线性FC层f0，f1.α0对应于特殊音频符号[CLSα]，译码器我们得到平均池代表-a a[CLSA]立体声MFCC⋮儿NFoVA+LV层V型变压器A型变压器L型变压器（BERT）V+L层A+V层L+A层V+LA层L+AV层主路径（查询）上下文路径（key，A. 蓝色的.解码器（MLP伯特嵌入培训前任务(L)Masked LM(A)偏度(V)协调（多）QA，接地音频CNN对象检测器2037其中我们对剩余的音频表示进行平均桩号v0，一个100， l0来自多模式编码器输出2038i=1i=1i=1ni=0时我i=0时我i=0时n=0m=−nnnn关于我们Σ Σ·关于我们iK，a最后，我们将所有三个聚合表示v0，a0，10连接起来，并将它们馈送到两个三层MLP中，一个用于预测答案标签，我们将argmax带入一个用于输出，另一个用于应答接地。4.3. 培训在基于变压器的体系结构的训练实践之后，我们利用预训练和微调对象来训练模型。对于预训练，我们以0.15的概率随机地掩蔽视觉、音频和语言输入表示v iN、a iM、l iK，并且用以下借口任务来训练模型。语言预训练任务。我们使用具有交叉熵损失的掩码标记预测，如[53]中所建议的，通过预测语言输入的掩码部分。视觉预训练任务。而不是预测表示本身或其分类标签，我们添加了一个MLP，预测球面空间嵌入从掩蔽的视觉表示与平滑的L1损失。音频预训练任务。为音频表示设计借口不如视觉表示简单。因此，我们提出了掩蔽的音频表示的空间偏斜度预测与通常适用于音频变换器[58，59]的音素分类或说话者分类相比，其可能在话语域中受到限制，我们的空间偏斜度预测通常可以应用于具有多通道音频且没有任何教师模型的任何媒体我们将立体声音频通道视为具有两个无声通道的3D音频，并应用球面谐波分解来测量来自给定音频的空间偏斜度，即，音频来自哪个方向也就是说，根据音频的截断球谐分解，t（θ，φ）=NnCm（t）Ym（θ，φ），其中Ym是球谐函数，我们提取系数Cm，它反映了有多少声音是从位置发出的（θ，φ）。我们将所获得的偏斜度从R[-20，20]映射到R[-1，1]，并训练具有平滑L1损失的MLP，以预测掩蔽音频表示时间戳（即，开始时间和持续时间）。接地QA。我们使用接地的问题-答案对作为预训练和微调的多模态任务我们将问答任务制定为分类问题，其中模型在2020-D答案表中选择最佳答案候选者，该答案表覆盖了大约93%的问题。具体来说，我们提供聚合表示从多模态en-编码器（v=0，（a=0，a=10））作为MLP的输入以预测答案和坐标接地。我们训练答案具有交叉熵损失的预测和具有平滑L1损失的协调实施详情。除了输入要素外牵引，我们以32的批量大小端到端训练我们的模型，梯度累积为4，辍学率为0.1. 我们使用AdamW [60]进行优化，初始学习率为1 e-4，用于三个epoch作为预训练，并以5e-5的学习率对另外七个epoch的模型进行微调在这两个阶段中，我们将权重相等的任务的所有损失进行汇总，但接地任务的权重设置为0.2，以平衡其对问答任务的影响。我们使用线性调度器，预热率为0.1。5. 实验5.1. 实验装置基线。为了评估不同模态的拟议编码策略，我们与AVSD [28]、BERT [53]、SparseGraph [61]和LXMERT[46]进行了比较。AVSD提出了一种基于后期融合的视听对话方法，其中预训练的BERT可以是更好的语言骨干。选择SparseGraph和LXMERT作为图像问答的代表模型。为了公平比较，我们使用与LAViT相同的标记器和不同的球面空间表示。如[61]所述，提供适当的空间嵌入对于视觉问题回答的良好性能至关重要。为了探索使用四元数表示用于球面全景中的空间嵌入的有效性，我们用一些其他可能的空间表示进行实验：笛卡尔坐标（x，y，w，h）、球坐标（θ，φ，w θ，hθ）和正常3D坐标（x，y，z，w θ，h θ）。评估指标。我们测量Pano-AVQA测试分割的准确性，作为正确回答问题的百分比。如第4.3、将VQA任务表述为分类问题;在字典词汇表中选择最佳单词。对于预测边界框坐标的答案基础任务，我们使用均方误差。5.2. 结果和分析与VQA模型的比较。有效的多模态融合是正确解决Pano-AVQA数据集中问题的首要问题之一。在表2中，与我们的模型相比，AVSD和BERT+AV的性能急剧下降，表明基于后期融合的方法不太擅长结合不同的模态。与可以有效融合视觉和语言模态的SparseGraph[61]和LXMERT [46]相比，我们的模型分别提高了5.85%和2%。基于先验的模型的良好性能可能意味着答案分布偏向于少数流行答案。在我们的数据集中，基于先验的模型的准确性是21.47和32.49，低于VQA [18]2039□GT□笛卡尔□角度□球面□四元数Q.穿黑衬衫的人在哪里与正常语气聊天的来源有关？回答：对/预测：对Q.一辆白色货车在哪里红色信号灯亮了吗？答案：左下角/预测：左上表2. Pano-AVQA测试拆分的结果。 SS表示球形Q.是一个戴着黑色面具的人发出的对话声吗？回答：是/预测：是Q.穿条纹衬衫的男人下面是什么？答案：自拍杆/预测：相机空间推理任务和AV表示视听推理任务。嵌入MSE准确度（%）地面SSAV所有笛卡尔*0.16647.4851.4149.89V球形3.49648.9551.0150.21单位球面*1.37849.4950.0549.83四元0.629美元49.2951.2550.49表3.不同球面空间嵌入的实验结果*不同表述的基础误差不可比较，因为它们具有不同的误差范围。（即，29.66和37.54）。消融术我们的模型没有单峰编码器（LAViTw/ounimodal）达到6.35%的性能下降，这表明加载预训练的语言模型以及维护单峰输入的上下文的重要性。选择不使用视觉或听觉输入，每秒钟减少2.5%和1.76%，这意味着同时使用这两种方式的重要性。FoV选择的影响在视频中使用单个NFoV训练的模型（对应于使用传统相机捕获的视频）比我们的模型低2%，表明更宽视野的重要性。同时，仅ER模型的性能低于用密集NFoV训练的模型，这可能是由于忽略了较小的对象。仍然，利用如图1B中的ER和NFoV两者。4（a）显示最佳性能。球面空间表示。表3显示单位球面和基于四元数的空间嵌入在球面空间推理任务中表现更好，而笛卡尔坐标表现最差。虽然基于笛卡尔的模型具有最低的接地误差，但这主要是由于笛卡尔坐标的误差尺度。因此，空间嵌入之间的地面误差是不直接可比的。图5显示不同的一个-图5.表3中回答基础的定性示例。根据几何形状选择接地方案。在一般情况下，嵌入球形空间信息比基于笛卡尔的建议表现得更好。尽管如此，与其他建议相比，我们基于四元数的方法显示出显着的本地化能力，特别是在第二列的示例更多推理示例和可视化请参考附录。6. 结论我们的工作扩展了现有的全景视频理解的工作，提出视频问答作为一个新的任务，以评估球形空间和视听推理能力的模型在360◦周围。为了评估这一点，我们引入了大规模Pano-AVQA数据集由51.7K QA对组成，具有来自5.4K全景视频的边界框。此外，我们将LAViT设计为一个新的视听QATransformer框架，该框架扩展了跨模态注意力以利用三种模态。展望未来，为了在360度视频中更好地推理，它可以结合视听场景图作为附加的功能注释。另一个有希望的方向是使用我们的360◦数据集来解决模拟 3D 交互环境中的具体问题回答（EQA）[62，63，64，65]和语言引导的具体导航[66，67]。谢谢。我们感谢匿名评论者对这项工作的周到建议这项工作得到了现代汽车公司起亚公司AIRS公司通过HKMC-SNU AI Consortium Fund、韩国国家研究基金会（ NRF ）的 Brain Research Program （ 2017 M3 C7A1047860）和韩国政府（MSIT）资助的信息通信技术规划Gunhee Kim是通讯作者。模型MSE准确度（%）地面SSAV所有既往（-28.9216.7521.47Q型优先级-36.3032.4232.49[第28话]-29.4020.1024.60BERT+AV [53]-36.8838.4337.83SparseGraph [61]-42.8945.7444.64LXMERT [46]-47.4849.1248.48LAViT，不带单峰-39.4247.1444.14-46.9048.6847.99LAViTA+LLAViTV+L0.55648.7548.7148.73LAViT单NFoV-47.1449.3748.50仅LAViTER0.60547.6350.1749.18LAViT密集-NFoV0.59347.6851.1349.79LAViT（我们的）0.62949.2951.2550.492040引用[1] SenthilYo g amani，Ciar a'nHughes，JonathanHo rg an，GaneshSistu，PadraigVarl ey，Derek O'Dea，Michal Uri ca' r，Ste f an Milz，Martin Simon，Karl Amende，et al.WoodScape：用于自动驾驶的多任务、多相机鱼眼数据集。在ICCV，2019年。1[2] Holger Caesar、Varun Bankiti、Alex H Lang、SourabhVora、Venice Erin Liong、Qiang Xu、Anush Krishnan、Yu Pan、Giancarlo Baldan和Oscar Beijbom。nuScenes：一个用于自动驾驶的多模态数据集。在CVPR，2020年。1[3] Yasamin Heshmat， Brennan Jones，Xiaoxuan Xiong，Carman Neustaedter ， Anthony Tang ， Bernhard ERiecke，and Lillian Yang.使用Beam进行地理藏宝：通过具有360度视角的网真机器人共享户外活动。在CHI，2018年。1[4] Yoshiki Masuyama ， Yoshiaki Bando， Kohei Yatabe ，Yoko Sasaki，Masaki Onishi，and Yasuhiro Oikawa.通过概率空间建模的自监督神经视听声源在IROS，2020年。一、二[5] 罗文智、范庆玲、李珍、黄春英头戴式虚拟现实中的360视频观看数据集。在ACM MMSys，2017年。1[6] Maximilian Speicher ， Jingchen Cao ， Ao Yu ， HaihuaZhang，and Michael Nebeling. 360无处不在：在任何环境中使用360度视频和增强现实的移动Ad-hoc Col。ACM HCI，2018年。1[7] David V Smith、Ben Davis、Kathy Niu、Eric W Healy、Leonardo Bonilha、Julius Fridriksson、Paul S Morgan和Chris Rorden。空间注意诱发视觉和听觉刺激的相似激活模式。Journal of Cognitive Neuroscience，2010. 1[8] Yu-Chuan Su，Dinesh Jayaraman，and Kristen Grauman.Pano2Vid：自动摄影观看360秒的视频。InACCV，2016.二、四[9] 张子恒，徐燕宇，俞静怡，高胜华。360◦视频中的显著性检测在ECCV，2018。2[10] Hsien-Tzu Cheng，Chun-Hung Chao，Jin-Dong Dong，Hao-Kai Wen，Tyng-Luh Liu，and Min Sun.立方体填充用于360视频中的弱监督显着性预测。在CVPR，2018年。2[11] Pedro Morgado、Nuno Nvasconcelos、Timothy Langlois和Oliver Wang。用于360度视频的空间音频的自监督生成。在NIPS，2018年。二、四[12] Ashish Vaswani， Noam Shazeer ， Niki Parmar ， JakobUszko-reit ， Llion Jones ， Aidan N Gomez ， ukaszKaiser，and Illia Polosukhin.注意力是你所需要的一切。NeurIPS，2017。二、六[13] Youngjae Yu，Sangho Lee，Joonil Na，Jaeyun Kang，and Gunhee Kim.从360◦视频中进行时空高光检测的深度排名模型。在AAAI，2018。二、四[14] Sangho Lee，Jinyoung Sung，Youngjae Yu，and GunheeKim.一种用于360视频基于故事的时间摘要的记忆网络方法。在CVPR，2018年。二、四2041[15] 胡厚宁，林彦辰，刘明玉，郑显子，张永菊，孙敏。深度360试点：学习深度代理，通过360◦体育视频进行试点。在CVPR，2017年。二、四[16] Shih-Han Chou，Yi-Chun Chen，Kuo-Hao Zeng，Hou-Ning Hu，Jianlong Fu，and Min Sun.自视接地给出了一个叙述360视频。在AAAI，2018。二、四[17] Ryo Shimamura ， Qi Feng， Yuki Koyama ， TakayukiNakat-suka， Satoru Fukayama ，Masahiro Hamasaki，Masataka Goto，and Shigeo Morishima. 视觉计算机，2020年。2[18] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C.劳伦斯·齐特尼克和德维·帕里克VQA：可视化问答。在ICCV，2015年。二、七[19] Makarand Tapaswi，Yukun Zhu，Rainer Stiefelhagen，Antonio Torralba ， Raquel Urtasun ， and Sanja Fidler.MovieQA：通过问答理解电影中的故事。在CVPR，2016年。2[20] Yunseok Jang 、 Yale Song 、 Youngjae Yu 、 YoungjinKim 和 Gunhee Kim 。 TGIF-QA ： Toward Spatio-Temporal Reasoning in Visual Question Answering. 在CVPR，2017年。二、四[21] 叶钰楠、周钊、李沂蒙、陈龙、萧俊、庄月婷。基于属性增强注意网络学习的视频问答。在SIGIR，2017年。 2[22] Kyung-Min Ki

下载后可阅读完整内容，剩余1页未读，立即下载