基于无监督学习的360°图像视觉注意力建模

74 浏览量更新于2023-10-14 收藏 21.41MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

154140重新思考使用无监督学习的360°图像视觉注意力建模。0Yasser Abdelaziz Dahou Djilali *，Tarun Krishna *，Kevin McGuinness和Noel E. O'ConnorInsight数据分析中心，都柏林城市大学（DCU）{yasser.dahoudjilali2，tarun.krishna2}@mail.dcu.ie0摘要0尽管自我监督表示学习在平面数据上取得了成功，但迄今为止尚未在360°图像上进行研究。在本文中，我们将对比学习的最新进展扩展到学习潜在表示，这些表示足够不变，以便作为下游任务的球面显著性预测非常有效。我们认为全向图像特别适合这种方法，因为数据域的几何形状。为了验证这个假设，我们设计了一个无监督的框架，有效地最大化了赤道和极点的不同视图之间的互信息。我们展示了解码器能够从编码器嵌入中学习到良好质量的显著性分布。我们的模型在Salient360！，VR-EyeTracking和Sitzman数据集上与完全监督学习方法相比具有优势。在ResNet50编码器的情况下，这种性能是通过完全无监督的方式训练编码器和相对较轻的监督解码器（参数减少了3.8倍）实现的。我们相信，这种监督和无监督学习的结合是人类视觉注意力灵活表达的重要一步。结果可以在GitHub上复现。01. 引言0与传统媒体不同，全向图像（ODIs）使用户能够探索视野球的不同区域。普通人的头部运动（HM）通常是球内最可能的视口的良好预测，而眼睛的运动（EM）反映了预测视口内的感兴趣区域（RoIs）。因此，在预测360°图像的最显著像素时，需要同时预测HM和EM[68]。尽管在视觉注意力领域取得了显著进展[34，6，68]，但现有的360°显著性预测方法在范围/能力上仍然有限，原因有两个。首先，所有先前的360°显著性静态0* 平等贡献。0图1.给定一组360°图像和相关的投影，通过在嵌入空间中最大化相同场景的不同视图之间的互信息，来学习深度表示，同时丢弃不同场景的视图。0训练方法是以监督方式进行端到端训练的。这限制了它们利用未标记数据的能力。与大规模的2D视频/图像显著性数据集[6]（即多达10000张图像/1000个视频序列）相比，360°视频/图像HM/EM数据集相对较小。这是由于复杂的注释过程，这限制了完全监督方法的能力。因此，利用未标记数据来学习更好的特征是至关重要的，并且直观上是一个好的设计方案。其次，大多数先前的方法将CNN应用于由等距矩形（ERP）和立方体映射（CMP）投影产生的每个补丁/立方体。前者在极点附近存在几何失真，而后者将显著区域拉伸到不同的立方体面上，迫使模型丢失全局上下文信息。这些方法的计算复杂度也很高，可能限制了它们的适用性。在ODIs中使用表示学习函数（编码器）对视觉注意力进行建模的核心目标是发现由球面条件的有用表示。1 +face,jface}20.3Lface154150输入的域定义。在非欧几里得数据上应用简单的卷积编码器通常不足以学习到良好质量的表示。实际上，滤波器对与失真区域相关的信号产生的响应较弱，主要出现在极点（即天顶和天底）附近，降低了预测能力。我们利用互信息（MI）最大化方法，并展示了在表示和与输入相关的局部区域（例如与极点相关的投影）之间最大化平均MI可以提高编码函数对显著性预测下游任务的表达能力。估计MI的一种强大的最新范式是基于噪声对比估计（NCE）的对比学习[28]，其中将同一场景的多个视图带到嵌入空间中，同时将不同场景的视图分开。此外，由于选择视图对于对比学习非常重要，360°数据为更有效的MI估计提供了一组新的选择。在本工作范围内使用的投影是任务相关的，但也使优化问题变得更加困难，因为它们不像简单的增强（如颜色抖动和水平翻转）那样容易受到优化快捷方式的影响[22]。这提高了编码器的表达能力。这也促使我们在训练/推理中放弃使用CMP，因为我们认为编码器对来自天顶和天底区域的信号本质上是敏感的。本文的目标是学习捕捉支持图像V1及其相应投影V2和V3之间的全局和局部表示之间的信号共享，如图1所示。这是通过最大化支持图像和其投影的全局和局部表示之间的一致性来实现的。该方法受到Deep InfoMax（DIM）[32]和Augmented Multi-scale DIM[3]中提出的最大化互信息（MI）概念的启发；然而，我们引入了一些重要的差异。首先，我们添加了自注意力，以在局部表示（即中间激活图）上引入软特征选择机制。其次，我们以一种方式制定了总损失（第3.2节），以在[49]中引入对投影的不变性，并最大化不同增强（投影）视图之间的MI。最后，与（AMDIM）不同，我们不依赖于负样本的批量大小，而是采用了一个内存库以提高计算效率。我们的贡献如下：0•我们提出了一个框架，将对比/自监督学习的思想扩展到一个新的数据领域，具体是360°图像，并展示了它如何有效地用于回归下游任务而不仅仅是简单的识别任务。0•通过在表1中进行广泛评估，我们表明对比学习可以用于显著性预测，并且进一步表明它与完全监督方法性能相当。0•我们的方法解决了预测360°显著性时遇到的一个关键挑战，即不使用CMP。该设计在模型权重中隐含了几何规范。0•对于360°显著性方法中最高效的模型，对等面投影（ERM）图像上的单个后续学习流显著降低了计算成本（比其他360°显著性方法快8倍）。02. 相关工作0本节回顾了与360°图像的注意建模和对比学习相关的重要工作。对于前者，我们关注与360°图像中HM/EM显著性图的预测相关的工作，这些工作可以分为启发式方法和数据驱动方法。ODIs的视觉注意建模。[21]的作者引入了融合显著性图（FSM）方法来预测ODIs中的HM显著性，其中输入的360°图像通过多个角度旋转，然后使用ERP将其投影为一组2D补丁。SALICON [36]（一种SoTA2D图像显著性预测模型）分别应用于每个补丁，并且FSM方法融合局部显著性图以生成最终的预测。[47]中介绍的方法的动机是减少球面到平面投影后的边界伪影。作者在两个CMP上应用了2D显著性模型：0w face (i face, j face) = 10w face (iface, j face)= 10其中(i face, j face)是表示立方体面中心处原点的像素坐标，Lface是立方体面的宽度。最终的预测是从每个立方体生成的显著性图的加权平均值。与以往的方法不同，[59]结合了ERP和CMP，以更好地减少边界伪影的负面影响。前者交换图像的左右半部分，以减少垂直边缘上的失真。将2D显著性预测方法应用于融合CMP后的立方体的顶部和底部面，得到两个显著性图，最终的显著性图通过像素级最大乘法融合两个ERP和CMP生成的映射。其他方法[39，44，19]调整了对提取的视口而不是ERP/CMP投影的预测，假设视口具有较少的几何失真。主要挑战是如何将几个视口投影回最终的球形显著性图中。与在ODIs上调整2D显著性预测方法不同，一些研究[1，61，74，26，4]提出了提取手工制作的低级特征，如色调、饱和度、亮度、纹理、颜色通道、边界连通性，以及高级特征，如皮肤、人脸和汽车等。低级和高级映射被整合以获得最终的显著性图。已经提出了一些端到端的学习模型用于360°显著性。SaltiNet[2]模型使用SalNet[54]的预训练参数进行初始化，然后使用二元交叉熵（BCE）损失在Salient360！数据集上进行训练。SalNet360[50]方法在CMP下对360°图像的立方体面上训练SalNet，然后使用完全卷积网络（FCN）来融合立方体面的球面坐标和提取的显著性图。[12]的工作提出了在不同CMP下以不同角度旋转360°图像，然后使用这些投影在Salient360！数据集上对SalGAN[53]进行微调。与以前的DNN方法不同，[60]在所提出的CNN架构中显式学习赤道偏差，该架构对视口进行操作以生成360°图像的最终显著性图。ATSAL[20]结合了潜在的注意机制和由CMP产生的每个补丁位置的SalEMA[42]的专家实例，以学习显著性建模的有效特征。从上述评论可以清楚地看出，针对HM/EM360°图像视觉注意建模的模型共享将CNN应用于ERP/CMP投影的补丁的相同核心概念。正如上面所述，这种设计在概念上有限，并且在推理阶段计算量大。本文的贡献试图更好地解决这些限制。对比学习近年来变得突出，因为它能够利用大规模的无标签数据。对比学习[38，35]是指通过比较学习，最终目标基于一些噪声对比估计的变体[28，29]。基于对比相似性的这个思想，[17]的作者学习了用于面部验证任务的面部嵌入，然后被称为对比损失，因为它要求负样本之间的距离大于固定的边界(m)。[14，65]的作者提出了三元组损失，进一步融合了正样本和负样本之间的相似性和不相似性，形成一个三元组。后来，Exemplar CNNS[24]通过重度扭曲引入了通过重度扩充（扭曲）获得的替代标签，其中预训练任务是区分一组替代标签，即强制执行对指定变换的不变性。类似地，NPID[66]通过引入内存库来增加对比负样本的数量，通过使用非参数化softmax来编码实例相似性，形成了一个实例分类任务。后来，CPC[52]表明最小化NCE目标等价于最大化互信息（MI），他们称之为InfoNCE。CMC[62]在MI最大化的基础上构建，并将其扩展到任意的视图集合。独立地，DIM[32，3]将对比学习形式化为最大化互信息的问题，该问题在正负样本之间形成对比。Our algorithm takes advantage of the geometric flexi-bility of the 360° data definition domain i.e. the sphericalrepresentation, where the different projections represent ro-bust views for training a differentiable parametric functionfθ : x �→ Λ, with parameters θ (e.g. neural network) tomaximize the mutual information among the views withoutany further supervision. The encoder is optimized to detectthe polar regions, i.e. views, pushing the convolution filtersto exploit larger groups of symmetries, including spheri-cal transformations and rotations, because the translationsymmetry preserved by a CNN is not enough to detect thedistorted objects in the polar regions. We argue that theonly information shared between the views is task-relevant,and there is no irrelevant noise, as the three views can fullyreconstruct the sphere. Furthermore, we rely on exploitingcontrastive learning-based approaches [38] to learn optimaland robust representations for 360° data. To further measurethe quality of the latent representations, a separate paramet-ric function gϕ : Λ �→ y (decoder), is able to decode goodquality saliency maps for the downstream task. It is worthmentioning that the two stages are asynchronous.154160特征，如皮肤、人脸和汽车等。低级和高级映射被整合以获得最终的显著性图。已经提出了一些端到端的学习模型用于360°显著性。SaltiNet [2]模型使用SalNet[54]的预训练参数进行初始化，然后使用二元交叉熵（BCE）损失在Salient360！数据集上进行训练。SalNet360[50]方法在CMP下对360°图像的立方体面上训练SalNet，然后使用完全卷积网络（FCN）来融合立方体面的球面坐标和提取的显著性图。[12]的工作提出了在不同CMP下以不同角度旋转360°图像，然后使用这些投影在Salient360！数据集上对SalGAN[53]进行微调。与以前的DNN方法不同，[60]在所提出的CNN架构中显式学习赤道偏差，该架构对视口进行操作以生成360°图像的最终显著性图。ATSAL[20]结合了潜在的注意机制和由CMP产生的每个补丁位置的SalEMA[42]的专家实例，以学习显著性建模的有效特征。从上述评论可以清楚地看出，针对HM/EM360°图像视觉注意建模的模型共享将CNN应用于ERP/CMP投影的补丁的相同核心概念。正如上面所述，这种设计在概念上有限，并且在推理阶段计算量大。本文的贡献试图更好地解决这些限制。对比学习近年来变得突出，因为它能够利用大规模的无标签数据。对比学习[38，35]是指通过比较学习，最终目标基于一些噪声对比估计的变体[28，29]。基于对比相似性的这个思想，[17]的作者学习了用于面部验证任务的面部嵌入，然后被称为对比损失，因为它要求负样本之间的距离大于固定的边界(m)。[14，65]的作者提出了三元组损失，进一步融合了正样本和负样本之间的相似性和不相似性，形成一个三元组。后来，Exemplar CNNS[24]通过重度扭曲引入了通过重度扩充（扭曲）获得的替代标签，其中预训练任务是区分一组替代标签，即强制执行对指定变换的不变性。类似地，NPID[66]通过引入内存库来增加对比负样本的数量，通过使用非参数化softmax来编码实例相似性，形成了一个实例分类任务。后来，CPC[52]表明最小化NCE目标等价于最大化互信息（MI），他们称之为InfoNCE。CMC[62]在MI最大化的基础上构建，并将其扩展到任意的视图集合。独立地，DIM[32，3]将对比学习形式化为最大化互信息的问题，该问题在正负样本之间形成对比。0局部和全局表示。借鉴之前的方法，[15]中的作者提出了一个更简单的框架（SimCLR），它依赖于最大化相同数据的增强视图之间的一致性。为了减少对离线表示（内存库）的依赖，MoCo [30,16]将对比学习视为一个带有队列和移动平均编码器（用于离线表示）的动态字典。总之，所有这些模型都试图通过实例分类（或最大化一致性）来强制几何扭曲（增强）的不变性，并在此过程中利用不同数据样本的语义（上下文）相似性和空间结构来学习更好的表示。最近在无监督学习的这个方向上取得了巨大的进展[11, 27, 10, 49,5]。然而，这些方法的范围大多限于识别作为下游任务（详见[38,35]进行广泛的回顾）。在这项工作中，我们迈出了一步，将MI估计的方法扩展到回归，具体到显著性预测的任务，这比识别更加细粒度。鉴于360°数据领域在概念上提供了新的选择集，即Zenith和Nadir区域的信号，使其特别适合对比学习（用于MI最大化）。03. 方法03.1. 方法概述0假设我们有一个360°图像数据集D = {x1, ...., x|D|}，其中xi ∈R3×H×W，并且有一组变换T和投影P，具有经验概率分布p(X)。集合T包含标准变换，特别是小的随机裁剪（图像尺寸的<5%；大的裁剪可能会影响显著性[13]），颜色空间的随机抖动，随机转换为灰度，随机水平翻转。集合P特别包含从球面到平面的自顶向下（tf）和自底向上（bf）的投影，使用ERP投影。目标是学习最大化x（源视图）的全局表示和x t � T（P(x) � U(tf(x), bf(x)))（增强视图）之间的一致性，如[32,3]中所述。然而，我们的方法与以前的工作有一些显著的区别。由于我们主要推断用于回归的下游任务，我们不关心MI的确切值，因为进一步最小化对比目标会鼓励形成表示空间中的聚类。因此，我们的目标是通过使用局部到全局的方法和自注意模块来优化特征图在空间位置上的分布，以捕捉足够关于输入数据的对称性，��154170图2.训练的完整流程。对比模块由多个子函数组成，包括编码器fθ，全局模块Σσ，自注意力φβ和局部模块Ωω，分别由θ、σ、β、ω参数化。解码器gϕ通过优化ϕ进行训练，保持编码器固定（无梯度流动）。可以进行推理来预测未见测试数据的显著性。不同颜色的框架（[Conv2D →ReLU]）和圆圈（[Linear → ReLU]）表示不同的权重实例，即它们不共享权重。0同时利用局部到全局的方法和自注意模块来优化特征图在空间位置上的分布，以捕捉足够关于输入数据的对称性。03.2.无监督对比模块0基础编码器（f θ）。学习一个由θ参数化的网络f：x →Λ，其中x ∈ R 3 × 160 × 320，Λ ∈ R 512 × 10 ×20。确切地说，x1是整个全景图像，xt是具有增强的透视图像，如图2所示，f θ (x)和f θ (xt)表示它们的局部潜在表示2。我们报告了VGG16[56]和ResNet50 [31]的结果。01源视图2f θ (x t)，fθ (x) ∈ Λ0编码器。有关完整的架构细节，请参见补充材料的A.1和A.2节。0全局模块（Σ σ）。通过σ参数化学习映射Σ：f θ (x) → vx3，其中v x ∈ R512。如图2所示，该模块提供了x的紧凑/全局表示4。该模块也可以理解为自监督文献中经常使用的投影层，但在这种情况下是非对称的5。更多细节请参见补充材料的A.1和A.2节。0自注意模块（φ β）。这用作构建局部表示f θ (x)和f θ (xt)之间的空间关系的媒介。架构类似于[64，72]，但与之不同的是，query和key分别来自f θ (x)和f θ (xt)。有关更多直觉和详细信息，请参见补充材料的A.3节。0局部模块（Ω ω）再次是一个由ω参数化的非线性映射Ω：Υx t → Ψ x t，其中Ψ x t ∈ R 512 × 10 ×20。局部模块的架构由2×[Conv2d →ReLU]，后跟BatchNorm2D组成，并且对于VGG16和ResNet50是固定的。0损失函数。我们最小化基于NCE [28]的目标函数03x始终表示全景图像4在图2中，全局模块对应于VGG16编码器5即不应用于f θ (x t)6通常，key和query是相同表示的线性投影。FMij =�1if location (i, j) is a fixation0otherwise,LKLD(Y, P) =Pi log�ϵ +Piϵ + Yi�,(5)154180如[62]中所述：0L NCE (x, x t) = − Ex � p(x)0− Ex t � p(.|x)0− log(P(D = 1 | x t, x))0+ m Ex n �pn(.|x)0− log(P(D = 0 | x n, x))0（2）优化L NCE (x, x t)就是最小化标签D对“正样本”(x, xt)（D = 1）和“负样本”(x, x n)（D =0）进行区分的负对数后验概率，其中xn通常被称为负样本。负样本是任何不通常由x及其扭曲/增强导出的样本。方程2中的p(x)和pn(.)分别是经验数据分布和噪声样本分布。带有m个噪声样本的后验分布如下：0P(D = 1 | x t, x) = 0p(x t | x) + m pn(x n | x), (3)0其中p(x t | x)是真实未知分布，通过得分函数s(x t, x) =exp(x T tx/τ)来近似，其中τ是温度超参数（固定为0.07），用于调节分布。该函数假设L2归一化向量。有关NCE损失的推导详细信息，请参阅[62，29]。记忆库（M）。根据[66，49]，我们维护一个记忆库来检索m �M个负样本。这些样本是在先前时期计算的特征表示vx的指数移动平均值。与v x 对应的记忆库中的样本表示为mx。最终目标定义为全局（L G）和局部（LL）NCE损失的凸组合：0L(x, x t) = λ L L(m x, Ψ x t) + (1 − λ) L G(m x, v x). (4)0注意，我们并不直接最小化全局和局部表示之间的NCE，而是依赖于来自记忆库M（mx）的表示。首先，这鼓励与编码不变性的记忆表示相似，如[49]所示；其次，它通过记忆表示直接最大化全局和局部表示之间的互信息。L G 是两个特征向量m x和vx（每个都属于R 512）之间的全局NCE，而L L 是向量mx和特征图Ψ x t（属于R512×10×20）之间的局部NCE。在后一种情况下，s（mx，Ψ x t）中的点积计算为1 hw Σ h i =0 Σ w j =0 m T xΨ(: , i,j)，这被称为[32]中的局部点积编码。请注意，评分函数中的点积假设L2归一化向量，因此Ψ x t在每个位置上（即在Ψ(: ,i,j)上）进行了L2归一化。维度（c，h，w）=（512，10，20）在所有设置中保持不变。03.3. 监督模块0问题定义。ODI的视觉注意力建模是选择的下游任务，用于衡量表示质量。其动机在于任务的难度以及基准的可用性。它包括从输入的360°图像中预测基于(头部+眼睛)的ERP显著性图。在这个设置中，通过卷积每个注视或轨迹点（对于一个图像的所有观察者）来计算地面真实显著性图，定义为：0使用高斯或Kent核函数。得到的显著性图P ∈ [0, 1] W ×H可以被视为一个多变量伯努利分布，其中每个像素都服从伯努利分布，具有概率p被关注，概率(1-p)被丢弃。解码器模块。人类的注意力受到全局和局部特征的驱动。在ODI中，CMP迫使模型在考虑每个立方体面时失去全局上下文信息。通过对比编码器，更明确的全局特征在编码函数权重中作为叠加学习[23]。因此，卷积滤波器对与极点相关的信号更具响应性。因此，我们认为潜在表示Λ ∈ R 512 × 10 ×20位于可解码为显著性图的可行流形内。解码器架构受到SalGAN的启发；然而，我们只保留了每个块一个单一的卷积层，而不是原始SalGAN中的三层。这样做的主要动机是避免过度参数化，并展示一个较简单的函数能够解码表示并提供Ψ的普适性和鲁棒性的证据。显著性损失函数。显著性任务可以被看作是预测显著性分布Y ∈ [0, 1] W ×H与连续的地面真实显著性P ∈ [0, 1] W ×H之间的距离度量。目标函数必须被设计为最大化预测映射的不变性，并给予具有更高注视概率的位置更高的权重。因此，解码器被训练以最小化Kullback-Leibler散度（KLD），广泛用于基准显著性模型[9]，Y和P之间的KLD如下所示：0W ×H �04. 实验设置和结果0训练。我们首先按照无监督的方案训练编码器。对比学习需要大量的无标签数据进行有效训练。由于缺乏大规模的360°图像数据集，我们不得不从多个来源收集了一个新的数据集，其中包括了来自90K个ODI的图像。该数据集包括以下内容：randomly initialized decoder is trained on top of the frozenencoder. The main motivation for this is to set a robustevaluation procedure and to prevent the encoder adapting itsparameters to saliency specific requirements.Our approach is experimentally compared to five mod-els, two state-of-the-art 2D static saliency models, UNISAL[25] and SalGAN, and three 360° specific models: ATSAL[20], SalGAN360 [12] and SaltiNet [2]. This choice is moti-vated by the availability of the source code. All approacheswere evaluated according to five different saliency metrics:Normalized Scanpath Saliency (NSS), Kullback-Leibler Di-vergence (KLD), Similarity (SIM), Linear Correlation Coef-ficient (CC), and AUC-Judd (AUC-J). Please refer to [9] foran extensive review of these metrics.Technical details.Both the contrastive encoder andthe supervised decoder were implemented in PyTorch, andtrained using two GPUs (RTX 3090 & RTX 2080). The con-trastive encoder was optimized using SGD with a learningrate of 10−2. The encoder was trained for 250 epochs usingthe max batch size of 808, with negative samples fixed to16000, τ = 0.07 and λ = 0.7. Choices about total epochsand number of negative samples are based on computationand time constraints. Training for more epochs or with largenegative samples may provide further boost in the perfor-mance [37, 49]. Adam with a learning rate of 10−4 was usedto train the supervised decoder for 100 epochs.Table 1 shows the comparative study with the aforemen-tioned models according to the different saliency metricson Salient360! and (VR-EyeTracking+Sitzman) datasets25/1300 test 360° images. Our model is very competitivein the two datasets, and exhibits the top score for all met-rics on VR-EyeTracking+Sitzman. As expected, 2D SoTAapproaches fail to generalize on ODIs, which questions theeffectiveness of the direct transfer of visual attention featuresfrom 2D to 360° data.154190表1. Salient360！和VR-EyeTracking数据集的性能比较研究。训练设置（i）：无自注意力训练，训练设置（ii）：带有自注意力训练。最佳分数以粗体标记，次佳分数以蓝色标记。0模型Salient360！VR-EyeTracking+Sitzman AUC-J ↑ NSS ↑ CC ↑ SIM ↑ KLD ↓ AUC-J ↑ NSS ↑ CC ↑SIM ↑ KLD ↓0基准：无限人类 0.788 2.09 1.0 1.0 0.0 0.985 3.421 1.0 1.0 0.002D模型UNISAL [25] 0.701 1.404 0.389 0.435 2.519 0.783 1.918 0.276 0.242 9.044 SalGAN [53] 0.701 1.398 0.377 0.4831.544 0.718 1.023 0.145 0.152 10.1950360°模型ATSAL [20] 0.777 1.638 0.642 0.639 0.761 0.822 1.613 0.239 0.191 9.796 SalGAN360 [12] 0.831 1.598 0.639 0.6110.798 0.704 1.267 0.226 0.218 7.938 SaltiNet [2] 0.702 1.057 0.536 0.541 1.098 0.674 0.967 0.186 0.198 9.9380训练设置（i）VGG 0.758 1.557 0.553 0.585 0.909 0.841 1.583 0.246 0.221 7.965 ResNet 0.756 1.524 0.520 0.54 1.039 0.8331.545 0.232 0.203 8.5740训练设置（ii）VGG 0.760 1.548 0.538 0.569 0.922 0.867 1.880 0.308 0.234 7.5830ResNet 0.769 1.601 0.584 0.591 0.849 0.869 2.089 0.329 0.248 7.1100• PVS：HMEM[69]包含76个全景视频，图像采样率为1帧每秒（fps）。0• 360-Indoor[18]包含3024个包含常见物体的复杂室内场景。0• VR-VQA[67]是一个质量评估数据集，包含8个类别的48个ODV：体育、电影等。0• 从YouTube播放列表7中收集的视频（1 fps）。0此外，对这些表示的评估依赖于下游任务。通常，分类准确性被用作表示和类别标签之间相关性的代理。显然，由于表示中编码的对称性和不变性是抽象的，更细粒度的回归代理任务，如显著性预测，可以提供更多的见解。因此，我们在三个显著性数据集上评估无监督模块的表示属性：0•Salient360！图像[55]：一个小规模的数据集，包括（80/23）个用于训练和验证的图像，每个图像至少记录了40个观察者的头部和眼睛显著性地图，采用了眼动和头部位置的ERP格式。0•由于标记的静态数据量较小（103个ODI），我们从大规模视频数据集VR-EyeTracking [70]中以1fps的速率进行采样。结果集包含（4700/1300）个360°图像。0• Sitzmann[57]包含总共（14/11）个训练/验证ODI；作者捕捉并分析了169个用户的注视和头部方向数据。0播放列表1，播放列表2，播放列表30给定我们的约束条件，最大批处理大小为8SalGAN360 [12]14.330ATSAL [20]0.230SaltiNet [2]0.450(*) SalEMA [25]0.020(*) UNISAL [53]0.010ResNet w/o0.7361.5240.4790.5360.999ResNet w/0.7691.6010.5840.5910.849154200表2.VR-EyeTracking数据集的性能比较研究。根据训练设置（i）/（ii），使用VGG（i）/VGG（ii）进行训练。0模型VR-EyeTracking+Sitzman AUC-J ↑ NSS ↑ CC ↑SIM ↑ KLD ↓0VGG（i）λ = 0.5 0.852 1.872 0.306 0.237 7.540 λ =0.7 0.841 1.583 0.246 0.221 7.965 λ = 0.9 0.849 1.8250.278 0.226 7.8750VGG（ii）λ = 0.5 0.860 1.894 0.307 0.231 7.648 λ =0.7 0.867 1.880 0.308 0.234 7.583 λ = 0.9 0.860 1.8940.301 0.241 7.6480VR-EyeTracking &Sitzman。1300个验证/测试图像是从第一个数据集的75个多样化测试ODVs中抽样得到的，与Sitzman的11个图像混合在一起，使预测任务非常具有挑战性。可以看出，基于VGG和ResNet的模型在性能上优于2D显著性模型，与在监督数据上以端到端方案训练的360°专用模型相比有显著改进。使用自注意力训练的ResNet模型取得了最佳结果（KLD ↓ =7.110）。0Salient360！我们使用25张360°验证图像对模型进行测试。该模型没有在此数据集上进行训练，因此这是一次超出分布的测试。与其他模型相比，除了在此特定数据集上进行训练的SalGAN360和ATSAL之外，我们提出的模型在准确性方面有了明显的改进。0图3展示了来自Salient360！和VR-EyeTracking两个数据集的一些360°图像的预测任务。可以看出，我们的模型（基于ResNet且具有自注意力）生成的显著性图与地面真值图在注视分布方面具有很好的相关性。同一图中的其他竞争者通常会过高估计显著性，或者过分偏向赤道/中心。此外，可以观察到预测器在准确检测场景中的主要对象方面的能力。另一个关键点是模型在没有在推理时使用任何形式的投影的情况下，能够准确地检测到天顶和天底的显著性（请参见补充材料中的图2,3）。这证明了对比编码器在将视图作为函数权重和偏差的叠加中嵌入的有效性。0计算负载。由于模型的效率是实际应用中的关键因素，表3显示了不同竞争对手在4KSalient360！ODIs上的GPU运行时间比较（每张360°图像的处理时间）。与其他360°专用模型相比，我们的模型表现出显著的改进，比该类别中最快的模型ATSAL快8倍以上。09由于COVID-19，保留的测试集无法使用。0表3. 视频显著性预测方法（NVIDIA RTX3090）的GPU推理时间比较。所有方法都基于Salient360！基准测试[70]报告。最佳计算性能在专用360°模型中以粗体显示。（*）2D模型。0模型运行时间（秒）0我们的模型（基于ResNet）0.0250表4. 基于对比编码器的模型在Salient360！验证图像上的结果，包括使用和不使用投影的训练。0Salient360！AUC-J ↑ NSS ↑ CC ↑ SIM ↑ KLD ↓05.消融实验0在这一部分中，我们通过消除过程的关键特征来证明选择的合理性。损失函数中的 λ的效果是什么？总损失是一个凸组合，其中包含一个超参数λ，它在全局（L G）和局部（LL）NCE损失之间进行权衡。如表2所示，我们将 λ变化为0.5、0.7和0.9。结果表明，增加 λ可以改善下游任务的性能。从直观上看，如果我们仔细观察方程4，给予 L G更多的重视会使函数偏向于学习平凡解，因为 m x 是 v x的移动平均值，这导致分类任务更容易。然而，更多地关

下载后可阅读完整内容，剩余1页未读，立即下载