没有合适的资源?快使用搜索试试~ 我知道了~
360°视频的显著性检测的新型球形卷积神经网络
360°视频中的显著性检测张子恒† [0000−0002−4496−1861]、徐燕宇† [0000−0001−8926−7833]、于静怡、高盛华†[0000−0003−1626−2040]上海科技大学,中国上海{zhangzh,xuyy2,yujingyi,gaoshh}@ shanghaitech.edu.cn抽象。 本文提出了 一种 新型的 球形卷积神经网络◦用于360 °的显著性检测的基于方案 视频.尤其是在我们的领域-所谓卷积神经网络定义,核定义在球冠上,并且卷积涉及内核沿着球体的旋转。认为-◦360度 视频通常以等矩形全景图存储,我们提出通过拉伸和基于待卷积的面片的位置旋转所述核与已有的球面卷积相比我们进一步考虑到时间的连贯性的观看过程中,并提出了一个顺序的显着性检测,利用球形U-网。来验证我们◦我们构建了一个大规模的360◦视频显著性检测基准由104360个20+人类受试者观看的视频了解-◦仿真实验验证了我们的球形U形网在360显著性检测视频关键词:球面卷积·视频显著性检测·360◦VR视频1介绍视觉注意预测,通常称为显著性检测,是推断场景中吸引人注意的对象或区域的任务它是模仿人类[1] [2][3]的文件。到目前为止,几乎所有现有的工作都集中在图像或视频显着性检测,其中要求参与者观看具有有限视场(FoV)的图像或视频并采用眼动仪记录他们的注视点。然而,这个过程与人眼感知3D世界的自然方式不同:在现实世界中, 一个参与者实际上通过旋转头部来积极探索环境,寻找对场景的全方位理解。在本文中,我们建议模仿这一点,通过探索360◦视频上的显著性检测问题来处理。尽管卷积神经网络(CNN)[4]在图像/视频[5][6]中的显着性检测方面取得了显着进展,但对图像/视频[5] [6]的研究很少。1* 表示等额捐款2†表示通讯作者2Zhang,Yanyu Xu et al.Fig. 1. 等矩形投影引入的变形。左:球面上的360 ◦图像;右:等距矩形全景上的360 ◦图像。全景显著性检测 将全景内容扭曲到透视图上的蛮力方法既不高效也不稳健:将全景分割成更小的图块并使用局部透视投影来投影结果可能导致高的计算开销,因为将需要在每个图块上应用显著性检测。将基于透视的显著性检测直接应用到全景图像上也是有问题的:全景图像表现出几何失真,其中许多有用的显著性线索是无效的。一些最新的方法尝试针对球面全景数据采用定制的卷积网络然而,它们要么专注于处理具有半径分量的球形数据,同时忽略由等角立方体球体表示引起的失真[7],要么动态拉伸内核以适应局部内容,因此无法实现内核参数共享[8]。实际上,当人类探索360°的内容时,我们的大脑使用相同的机制来检测视角或FOV变化时的显著性。换句话说,如果我们利用CNN进行360°视频显著性检测,则对应于不同视角/FOV的卷积运算应该保持相同的内核。为了更好地应对360°视频显著性检测任务,我们提出了一种新型的球形卷积神经网络。具体地说,我们将核定义在球冠上,卷积对应于核在球面上的旋转。此定义具有参数共享属性。此外,考虑到360◦视频通常与等矩形全景一起存储,我们建议通过基于待卷积的补丁的位置对内核进行重新采样来将球面卷积扩展到全景情况。我们进一步提出了一个球面均方损失来补偿由等矩形投影引起的失真效应。在360°视频中,参与者不断地搜索环境这意味着先前帧中的注视然后,我们建议通过使用新的球形U-Net实例化球形卷积神经网络来利用这种时间相干性进行有效的显着性检测[9]。实验验证了该方案的有效性。到目前为止,几乎所有的显著性检测数据集都是基于窄FoV透视图像的,而只有少数数据集是基于360°透视图像的。为了验证我们的方法,我们构建了一个大规模的360◦视频显着性检测基准,由20多个人类受试者观看的104个360◦视频组成每个视频的持续时间范围从20秒到60秒。我们使用aGlass眼动仪来追踪视线。图2显示了我们数据集中几个360度全景我们把球面锥-360°视频3篮球小轮车篮球舞蹈滑板图二. 我们的360◦视频数据集中的五个域的示例。我们使用几种最先进的技术对这些新数据进行了卷积神经网络的测试,并显示我们的技术在准确性和鲁棒性方面显著优于现有技术。本文的贡献总结如下:i)定义了一种新型的球面卷积神经网络,其核在球面上的所有面片之间共享因此,我们的定义是更自然和有用的球形显着性检测。进一步推广到全景图情形; ii)我们提出了一种顺序显著性检测方案,并使用球形U-网架构实例化球形卷积神经网络,用于逐帧显著性检测;(三)建设大型-缩放360◦视频显著性检测数据集,这将有助于评估360◦视频中的显著性检测数据集和代码已经发布,以促进对360度全景视频显著性检测的进一步研究1。2相关工作2.1球面数据的卷积神经网络虽然CNN已经证明了它们对许多计算机视觉任务的有效性[10] [11],但输入传统CNN的数据是透视图像。为了处理球形数据,[12][13]中的方法首先用等矩形投影投影球形图像然而,这种等矩形投影在图1中引入失真。1.一、球面上相同尺寸的片可以基于它们的坐标(θ,Φ)对应于不同形状的区域因此,与共享内核的标准卷积在感知上不再有意义。为了解决这个问题,[8]提出在标准CNN中拉伸内核,以适应卷积中等矩形平面上补丁的形状。这可以在一定程度上避免失真问题。但是,在他们的解决方案中的滤波器形状取决于球面上的补丁的经度,然而,在他们的方法中的内核是不共享的,这引入了昂贵的计算和存储成本。此外,Boomsma等人 [7]提出采用等角立方体球体表示用于球体数据表示,然后应用同心立方体球体卷积。但是他们的解决方案是针对具有半径分量的球体数据(如实心球)提出的此外,等角立方球表示仍然在每个小平面中引入失真,这损害了卷积的准确性与这些工作不同,在[14][15]中,1GitHub:https://github.com/xuyanyu-shh/Saliency-detection-in-360-video4Zhang,Yanyu Xu et al.将球面图像重复投影到所有位置处的切平面,并在这些平面上进行卷积。虽然这样的解决方案提高了精度,但它也带来了昂贵的计算成本。此外,不相交的投影平面使得中间表示不能被更高层卷积共享最近,Cohen等人。 [16]在SO(3)流形上提出了一种新型的球面CNN,他们的解是表达性和旋转等变的。利用快速傅里叶变换,可以大大加快求解速度。然而,SO(3)CNN的概念并不那么符合我们处理2D球形图像的直觉,并且与规划器CNN的概念截然不同。尽管已经提出了许多用于球形数据的CNN模型,但没有一个用于360◦视频。实际上,当我们改变360°视频中的FOV时,我们的大脑实际上使用相同的机制来探索环境。换句话说,用于显著性检测的k核应当在所有视图之间共享。这促使我们设计一种新型的球形CNN:我们定义具有球冠形状的核,我们在球极坐标系上旋转核并将核与片卷积。2通过这种方式,可以共享内核因此,我们的解决方案对于360◦视频中的显著性检测更自然,2.2视频显著性检测已经做了许多努力来研究视频显着性检测,无论是基于手工制作的特征的方法[17][18][19] [20],还是基于深度学习的方法[21][22] [23][6][24],但360◦视频中视频显着性检测的研究仍处于初级阶段。[25][12]是沿着这个方向的两个先驱工作,但这些工作中使用的360◦实际上,具有动态内容的视频在实际应用中更常见。为了了解动态360◦视频中人类的行为,特别是360◦体育视频,Hu等人提出通过将投影的全景图像直接输入CNN来预测显著对象。但是,没有考虑投影的失真,这将降低精度。此外,显著对象是人工标注的,不一定能反映人类视觉注意的真实行为。为了更好地理解用户据我们所知,这是第一个在360°视频中进行眼睛注视预测的工作。我们还建立了一个数据集,以便于评估我们的工作。2由于球面图像通常以平面格式存储,因此我们将球面图像等矩形投影到欧氏平面上,然后根据待卷积的投影块的形状对核进行重采样,再将目标块与变换后的核进行卷积。360°视频51.00.80.60.40.20.0滑板跑酷舞蹈小轮车篮球0.51.01.52.02.53.00.06543210(a)(b)第(1)款图三. 数据集分析:(a)基于视频数量的五个体育领域的分布;(b)等矩形全景上的眼睛注视的分布。(彩色效果3360度全景动态视频显著性检测数据集3.1数据收集我们从Sports-360数据集[13]中收集360◦视频,并删除长度小于20秒的视频片段3,并使用剩余的104个视频片段作为360◦视频中用于显着性检测的视频内容涉及五项运动(即篮球、跑酷、小轮车、滑板和舞蹈),每个视频的时长在20秒至60秒之间。图图3(a)示出了五个体育视频的分发然后,我们用HTC VIVEHMD显示视频,并将我们招募了27名志愿者(20 - 24岁)参加实验。所有104个视频分为3个会话,每个会话包含35个360◦视频。志愿者被要求以随机顺序在固定的起始位置(θ=90,φ=180)观看360°我们在2个视频之间设置了一个较短的休息时间(20秒),在观看15个视频后设置了一个较长的休息时间(3分钟)。我们还在长时间休息后校准系统。最后,每个视频至少有20名志愿者观看。用于数据收集的总时间约为2000分钟。注视点的分布图3(b)示出了在等矩形全景上的所有视频上的所有参与者的以Θ、Φ表示的所有眼睛注视角的分布。全景图中心的峰值(θ=90,φ=180)是因为所有参与者都以固定的起始位置探索环境。此外,我们可以看到,眼睛注视点主要集中在赤道周围,这意味着志愿者倾向于沿着水平方向探索环境,并且他们很少向下/向上看。在北极/南极周围几乎没有眼睛注视点。3我们只使用超过20秒的视频,而不是整个Sports-360数据集,因为在[12] Sitzmann等人评估了给定静态场景的探索时间,并表明11372814146Zhang,Yanyu Xu et al.y(a)(b)第(1)款见图4。(a)球坐标系:φ是X轴与直线在XOY平面上的正交投影的夹角,θ是Z轴与直线的夹角;(b)球冠核:红线代表半径r。(Best颜色显示)4球面卷积神经网络在这一节中,我们介绍了我们在球面上的球面卷积及其在全景图上的扩展。一个新的球面均方误差(球MSE)的损失也介绍了球面卷积全景。请注意,深度学习中的卷积运算通常指的是数学中的相关性。球面卷积球面卷积是对球面流形S2上的特征映射f和核k的运算。S2定义为范数为1的点x∈R3的集合,可以用球坐标θ∈[0,π]和φ∈[0,2π]来参数化,如图2所示。第4(a)段。为了简化符号,这里我们将球面图像和滤波器建模为连续函数f:S2→RK,其中K是通道数。然后,球面卷积被公式化为[26]:∫[fk](x)=f(Rn)k(R−1x)dR(1)S2其中n是北极,R是由3×3矩阵表示的球体上的旋转在本文中,滤波器k只在球冠以北为中心时具有非零值极点,其大小由r k参数化,其对应于北极和树冠边界线之间的正交距离,如图所示。第4(b)段。因此,半径rk控制核k中的参数的数量和局部感受野的大小。较大的rk意味着k中有更多的参数,并且局部感受野较大。球面图像或视频通常通过由(θ,φ)(θ∈[0,π]和φ∈[0,2π])表示的等矩形投影存储为2-D全景图因此,我们将等式(1)扩展到投影全景上的特征图f和核k之间的卷积,如∫∫[f*k](θ,φ)=f(θ′,φ′)k(θ′−θ,φ′−φ)sinθ′dθ′dφ′(2)等距矩形上的球面卷积与透视图像上的卷积有一些不同。首先,我们把以(θ0,φ 0)为中心的核的点集记为Dk(θ0,φ0)={(θ,φ)|g(θ,φ,θ0,φ0)≤0},其中g(θ,φ,θ0,φ0)≤z11y1X1 .一、z.11.一、X360°视频7一Ba2+B20对应于以(θ〇,φ〇)为中心的球面crown(k_ernel)的方程 Dk的性质与透视图像的标准卷积不同。具体地,当我们移动内核并且当其中心是(θ0+Δθ ,φ0+Δφ)时,不能通过简单地将Dk(θ0,φ0)移动(Δθ,Δφ)来直接获得针对被移动内核的点集,其可以在数学上写为如下:D k(θ0+∆θ,φ0+∆φ)={(θ,φ)|g(θ−∆θ,φ−∆φ,θ0,φ0)≤0}{(θ+θ,φ+φ)|g(θ,φ,θ0,φ0)≤0}(三)其次,在方程(2)中,球面卷积的被积函数中存在sinθ′第三,由于360〇图像的全方位视图,在等式⑴中的球面卷积中不存在填充。但是,由于存储格式,它确实需要在等式(2)中的等矩形全景上的卷积中进行填充这里需要的填充是循环移位。例如,当内核位于最左侧区域时,它需要从最右侧区域借用一些像素来计算卷积。为了简化符号,我们也将等距矩形全景图上的这样,我们就可以利用等矩形全景图上的卷积来实现球面上的卷积。我们定义采样率上的等距矩形全景的像素每弧度的数量。因此,全景图的采样率沿θ和φ方向分别为srθ=H/π,srφ=W/2π这里H、W是全景的高度和宽度作为特例,对于半径为rk的核,当核以北极为中心时,其在等矩形全景图上的投影将是一个矩形,其大小记为Wk×Hk,θ和φ方向的采样率分别为srθ=Hk/rk,srφ=Wk/2π。K K对于全景图上的离散球面卷积,我们将待学习的核参数设置为以北极为中心的核的等矩形投影(θ≤rk)。因此,投影在等矩形全景图上的核对应于大小为Wk×Hk的矩形。值得注意的是,我们也可以将内核设置在其他位置而不是北极,但内核的样本网格将相应地改变。等矩形全景图上的离散球面卷积包括以下步骤:确定以(θ i,φ i)为中心的核的非零区域并获得落入核区域Dk(θi,φi)中的点的集合,将这些点旋转回到Dk(0,0),重新-对原始核进行采样,以找到Dk(θi,φi)中每个采样点的值。确定落入Dk(θi,φi)的点。对于以(θi,φi)为中心的半径为rk的球冠核,落入具有坐标(θ,φ)的该核区域中的点满足以下等式:sinθicosφisinθcosφ+sinθisinφisinθsinφ+cosθicosθ=cosθk(4),可以简化为sin(φ+ψ)=C(5)其中sin=√a2+b2,cosψ=√a2+b2,C=√d−c 并且a= sinθicosφisinθ,b= sin θisin φisin θ,c= cos θicos θ和d = cos θk。8Zhang,Yanyu Xu et al.算法1获取核心区域上的网格点集合输入:核半径rk,核位置θk,φk。输出:内核区域S1上的网格点集:S←2:计算Θ的范围:3:Θ∈[max(0,θk−rk),min(θk+rk,π)]4:计算每个θ∈Θ的Φ范围:5:对于每个θ∈Θ,6:找到方程Eq. 57:如果存在无穷多个解,则8:φ∈[0,π]9:else如果存在两个解φ1<φ2则10:φ∈[φ1,φ2]11:else如果不存在解,则12:在核区域上没有网格点(θ,φ)14:将(θ,φ)加到S。15:结束一旦确定球面上的核区域,我们就可以对全景图上的对应点进行采样,以获得卷积所需的点我们在算法1中列出了该阶段的主要将采样点集旋转回北极。现在我们有了当前核区域的采样点,我们还需要确定它们与以北极为中心的那些核值为了做到这一点,我们通过利用它们的笛卡尔坐标表示与沿着Y轴以及Z轴的旋转矩阵之间的矩阵乘法来将这些注意,在旋转之后,采样点可能位于以北极为中心的原始核点之间。重新采样原始核为了获得位于以北极为中心的原始核点之间的采样点的核值,我们使用空间变换网络[27]中使用的网格采样技术,这基本上是用于2D图像上的这种重新采样问题的一般插值方法图中的第三行图5示出了对应于位于θ=0、π/4、π/2、3π/4、π和φ=π处的核的采样网格。最后,球面卷积的结果通过重采样的核点与对应的全景点之间的逐元素乘法的和除以重采样的核点的总数来给出球面卷积的性质球面卷积具有以下三个性质:稀疏交互、参数共享和等变表示。– 稀疏的互动。标准CNN通常具有稀疏的交互,这是通过使内核小于输入来实现的。我们提出的球形360°视频9图五、 参数共享。该图显示了球冠核如何在球面上变化,以及从北极到南极的投影全景,角度间隔等于π/4。第一个原始数据是球冠核在球体中的区域第二原始示出了投影的全景图中的球冠核的区域第三行示出了对应于每个内核位置的采样网格。红色曲线表示θ采样网格,蓝色曲线表示φ采样网格。CNN也有这个重要的属性。这种稀疏连接大大减少了要学习的参数的数量。此外,较高层中的卷积对应于逐渐变大的局部感受野,这允许网络有效地对输入和输出之间的复杂交互进行建模。– 参数共享。与透视图像的标准卷积类似,球冠核的参数在球体上各处都相同,这意味着核是共享的。这将大大降低模型以及要学习的参数的数量。如图所示,对不同位置处的内核进行重新采样。五、– 等变表示。在用于透视图像的标准卷积和球面卷积中,参数共享使得层具有等变量,转换属性,这意味着如果输入改变,输出也会以同样的方式改变。4.1球面均方误差(MSE)损失均方误差(MSE)损失函数被广泛用于基于透视图像的CNN中。然而,标准MSE被设计用于透视图像。对于透视图像,离散化在空间上均匀地执行,这不同于全景图的情况为了对全景图进行均方误差估计,我们先对全景图中每个像素的平方误差我们定义立体角(球面度)等于单位球面的一段面积,就像平面角(弧度)等于单位圆的弧长一样,其比值如下:Ω=A/r2,其中A是球面面积,r是单位圆的弧长。10Zhang,Yanyu Xu et al.层操作输入大小输入源输出大小核半径内核大小0输入--3× 150× 300--1球面曲面3× 150× 300第064× 150× 300π/32(8,16)2最大池化64× 150× 300层164× 75× 150π/32(8,16)3球面曲面64× 75× 150层2128× 75× 150π/16(4、8)4最大池化128× 75× 150层3128× 38× 75π/16(4、8)5球面曲面128× 38× 75层4256× 38× 75π/4(4、8)6最大池化256× 38× 75层5256× 19× 38π/4(4、8)7球面曲面256× 19× 38层6256× 19× 38π(8,16)8上采样256× 19× 38层7256× 38× 75π/4(4、8)9球面曲面(256+256)×38× 75第8层6128× 38× 75π/4(4、8)10上采样128× 38× 75层9128× 75× 150π/16(4、8)11球面曲面(128+128)×75×150第10层564× 75× 150π/16(4、8)12上采样64× 75× 150层1164× 150× 300π/32(4、8)13球面曲面(64+64)×150× 300第12层31× 150× 300π/32(4、8)表1. CNN的架构所考虑的球体的半径因此,对于单位球体,半径为r且以北极为中心的球冠的立体角给出为:Ω=2π(1−cosr)。期望的是,对应于相同立体角的图像块对于球体MSE将具有相同的权重,因此我们得到以下目标函数:1ΣnL=θ,Φwθ,φ(S(k)-S(k))2(6)nk=1θ =0,φ =0θ,φθ,φ其中S(k)和S(k)是第k个图像的真实显著性y图和预测显著性y图,wθ,φ是每个点的权重,与其立体角成比例,并且wi,j∝Ω(θ,φ)。 Ω(θ,φ)是对应于显著图上位于(θ,φ)处的采样区域的立体角。在我们的实现中,我们只需设置wθ,φ= Ω(θ,φ)/4π(4π是单位球的立体角)。5基于球面U网的360°视频显著性检测5.1问题公式化给定帧序列V ={v1,v2,. . . ,vT},我们的目标是预测对应于该视频S ={s2,s2,s3,. . . ,sT}。因此,基于深度学习的360◦视频显著性检测旨在学习将输入V映射到S的映射G。然而,在这方面,与显著性仅取决于视频内容的透视视频不同,参与者在360°视频中观看的位置还取决于参与者的起始位置。我们定义s0为起始位置的眼睛注视图,也就是起始点对应的显著图,那么视频显著性检测可以公式化为G*= arg minS−G(V,s0)2(七)FF在实践中,我们可以用以起始位置为中心的高斯核初始化s0此外,参与者实际上以逐帧的方式观看360◦视频,并且360°视频11前一帧的眼睛注视有助于预测下一帧的眼睛注视。因此,我们可以将这种先验编码到目标中,并达到以下目标:ΣTF= arg minFt=1st−F(vt,st−1)这里F是预测函数,其将当前时刻的前一帧和视频帧的显著性图作为用于当前时刻的显著性预测的输入。受U-Net [9]成功的启发,我们建议使用球形U-Net作为F来适应它,以进行逐帧显著性检测。5.2球形U形网球形U-Net的网络架构如表1所示。网络的输入是在时间t投影的球面图像vt和在时间t-1投影的球面显着图st-1。类似于U网[9],我们的球形U网也由收缩路径(左侧)和扩张路径(右侧)组成。在承包路径中,有采用三个球形卷积层,随后是整流线性单元(ReLU)和2x2球形最大池化来对数据进行下采样扩展路径由三个球形卷积层组成,然后是ReLU和上采样。 对于最后三个球形卷积层,它们的输入是它们的前一层的输出和来自收缩路径的具有相同输出大小的对应层的输出的级联。最后一层中的球形卷积用于将每个特征向量映射到显著性图。网络总共有7个球形卷积层。6实验6.1实验装置我们使用PyTorch框架实现了我们的球形U-Net 我们使用以下超参数设置来训练我们的网络:小批量大小(32)、学习率(3e-1)、动量(0.9)、权重衰减(0.00005)和迭代次数(4000)。数据集。我们在两个Salient 360上评估我们提出的球形CNN模型!dtaset和我们的视频显着性数据集。360![28]由63个观察者观看的98个不同的360°图像组成。我们的视频显着性数据集由20名观察者观看的104个360个对于Salient 360,我们遵循[28]中提供的标准训练/测试划分。对于我们的数据集上的实验,随机选择80个视频作为训练数据,其余24个视频用于测试。基于相同的训练/测试划分来比较所有基线对于图像显著性,我们直接从RGB 360◦图像回归显著性图。指标. 我们通过类似于球面卷积的方式使用sigma等于3.34◦的冠状高斯内核来创建地面真实显着图。由于投影过程中的失真,像典型的2D显著图那样直接比较两个全景显著图因此,我们利用[28]中引入的包括CC,AUC-judd和NSS的度量来测量预测的显着性图和地面实况之间的误差12Zhang,Yanyu Xu et al.LDS [29][5]洋葱[30]GBVS [31] Wang等人[32个]SaltiNet [33]球形U-Net w.o.sal标准U-Net顶向下提示(面)我们基线1人类基线-无限人类CC0.27270.24040.21710.12540.29290.25820.37160.24570.62500.62460.76410.7035NSS1.65891.39581.31780.80031.58691.44702.20501.30343.53393.53405.43395.6504AUC-judd 0.81690.82660.80740.77990.79060.85790.84640.83000.89850.89770.75850.8634表2. 在我们的视频显着性数据集上,最先进的方法与我们的球形U-Net的性能比较。基线。我们将我们提出的球形U-Net与以下最先进的方法进行比较:图像显著性检测方法,包括LDS [29],Sal-Net [5]和SALICON [30],视频显著性检测方法,包括GBVS [31]和最近的动态显著性[32]和360◦图像显著性模型[33]。在所有这些方法中,Sal-Net和SALICON是基于深度学习的方法,我们在本文中使用的数据集上使用全景图像重新训练模型以进行性能比较。我们还设计了以下基线来验证我们的球形模型的有效性。– 标准U-Net。与我们的球形U-Net方法相比,这种基线中的CNN和MSE损失是常规CNN和标准MSE损失。– 球形U-Net,带螺纹萨尔与我们的球形U-Net方法相比,唯一的区别是,前一帧的显著性不考虑当前帧的显著性预测。此外,我们通过遵循[34]中的策略来衡量人的绩效– Baseline-one human:它测量一个观察者看到的显着图和其他观察者看到的平均显着图之间的差异。– 基线无限人类:它测量由一部分观察者观察到的平均显着性图与由其余观察者观察到的平均显着性图之间的差异。最近的工作已经采用了几个自上而下的显着性检测线索以前的工作[35]显示人脸增强显著性检测。因此,我们还设计了一个基线自上而下的线索(人脸),以使用人脸作为线索,并随后进行后处理显着性图[35]。6.2绩效评价我们将我们的方法与表2中的所有基线进行实验结果表明,该方法在视频显著性数据集上的性能优于所有基线方法,从而验证了该方法在360°视频显著性检测中的有效性。为了显示θ和φ方向上的旋转等变,我们在测试数据上沿φ方向旋转60◦,120◦,沿θ方向旋转30◦,60◦,并在训练集上通过在两个方向上旋转随机度来进行数据结果示于图7.我们可以看到,与φ方向的旋转相比,θ方向的旋转略有变化,因为沿θ方向旋转时样本网格的变化。为了评估我们的方法在Salient 360!数据集,我们已经修改了我们的模型,以直接预测静态360◦图像的显着性图图360°视频13CCAUC-judd1 650.840.630.40510152025时间20510152025时间图六、第一:最先进的方法与我们的球形CN-N在Salient 360 [36]数据集上的性能比较。第二部分:在视频显著性数据集上对不同分量的性能进行了比较。第三和第四:分别基于CC、AUC-judd和NSS度量的显著图预测在较长时间6,我们可以看到我们的方法优于所有基线,这验证了我们的方法对静态360°图像的有效性。6.3球面U形网我们通过用标准CNN(Ours)替换球形CNN来进行消融研究。W.标准转换器)和用标准MSE替换球形MSE(我们的w.标准MSE)。这些基线的性能列于图1中的表中。6.我们可以看到球形CNN和球形MSE都有助于性能。我们还评估了具有不同球形核大小的球形U-网,并与具有比我们的球形U-网更小的核大小的球形U-网进行了比较(OursW.较小的内核)在图中的表中示出。6.我们可以看到,更大的内核会带来更好的性能。一个可能的原因是,更大的球形内核可能涉及更多的参数,这可能会增加我们网络的能力另一个原因是较大的内核增加了内核采样率,这可能会提高重新采样内核时的准确性6.4球形池。我们在图1中的表格中对平面池和球面池进行了比较六、在本文中,球形池可以被看作是一个特殊的球形卷积,类似于计划者之间的关系。球形池优于- 的规划器池,负责与球形特征映射的内核的感受野之间的一致性。要注意的是,[16]还使用规划器(3D)池化来下采样特征图。由于规划器池实现了与球形池相似的性能并且具有较低的计算成本,因此遵循[16],目前我们使用规划器池。6.5更长时间的显著性预测图中的中间和右边的数字。图6示出了当我们的模型基于CC、NSS和AUC-judd度量预测更长时间的显着性图时的结果。我们可以看到显著性预测的性能随着时间的推移而退化一个可能的原因是,随着时间变长,前一帧的预测变得不太准确,这因此将影响当前帧的显著性检测。NSS度量值度量值方法CCAUC-juddNSSLDS [29]0.31340.61860.6703[5]0.29980.63970.6792洋葱[30]0.32330.65110.6918我们0.40870.65940.6989基线CCAUC-judd NSS我们的w标准MSE0.61893.16200.8685我们的w标准转换0.28771.61450.8520我们的w小核0.60233.2190.8593球形池0.62533.53330.8980我们的球形U形网0.62463.53400.897714Zhang,Yanyu Xu et al.沿方向旋转120旋转60度在方向上原始帧原始帧旋转30度在方向上旋转60度在方向上图7.第一次会议。θ和φ方向的旋转等变:第一列和第三列是旋转框架,第二列和第四列是我们的预测。6.6时间和内存成本我们的模型在四个NVIDIA Tesla P40 GPU上训练。我们计算每个图像批次的平均运行时间我们模型的平均运行时间为5.1s/iter。表1中列出的球形U-Net大约有6.07M的参数,在训练时批量大小为32时消耗21×4GB的内存在我们的视频显着性数据集上训练模型大约需要36个小时(迭代总数为4000)。7结论与讨论我们的工作试图利用动态360◦视频中的显着性检测为此,我们引入了一种新型的球形CNN,其中内核在球体上的所有图像块之间共享考虑到360◦视频与全景一起存储,我们将球形CNN扩展到全景情况,并且我们建议基于其位置对全景上的球形卷积的内核进行重新采样。然后,我们提出了一个球形U-网络的360◦视频显着性检测。我们还建立了一个大规模的360◦视频显着性数据集的性能评估。大量的实验验证了我们所提出的方法的有效性值得注意的是,我们的球形CNN是一个通用框架,它也可以应用于涉及360°视频/图像的其他任务。对于视频显著性预测,我们的方法仍有一些改进的空间。目前,为了简化问题,我们只考虑前一帧的显著图来预测当前帧。考虑到更长时间范围内的显着性图可能会提高性能,例如,我们还可以将球形U-Net与LSTM结合起来球形CNN与其他类型的深度神经网络的结合超出了本文的研究范围,我们将把它们留给未来的工作。8确认本项目得到国家自然科学基金(No. 61502304)。360°视频15引用1. Itti,L.:使用视觉注意的神经生物学模型的视频压缩的自动聚焦。IEEE图像处理学报13(10)(2004)13042. Setlur,V.,Takagi,S.,拉斯卡尔河Gleicher,M.,Gooch,B.:自动图像重定向。于:第四届移动与泛在多媒体国际会议论文集,ACM(2005)593. Chang,M.M.L.,Ong,S.K.,倪,A.Y.C.:基于视觉显著性的ar辅助维修信息自动定位方案。在:增强现实,虚拟现实和计算机图形学国际会议,施普林格(2016)4534. Krizhevsky,A.,萨茨克弗岛Hinton,G.E.:Imagenet分类与深度卷积神经网络。在:神经信息处理系统的进展(2012)10975. Pan,J.,Sayrol,E.,Giroinieto,X.,Mcguinness,K.Oconnor,N.E.:用于显著性预测的浅层和深层(2016)5986. 巴扎尼湖Larochelle,H.Torresani,L.:用于时空视觉注意的递归混合密度网络arXiv预印本arXiv:1603.08199(2016)7. Boomsma,W. Frellsen,J.:球卷积及其在分子模型中的应用。在:神经信息处理系统的进展。(2017)3436-34468. Su,Y.C.,Grauman,K.:学习球面卷积,从360图像中快速获取特征。在:神经信息处理系统的进展。(2017)5299. Ronneberger,O.,Fischer,P.,Brox,T.:U-网:用于生物医学图像分割的卷积网络在:医学图像计算和计算机辅助干预国际会议,Springer(2015)23410. Schroff,F.,Kalenichenko,D.Philbin,J.:Facenet:用于人脸识别和聚类的统一嵌入在:IEEE计算机视觉和模式识别会议论文集。(2015)81511. Ren,S.,他,K.,格尔希克河孙杰:更快的r-cnn:利用区域建议网络进行实时目标检测。在:神经信息处理系统的进展。(2015)91-9912. Sitzmann,V.,Serrano,A. Pavel,A.,Agrawala,M.,Gutierrez,D. Wetzstein,G.:vr中的显著性:人们如何探索虚拟环境?(2016年)13. Hu,H.N.,Lin,Y.C.,Liu,M.Y.程H. TChang,Y.J.,孙,M.:Deep 360 pilot:学习一个深度代理,用于通过360度体育视频进行驾驶。(2017年)14. Su,Y.C.,Grauman,K.:使360度视频在2D中可观看:点击学习视频免费观看ArXiv预印本(2017)15. Su,Y.C.,Jayaraman,D. Grauman,K.: Pano2vid:自动电影摄影观看◦360 视频.亚洲计算机视觉会议。(2016)15416. Cohen,T.S.,Geiger,M.,Koehler,J.,Welling,M.:球形cnns。arXiv预印arX-电话:1801.10130(2018)17. Zhong,S.h.,Liu,Y.,Ren,F.,张杰,Ren,T.:基于动态一致时空注意力模型的视频显著性检测。在:AAAI。(2013)106318. Zhou,F.,中国科学院院士,Bing Kang,S.,Cohen,M.F.:使用时空显著性的时间映射在:Proceedings的IEEE会议上的计算机视觉和模式识别。(2014)3358- 336519. 伊蒂湖Dhavale,N. Pighin,F.:使用视觉注意力的神经生物学模型的现实化身眼睛和头部动画。神经网络、模糊系统和进化计算的应用与科学。第5200卷,国际光学与光子学会(2003)6420. Ren,Z.,Gao,S.,Chia,L.T. Rajan,D.:用于时空显著性检测的正则化特征重构。IEEE Transactions on Image Processing22(8)(2013)3120- 313216Zhang,Yanyu Xu et al.21. B a k,C.,Erdem,A.,Erdem,E.:用于动态显着性预测的两流同伦网络arXiv预印本arXiv:1607.04730(2016)22. 王伟,沈,J.,Shao,L.:通过全卷积网络的视频显著对象检测IEEE Transactions onImage Processing27(1)(2018)3823. Chaabouni,S.,Benois-Pineau,J.,哈达尔岛,Amar,C.B.:深度学习显著性预测在自然视频中。(2016年)24. Liu,Y.,Zhang,S.,(1991),中国农业科学院,徐,M.,He,X.:多人脸视频中的显著人脸预测。IEEE计算机视觉和模式识别会议论文集。(2017)4420-442825. Ruhland,K. Peters,C.E.,Andrist,S.,Badler,J.B.,Badler,N.I.,Gleicher,M.,Mutlu,B.,Mcdonnell,R.:虚拟代理、社交机器人和人机交互中的眼睛注视综述:行为生成、用户交互和感知。计算机图形论坛34(6)(2015)299- 32626. Driscoll,J.R.Healy,D.M.:在二维球面上计算傅立叶变换和卷积应用数学进展15(2)(1994)20227. Jaderberg,M.,西蒙尼扬,K.,Zisserman,A.,等:空间Transformer网络。在:Ad-神经信息处理系统的进展。(2015年)201728. Rai,Y., Guti e'rrez,J., LeCallet,P.:360度图像头部和眼睛运动数据集。在:第八届ACM多媒体系统会议论文集,ACM(2017)205-21029. Fang,S.,李杰,田,Y.,黄,T.,Chen,X.:学习随机对比下的判别子空间IEEETransactions on Neural Networks and Learning Systems28
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功