没有合适的资源?快使用搜索试试~ 我知道了~
360°全景的捕捉角度预测Bo Xiong1和Kristen Grauman21德克萨斯大学奥斯汀分校2Facebook人工智能研究bxiong@cs.utexas.edu,grauman@fb.com抽象。360°全景是一种丰富的媒介,但众所周知,难以在2D图像平面中可视化。我们探讨如何智能旋转的球形图像可以使内容感知投影与较少的可察觉的失真。尽管现有方法假设视点是固定的,但直观地,球体内的一些视角比其他视角更好地保留高级对象。为了发现这些最佳捕捉角度和球形全景图作为一个深度递归神经网络实现,我们的方法选择一系列旋转动作,并因避免与重要前景对象重叠的立方体边界而获得奖励。我们展示了我们的方法创建更美观的全景图,同时使用比基线少5倍的计算。关键词:360全景,内容感知投影,前景物体1介绍最近出现的廉价且轻便的360°摄像头为捕捉我们的视觉环境提供了令人兴奋的新方法。与传统相机只捕捉有限的视野不同,360°相机从其光学中心捕捉整个视觉世界。虚拟现实技术的进步以及YouTube和Facebook等社交媒体平台的推广进一步提升了360◦数据的相关性然而,观看360◦内容呈现出其自身的挑战。目前,追求三个主要方向:手动导航、视场(FOV)减小和基于内容的投影。在手动导航场景中,人类观看者选择观察哪个正常视场子窗口,例如,通过VR头戴设备中的连续头部运动,或者在屏幕观看界面上点击鼠标。相比之下,FOV缩减方法通过学习渲染观看球体的最有趣或最值得捕捉的部分来生成正常FOV视频虽然这些方法减轻了人工导航的决策负担,但它们通过丢弃所有未选择的部分而严重限制了所传递的信息投影方法将广角视图或整个球体渲染到单个平面上(例如,等矩形或墨卡托)[5]或多个平面[6]。虽然它们避免丢弃内容,但任何投影都不可避免地引入对观众来说可能不自然的失真基于内容的投影方法可以通过优先保留直线来帮助减少感知失真。从德克萨斯大学奥斯汀分校(grauman@cs.utexas.edu)休假2B. Xiong和K. 格劳曼Fig. 1. 捕捉角度预测前后的立方体贴图比较(虚线分隔每个面)。与以前的工作,假设一个固定的角度投影,我们建议预测立方体旋转,将最好地保留前景物体的输出。例如,这里我们的方法更好地保留了卡车(第二行中的第三张图片C我们显示了六个面中的四个(前、最好用彩色或pdf格式查看。保形性或其他低级线索[7然而,所有现有的基于内容的自动投影方法都隐含地假设输入360度全景图像的视点也就是说,球面图像是在某个默认坐标系中处理的,如相机制造商提供的等矩形投影。这种假设限制了输出图像的质量。独立于最终使用的内容感知投影,固定的视点意味着原始球体的一些任意部分将被降级到失真最大,或者至少是它们将需要内容感知算法最多关注我们建议消除固定视点假设。我们的关键见解是,智能选择的视角可以立即减少失真,即使在传统投影方法之后也是如此。特别地,我们考虑广泛使用的立方体映射投影[6,15,16]。立方体贴图通过首先将球体映射到具有直线投影的立方体(其中每个面捕获90FOV),然后展开立方体的面来可视化整个球体通常,一个重要的对象可以投影到两个立方体面上,破坏了对象的完整性。此外,直线投影使立方体面边界附近的内容更加失真。参见图1顶部。然而,直觉上,一些视角-一些立方体取向-比其他视角的损害更小。我们介绍了一种自动预测捕捉角度的方法:立方体的旋转将产生一组立方体面,在所有可能的旋转中,大多数看起来像来自给定360◦全景图像的精心合成的人类拍摄的照片。虽然“构图良好的照片”本身就是积极研究的主题[17-21],但我们专注于良好构图的高级测量,其目标是将每个(自动检测到的)前景对象合并在一个立方体贴图面的范围内。参见图1底部。360°全景3因此,我们形式化我们的捕捉角度目标在立方体边缘附近的前景对象的空间质量最小化方面我们开发了一种强化学习(RL)方法来推断给定360◦全景的最佳捕捉角度。我们使用一个端到端训练的深度递归神经网络来实现该方法。我们的RL网络选择的旋转“动作”的顺序我们验证了我们的方法对各种360◦全景图像。 与几个信息基线相比,我们证明了1)捕捉角度更好地保留了重要对象,2)我们的RL解决方案有效地确定了最佳捕捉角度,3)捕捉角度旋转后展开的立方体地图比现状立方体地图遭受更少的感知失真,以及4)捕捉角度甚至有可能影响识别应用程序,通过以更好地匹配的方式定向360 ◦数据。用于今天的预训练识别网络的正常FOV照片的统计数据。2相关工作球面图像投影球面图像投影模型投影有限的FOV [7,22]或整个全景[5,23,6]。 前一类包括直线投影和Pannini [7]投影;后者包括等矩投影、赤平投影和墨卡托投影(参见[5]的综述)。Rectilinear和Pannini以各种方式优先保留线条,但始终独立于特定的输入图像。由于整个球体的任何投影都必须引起失真,因此多视图投影在感知上可能比单个全局投影更强[23]。 Cubemap [6]是我们捕捉角度方法的主题,是一种多视图投影方法;如上所述,当前的方法简单地以其默认方向考虑立方体贴图。基于内容的投影基于球面投影方法,基于内容的投影可根据图像进行特定选择,以减少失真。最近的工作[8]优化了Pannini投影[7]中的参数,以保留具有更大低水平显着性和直线的区域。交互式方法[10我们的方法是基于内容和全自动的。鉴于先前的自动方法假定用于投影的固定视点,我们提出主动预测用于渲染的捕捉角度。因此,我们的想法是正交的360度内容感知投影。投影方法的进步可以与我们的算法相一致地应用作为后处理以进一步增强旋转的面。例如,当生成立方体图时,可以用其他投影代替直线投影[7,8,10],并保持我们学习框架的其余部分不变。此外,所提出的捕捉角度尊重高级图像内容检测到的前景对象,而不是典型的低级线索,如直线度[12,10]或低级显着性度量[8]。观看广角全景由于观看360°和广角数据是不平凡的,因此有基于视觉的努力来促进。[24]的系统有助于有效探索千兆像素全景图。最近,一些系统自动从360°视频中提取正常FOV视频4B. Xiong和K. 格劳曼注意力的递归网络虽然处理的问题与我们的问题非常不同,但最近的多种方法都采用了深度递归神经网络(RNN)来做出关于将注意力集中在哪里的顺序决策。[25]的有影响力的工作学习了图像分类中视觉注意力的策略主动感知系统使用RNN和/或强化学习来选择在新图像[26,27],环境[28-30]或视频[31-34]中寻找的位置,从广义上讲,我们都有一个共同的目标,即有效地收敛到一个期望的目标3方法我们首先将捕捉角度预测形式化为优化问题(Sec.第3.1节)。然后介绍我们用于捕捉角度预测的学习框架和网络架构(第二节)。3.2)。我们专注于立方体贴图投影[6]。回想一下,立方体贴图将球体映射到具有直线投影的立方体(其中每个面捕获90◦ FOV),然后展开立方体的六个面。展开的立方体可以被可视化为一个展开的盒子,其中四个面的横向条带在场景中空间上连续(见图11)。1,底部)。我们用cubemaps来探索我们的想法有几个原因。首先,cubemap覆盖整个360◦内容,不会丢弃任何信息。其次,每个立方体面与常规FOV非常相似,并且因此对于人类来说相对容易查看和/或编辑。3.1问题公式化我们首先将捕捉角度预测形式化为优化问题。令P(I,θ)表示投影函数,该投影函数将全景图像I和投影角度θ作为输入,并在将球体(或等效地立方体)旋转θ之后输出立方体图。设函数F是一个目标函数,它将立方体贴图作为输入,并输出一个分数来衡量立方体贴图的质量。给定一个新的全景图像I,我们的目标是通过预测捕捉角度θ* 来最小化F:θ*= argmin F(P(I,θ))。(一)θ投影函数P首先基于捕捉角度θ变换全景图中每个点的坐标,然后以标准方式产生立方体图由于人类的记录偏差,从水平摄像机位置(仰角0°)拍摄的视图比其他位置的视图信息量更大。底部和顶部立方体面经常与天空(上方)和地面(下方)对齐;因此,像天空、天花板和地板这样的“填充”区域在这些面中是常见的,并且前景对象是最小的。因此,方位角的旋转倾向于对由立方体贴图边缘引起的中断具有更大的影响。因此,在不失一般性的情况下,我们仅关注方位角中的捕捉角度,并且联合优化立方体的前/左/右/背面。全景图中每个点的坐标可以由一对纬度和经度(λ,λ)表示。令L表示坐标变换函数,其采用360°全景5立方体贴图01_11像素目标图立方体贴图像素目标图图二. 像素对象[35]前景地图示例。像素对象图中的白色像素指示前景。我们的方法学习找到前景对象不被立方体边缘破坏的立方体贴图方向,即,每个对象主要落在一个面内。捕捉角度θ和一对坐标作为输入。我们将坐标变换函数L定义为:L((λ,),θ)=(λ,− θ).(二)请注意,当捕捉角度为90°时,立方体的方向与默认立方体相同,但前、后、右和左的顺序发生了更改。因此,我们限制 θ∈[0,π/2]。我们将θ的候选角度的空间离散成均匀的N=20个方位角网格,我们发现这提供了足够精细的相机控制。接下来我们讨论目标函数F的选择。默认方向的立方体贴图有两个缺点:1)不保证将每个重要对象投影到同一立方体面上; 2)由于透视投影的性质,投影到立方体边界上的对象将比中心的对象更扭曲。受这些缺点的启发,我们的目标是产生立方体贴图,将每个重要的对象放置在一个单一的面,并避免将对象放置在立方体的边界/边缘。特别是,我们建议尽量减少前景物体附近或上的区域,立方体边界。 假设立方体表面中的每个像素被自动标记为对象或背景,我们的目标F测量立方体边界附近被标记为前景的像素的分数。如果像素距离左边界、右边界或上边界小于立方体长度的A%,则该像素接近立方体边界。我们不惩罚底部边界附近的对象,因为通常将对象放置在底部附近摄影中的边界(例如,potraits)。为了推断哪些像素属于前景,我们使用“像素对象”[35]。像素对象是一种基于CNN的前景估计方法,它返回场景中所有前景对象的逐像素估计,而不管它们的类别如何。虽然其他前台方法是可行的(例如,[36–40]), we choose pixelobjectness due to its accuracy 图2示出了立方体面上的示例像素对象前景图我们应用像素对象6B. Xiong和K. 格劳曼以获得其像素对象性得分。结合起来,可以在F中采用照片质量的其他测量,例如有趣性[20],记忆性[18]或美学[41]。3.2学习预测捕捉角度一方面,直接回归解试图直接从I推导出θ*。然而,这是有问题的,因为良好的卡扣角度可以是多模态的,即,在球体中的多个方向上可用,并且因此不太适合于回归。 另一方面,强力解决方案将需要将全景投影到立方体地图,然后针对每个可能的投影角度θ评估F,这是昂贵的。相反,我们用强化学习来解决捕捉角度预测。该任务是一个时间预算的顺序决策过程(虚拟)相机旋转的迭代调整,家庭在最不扭曲的立体图投影的观点动作是立方体旋转,奖励是对像素对象性分数F的改进。不严格地说,这让人想起人们如何通过粗到细的细化来拍摄所需的构图。然而,与朴素的粗到细搜索不同,我们的方法学会根据观察到的内容触发不同的搜索策略,正如我们将在结果中演示的那样。具体地说,让T表示给予我们系统的预算,指示可以尝试的旋转我们维护模型先前预测的历史在每个时间步长t,我们的框架采用相对捕捉预测st(例如,st可以通过信号更新方位角4 5◦)并更新其先前的捕捉角度θt=θt−1+st。然后,基于其当前观察,我们的系统做出预测pt,其用于在下一时间步长中更新捕捉角度。也就是说,我们有st+1=pt。最后,我们从历史中选择具有最低像素对象性客观得分的捕捉角度作为我们的最终预测:θ= argminθt= θ 1,.,θTF(P(I,θt))。(三)为了进一步提高效率,可以在圆柱形全景上计算一次像素对象性,而不是针对每个立方体贴图旋转重新计算它,然后继续进行上述迭代旋转预测而不改变。然而,学习的前景检测器[35,38,37,39,40]是在直线投影中的Web图像上训练的,因此它们的准确性可能会随着不同的失真而降低。因此,我们简单地为每个立方体贴图重投影重新计算前景。参见第4.1用于运行时。网络我们使用深度递归和卷积神经网络实现强化学习任务我们的框架由四个模块组成:旋转器、特征提取器、聚合器和捕捉角度预测器。在每个时间步长,它处理数据并产生立方体图(旋转器),提取学习的特征(特征提取器),随时间整合信息(聚合器),并预测下一个捕捉角度(捕捉角度预测器)。在每个时间步长t,旋转器将等距矩形投影中的全景I和相对捕捉角度预测st= pt-1作为输入,该预测是来自前一时间步长的预测。旋转器更新其当前捕捉角度预测,θt=360°全景722具有顺序预测的立方体图示例t=1t=2...t=3t=4图3.第三章。 我们展示了旋转器(左),我们的模型(中)和一系列由我们的顺序预测产生的立方体图(右)。我们的方法迭代地细化最佳捕捉角度,以给定的允许计算预算为目标。θt−1+st。 我们初始设置θ1=0。然后,旋转器基于θt使用等式2将投影函数P应用于I由于我们的目标是最小化跨越立方体面边界的前景的总量,因此我们的模型直接从像素对象图学习比从原始像素学习更有效。因此,我们将像素对象[35]应用于四个横向立方体面中的每一个以获得二进制每个面的对象贴图旋转器具有以下形式:IW×H×3×Θ→BWc×Wc×4,其中W和H是等矩形投影中输入全景的宽度和高度,Wc表示立方体面的边长旋转器没有任何可学习的参数,因为它用于预处理输入数据。在每个时间步长t处,特征提取器然后将卷积序列应用于旋转器的输出以产生特征向量 fi,其然后被馈送到聚合器中以产生聚合特征向量 ai=A(fi,…ft)随时间变化。我们的聚合器是一个递归神经网络(RNN),它也保持自己的隐藏状态。最后,捕捉角度预测器将聚合特征向量作为输入,并且产生相对捕捉角度预测pt。在下一个时间步长t+1中,相对捕捉角度预测被馈送到旋转器中以产生新的立方体贴图。捕捉角度预测器包含两个完全连接的层,每个层后面都有一个ReLU,然后将输出馈送到N个方位角候选者的softmax函数中。N个候选这里是相对,范围从减少方位角N增加方位角,N.捕捉角度预测器首先在所有候选相对捕捉角度上产生多项式概率密度函数π(pt),然后它对与概率密度函数成比例的一个捕捉角度预测进行采样。有关网络的概述,请参见图3。所有架构细节。我们模型的参数包括特征提取器、聚合器和捕捉角度预测器的参数:w={wf,wa,wp}。我们学习它们以最大化我们的模型在预测捕捉角度时可以预期的总奖励(定义如下)捕捉角度预测器包含随机单元,因此无法使用S不我(等距矩形)不[stI]t+1[st+1I](增加全景)旋转器旋转器方位角X°)旋转器更新捕捉角度投影到立方体st+1=p tt=…P(I,t)ptpt+1预测器捕捉角度预测器捕捉角度聚合器聚合器特征提取器特征提取器ABCDD 一 B C8B. Xiong和K. 格劳曼不标准反向传播方法。因此,我们使用增强[42]。设π(pt|I,w)表示参数化策略,其是所有可能的捕捉角度预测上的pdf。REINFORCE迭代地增加pdf π(pt)中的权重|I,w)上的那些获得更高奖励的捕捉角度。形式上,给定一批训练数据{Ii:i=l,. . . ,M},我们可以如下近似梯度:ΣMΣTwlog π(pi|Ii,w)Ri(四)t ti=1t =1其中Ri表示在时间t的奖励,例如i。在每个时间步t,我们计算对象iv e。 令θ=αgminθ=θ1,…θtF(P(I,θ))表示直到时间步长t具有最低像素对象性的捕捉角度。令Ot=F(P(I,θ(t))表示其对应的对象ive值。时间步长t的剩余值为Rt=min(Ot−F(P(I,θt+pt)),0).(五)因此,每当模型更新捕捉角度时,模型接收与边缘跨越的前地像素的减少成比例的奖励为了加快训练速度,我们使用re ward的一个方差缩减版本Rt=Rt−bt,其中bt是平均值在时间t处利用随机策略的像素对象覆盖的减小。4结果我们的研究结果解决了四个主要问题:1)我们的方法如何有效地确定最佳捕捉角度?(第二节)4.1); 2)前景“像素对象性”物镜在多大程度上(第二节)4.2); 3)人类观众在多大程度上喜欢捕捉角度立方体贴图而不是默认方向?(第二节)4.3);以及4)捕捉角度是否有助于图像识别?(第二节)4.4)。数据集我们收集了360 ◦图像的数据集来评估我们的方法;现有的360 ◦数据集局部狭窄[43,1,3],限制了它们用于我们的目标。我们使用带有360◦过滤器的YouTube从四个活动类别(迪士尼、滑雪、游行和音乐会)中收集视频在手动过滤掉只有文本或黑色的帧后,我们有150个视频和14,076个以1 FPS采样的总帧。实现细节我们使用Torch实现我们的模型,并使用随机梯度和REINFORCE进行优化我们将基本学习率设置为0.01并使用动量。我们固定A = 6。在对几个人取的立方体图(不在测试集中)进行目视检查后,所有结果均为25%参见补充了解所有网络架构详细信息。4.1有效的捕捉角预测我们首先评估我们的捕捉角预测框架。我们使用所有14,076帧,75%用于训练,25%用于测试。我们确保测试和训练数据不来自同一个视频。我们定义以下基线:– 随机旋转:给定预算T,随机预测T个捕捉角度(不重复)。360°全景9图4.第一章及时预测捕捉角度。左:给定预算,我们的方法预测立方体边缘上前景干扰最小的捕捉角度。对于较小的预算,收益较大,证明了我们方法的效率。右:我们在基线上的收益(对于预算T= 4)作为测试用例“难度”下降的函数,即,候选角度的地面实况质量的方差。请参阅文本。– UNIFORMROTATE:给定预算T,预测从所有候选均匀采样的T个捕捉角度。当T=1时,UNIFORM接收CANONICAL视图。这是一个强基线,因为它利用了起始视图中的人类记录偏差。尽管相机的360°范围,摄影师仍然倾向于将相机的“正面”指向– 粗到细搜索:将搜索空间划分为两个均匀的区间,并在每个区间搜索中心捕捉角然后递归搜索较好的区间,直到预算耗尽。– PAN 02 VID(P2 V)[1]-ADAPTED:我们实现了受Pano 2 Vid [1]的流水线启发的捕捉角度变体。我们将[1]中使用的C3D [44]特征(需要视频)替换为来自VGG [45]的F7特征,并训练逻辑分类器以使用Web图像和随机采样的全景子视图学习“捕获价值”[1](见附录)。对于预算T,我们评估T我们强调Pano2Vid解决了一个不同的任务:它创建正常的视场视频(丢弃其余部分),而我们创建良好定向的全向图像。尽管如此,我们还是包括了这个基线来测试他们从人类捕获的数据中学习框架先验的一般方法。– SALIENCY:选择使立方体面以最大显著区域为中心的角度。具体来说,我们以等矩形形式计算全景的显着图[40],并用高斯核对其进行模糊。然后我们识别出总显著性值最高的P×P像素正方形,并预测捕捉角度为中心的广场。与其他方法不同,该基线不是迭代的,因为最大显著性区域不随旋转而改变我们使用窗口大小P=30。当20≤P≤200时,性能对P不敏感。10B. Xiong和K. 格劳曼不我们针对一系列预算T训练我们的方法,并报告结果前台中断的量作为预算的函数。预算的每个单元对应于一轮旋转、重新渲染和预测前景。我们将前景破坏评分为所有四个面的平均F(P(I,θ*))图4(左)显示了结果。我们的方法能最大限度地减少对前-在所有竞争方法中,地面区域。UNIFORM ROTATE和COARSE-TO-FINE SEARCH比RANDOM执行得更好,因为它们受益于手工设计的搜索启发式。与UNIFORMROTATE和COARSE-TO-FINE SEARCH不同,我们的ap-proach是基于内容的,并根据它观察到的内容学习触发不同的搜索策略。当T=1时,SALIENCY优于RANDOM,但它低于我们的方法和UNIFORM。SALIENCY可能难以捕获全景图中的重要对象,因为显着性模型是用标准视场图像训练的。对于我们的问题,直接采用PANO2VID[1]会导致不满意的结果。捕获价值分类器[1]对重要对象/人的放置相对不敏感,因此不太适合捕捉角度预测任务,这需要对立方体所有面上的图4(右)绘制了我们的收益,按测试图像的“难度”递减排序在一些测试图像中,存在高方差,这意味着某些捕捉角度比其他捕捉角度更好然而,对于其他人来说,所有候选旋转看起来都很好,在这种情况下,所有方法都将执行类似的操作。右边的图按所有可能的角度的质量方差(按降序)对测试图像进行排序,并报告我们的方法我们的方法优于P2 V-自适应,SALIENCY,COARSE-到-FINE搜索,随机和UNIFORM高达56%、31%、17%、14%和10%(绝对值)。总的来说,图4表明我们的方法比基线更有效地预测捕捉角度。到目前为止,我们已经报告了抽象预算使用方面的效率。一个单位的预算需要以下内容:将一个典型的960×1920像素的全景以等距矩形的形式投影到一个立方体图上(使用我们的Matlab实现为8.67秒),然后计算像素对象(0.57秒)。我们的预测方法是非常有效的并取0。003秒,预算T=4,使用GeForce GTX 1080 GPU。因此,对于预算T=4,通过我们的方法实现的节省大约与穷举搜索相比,每张图像需要2.4分钟(5倍加速)注意由于我们的方法的效率,即使Matlab预测对于所有方法都快1000倍,我们在基线上的5倍加速将保持不变。我们的方法实现了良好的速度和准确性之间的权衡。4.2前景对象目标的理由接下来,我们证明经验的像素对象立方体边缘的目标。为此,我们让人类观众识别源图像中的重要对象,然后评估我们的目标在多大程度上保留了它们。具体来说,我们随机选择340帧,其中:1)每个帧与其余帧间隔至少10秒,以确保数据集的多样性; 2)我们的方法与规范视图方法之间的整体像素对象性方面的差异是不可忽略的。我们通过Amazon Mechanical Turk收集注释。按照[3]的界面,我们向众包工作者展示全景并指导360°全景11C匿名RANDOMS一致性P2 V-自适应OURS上限B磅音乐会77.6%73.9%百分之七十六点二71.6%百分之八十一点五86.3%滑雪64.1%72.5%68.1%百分之七十点一78.6%83.5%游行84.0%81.2%86.3%百分之八十五点七百分之八十七点六百分之九十六点八迪士尼百分之五十八点三57.7%60.8%60.8%百分之六十五点五77.4%所有74.4%百分之七十四点二76.0%百分之七十五点零81.1%88.3%表1. 保持被人类观察者明确识别为重要的对象的完整性的性能。重叠分数越高越好。我们的方法优于所有基线。他们可以用一个边界框来标记任何参见补充接口和注释统计信息。这里,我们考虑PAN 02 VID(P2 V)[1]-ADAPTED和SALIENCY,如在第12节中定义的。4.1和两个额外基线:1)C ANONICAL VIEW:使用相机提供的定向产生立方体地图; 2)R ANDOM VIEW:将输入全景旋转任意角度,然后生成立方体贴图。请注意,在第二节中的其他基线4.1在这里不适用,因为它们是搜索机制。考虑立方体面X,其包含最大数量的来自投影后的给定边界框对于每个边界框,我们基于立方体面X的前景区域与相应的人类标记的重要对象之间的重叠得分(IoU)来评估我们的方法和基线的立方体图当同一对象的所有像素投影到同一立方体面时,该度量最大化;较高的重叠指示重要对象的较好保存。表1示出了结果。我们的方法优于所有基线的大幅度。这支持了我们的假设,即避免前景物体沿立方体边缘有助于保留感兴趣的对象的观众。捕捉角度比基线立方体贴图更好地实现了这一目标UPPERBOUND对应于在穷尽地评估所有候选角度的情况下实现的最大可能重叠,并且有助于衡量每个类别的难度。Parade和Disney分别具有最高和最低上界。在迪士尼图像中,相机通常由记录器携带,因此重要的物体/人在全景中显得相对较大,并且不能适合于单个立方体面,因此具有较低的上限分数。相反,在游行图像中,相机通常放置在人群中并且远离重要对象,因此每个都可以被限制在单个面部上。后者也解释了为什么基线在Parade图像上表现最好(尽管仍然比我们的弱)一项将像素对象性能与捕捉角度性能解耦的消融研究指出了前景质量对我们方法的影响(见附录)。4.3用户研究:感知质量已经证明了立方体边缘前景目标的感知相关性(Sec.4.2),接下来我们进行用户研究,以衡量我们的结果的感知质量。捕捉角度是否会产生看起来像人类拍摄的照片的立方体面?我们在Sec中使用的相同图像集上进行评估。四点二。我们提出了立方体的脸,我们的方法和基线之一,在任意顺序的时间,并通知科目的两组照片来自同一场景,但由不同的摄影师。我们指导他们考虑构图和视角,以便决定哪一组照片更令人愉快(见补充)。以考虑12B. Xiong和K. 格劳曼s最大值−s最小值首选O URS铁首选C ANONICAL 首选O URS铁首选RANDOM游行百分之五十四点八16.5%百分之二十八点七百分之七十点四百分之九点六20.0%音乐会48.7%百分之十六点二百分之三十五点一百分之五十二点七百分之十六点二31.1%迪士尼百分之四十四点八百分之十七点九百分之三十七点三百分之七十二点九百分之八点五18.6%滑雪64.3%8.3%百分之二十七点四百分之六十二点九16.1%21.0%所有53.8%百分之十四点七百分之三十一点五65.3%百分之十二点三22.4%表2. 用户研究结果比较cubemaps输出的感知质量。左:我们的方法和CANONICAL之间的比较。右:我们的方法和RANDOM之间的比较。音乐会 滑雪游行 迪士尼全部(标准化)[21]第二十一话C匿名71.5869.49 67.0870.53百分之四十六点八RANDOM71.3069.54 67.2770.65百分之四十八点一S一致性71.4069.60 67.3570.58百分之四十九点九P2 V-自适应71.3469.85 67.4470.5452.1%OURS71.4570.03 67.6870.87 百分之五十九点八上部72.7071.19 68.6872.15–[17]第十七话C匿名33.7441.95 30.2432.85百分之四十四点三RANDOM32.4641.90 30.6532.7942.4%S一致性34.5241.87 30.8132.54百分之四十七点九P2 V-自适应34.4841.97 30.8633.09百分之四十八点八OURS35.0542.08 31.1932.97 百分之五十二点九上部38.4545.76 34.7436.81–表3. 记忆力和美学评分。由于任务的主观性,我们将每个样本发给5个不同的工人,并以多数票汇总响应。98名MTurk众包工作者参与了这项研究。表2示出了结果。我们的方法比CANONICAL基线高出22%以上,比RANDOM基线高出42.9%。这一结果支持我们的主张,即通过保持对象的完整性,我们的方法产生的立方体贴图,更好地与人类的感知质量的照片组成。图5示出了定性示例。如前两个示例(顶部两行)所示,我们的方法能够将重要的人放置在同一立方体面中,而基线将每个人分开并将一个人投影到两个立方体面上。我们还在最后两行中呈现了两个失败案例在左下角,像素对象没有将舞台识别为前景,因此我们的方法将舞台放置在两个不同的立方体面上,从而创建扭曲心形舞台请看Supp。用于故障情况的像素对象图输入。到目前为止,表1经验地证实了我们的基于前景的目标确实预先服务于人类观看者认为重要的那些对象,并且表2示出人类观看者相对于其他投影对捕捉角立方体地图具有绝对偏好。作为捕捉角立方体图的感知质量的最终测试由于这两个模型都是在人们注释的图像上训练的(分别针对它们的美学和记忆力),较高的分数表明与这些感知属性的相关性较高(当然没有一个学习的度量可以完美地代表人类的观点)。表3显示了结果。我们报告每个类的原始分数s以及所有类的分数,标准化为s-smin,其中smin和smax分别表示下限和上限。因为度量对局部旋转相当360°全景13宽容,所以它们在立方体贴图中捕获细微差异的能力是有限的不-14B. Xiong和K. 格劳曼Canonical我们Canonical我们Canonical我们Canonical我们Canonical我们图五. 默认的CANONICAL立方体贴图和我们的捕捉角立方体贴图的定性示例。我们的方法产生立方体地图,将重要的对象/人在同一立方体的脸,以保持前景的完整性。底部两行示出了失败情况。在左下角,像素对象[35]没有将圆形舞台识别为前景,因此我们的方法将舞台分割到两个不同的立方体面上,创建一个扭曲的心形舞台。在右下角,火车太大了,无法装进一个立方体。360°全景15C匿名 R ANDOMO URS单人68.5 69.470.1Pano 66.5 67.068.1表4. 图像识别准确率(%)。捕捉角度有助于将360◦数据少,我们的方法优于基线整体。考虑到这些指标4.4基于预训练网络的立方体图识别由于捕捉角度提供更好地模仿人类拍摄的照片合成的投影,我们假设它们也更好地与传统的FOV图像对齐,与其规范方向的立方体图相比。这表明,捕捉角度可以更好地与Web照片(通常用于训练当今的识别系统)对齐我们提出了一个初步的概念验证实验来验证这一假设。我们训练了一个多类CNN分类器来区分我们的360个活动数据集中的四个活动类别(迪斯尼,游行等)。该分类器使用ResNet-101 [46]在ImageNet [47]上进行预训练,并在从Google Image Search下载的每个类的300个训练图像上进行微调(见补充)。请注意,在迄今为止的所有实验中,360◦数据集上的类别标签对我们的算法是不可见的。我们随机选择每个活动250个样本作为测试集。每个全景投影到一个立方体地图与不同的投影方法,我们比较得到的识别率。表4示出了结果。我们以两种形式报告识别精度:Single,将每个单独的立方体面视为测试实例,Pano,通过乘以所有立方体面的预测后验来对整个全景进行分类。对于这两种情况,捕捉角度生成的立方体贴图可实现最佳识别率。这一结果暗示了捕捉角度有可能成为预先训练的正常FOV网络与360◦图像之间的桥梁。也就是说,边际很小,并且捕捉角度对识别的全面影响值得进一步探索。5结论我们介绍了用于渲染360◦图像的捕捉角度预测问题与以前的工作,假设一个固定的或手动提供的投影角度相比,我们建议自动预测的角度,将最好地保存检测到的前景对象。我们提出了一个框架,以有效和准确地预测捕捉角度在新的全景。我们证明了所提出的方法的优点,无论是在人类的感知和几个统计指标。未来的工作将探索将捕捉角度推广到视频数据并将捕捉角度预测扩展到其他投影模型的致谢本研究部分得到NSF IIS-1514118和Google Faculty Research Award的支持我们也非常感谢Face-book捐赠的GPU。16B. Xiong和K. 格劳曼引用1. Su,Y.C.,Jayaraman,D. Grauman,K.:Pano2vid:用于观看360度视频的自动电影摄影。在:ACCV。(2016年)2. Su,Y.C.,Grauman,K.:使360度视频在2D中可观看:学习视频点击免费观看。在:CVPR中。(2017年)3. Hu,H.N.,Lin,Y.C.,Liu,M.Y.程H. TChang,Y.J.,孙,M.:Deep 360 pilot:学习深度代理,用于通过360体育视频进行试点。在:CVPR中。(2017年)4. Lai W.S.黄,Y.,Joshi,N.,比勒角Yang,M.H.,Kang,S.B.:从360视频语义驱动IEEE Transactions on Visualization and Computer Graphics(2017)5. 斯奈德,J.P.:使地球变平:两千年的地图投影。芝加哥大学出版社(1997)6. Greene,N.:环境测绘和世界预测的其他应用。IEEE计算机图形学与应用(1986)7. Sharpless,T.K.,Postle,B.,德语,D.M.:Pannini:一种新的绘制广角透视图像的投影方法在:国际会议上计算美学在图形学,可视化和成像。(二零一零年)8. Kim,Y.W.,Jo,D.Y.,李,C.R.Choi,H.J.,Kwon Y.H.Yoon,K.J.:360度视频的自动In:ICCV. (2017年)9. Li,D.,他,K.,孙,J.,Zhou,K.:一种保持测地线的图像变形方法。在:CVPR中。(2015年)10. 卡罗尔河Agrawala,M.,Agarwala,A.:优化广角图像的内容保留投影。ACMTransactions on Graphics(ACM图形学报)(二零零九年)11. Tehrani,M.A. Majumder,A.,Gopi,M.:使用对象特定平面变换校正感知的透视失真In:ICCP. (2016年)12. 卡罗尔河Agarwala,A.,Agrawala,M.:用于艺术透视操作的图像扭曲。ACMTransactions on Graphics(ACM图形学报)(二零一零年)13. Kopf,J.,Lischinski,D.,Deussen,O.,Cohen-Or,D.,Cohen,M.:局部适应投影以减少全景失真。In:Computer Graphics Forum,Wiley Online Library(2009)14. 王志,Jin X Xue,F.,他,X.,Li,R.,查,H.:全景到立方体:一种内容感知表示方法。在:SIGGRAPH亚洲技术简报。(2015年)15. https://code.facebook.com/posts/1638767863078802/under-the-hood-building-360-video/16. https:www.blog.google/products/google-vr/bringing-pixels-front-and-center-vr-video/17. Kong,S.,沈,X.,林芝,Mech,R.,Fowlkes,C.:照片美学排名网络与属性和内容的适应。In:ECCV. (2016年)18. Isola,P.,肖,J.,Torralba,A.,Oliva,A.:是什么让一张照片令人难忘?在:CVPR中。(2011年)19. Xiong,B.,Grauman,K.:在以自我为中心的视频与网络照片之前检测快动点。In:ECCV. (2014年)20. Gygli,M.,Grabner,H.,Riemenschneider,H.,Nater,F.,Van Gool,L.:图像的趣味性In:ICCV. (二零一三年)21. Khosla,A.Raju,A.S.,Torralba,A.,Oliva,A.:理解和预测大规模的图像In:ICCV. (2015年)22. Chang,Ch.H.,Hu,M.C.,Cheng,W.H.,Chuang Y.Y.:用于广角图像可视化的矩形赤平投影。In:ICCV. (二零一三年)23. Zelnik-Manor湖Peters,G.Perona,P.:在全景图中画出圆In:ICCV.(2005年)24. Kopf,J.,Uyttendaele,M.,Deussen,O.,Cohen,M.F.:捕获和查看千兆像素图像。ACM Transactions on Graphics(ACM图形学报)(2007年)360°全景1725. Mnih,V.,Heess,N.格雷夫斯,A.,Kavukcuoglu,K.:视觉注意的循环模型在:NIPS。(2014年)26. 凯西多JCLazebnik,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功