没有合适的资源?快使用搜索试试~ 我知道了~
360°视频的2D观看方法:学习视频摄影点击,德克萨斯大学奥斯汀分校
1使360°视频在2D中可观看:学习视频摄影点击免费观看德克萨斯大学奥斯汀分校摘要360°视频要求人类观看者在观看视频时主动控制看“哪里”。虽然它提供了视觉内容的更沉浸式体验,但它也为观看者带来了额外的负担;导航视频的笨拙界面虚拟电影摄影是一个有吸引力的方向,以弥补这些问题,但传统的方法是有限的虚拟环境或依赖于手工制作的摄影。我们提出了一种新的虚拟电影摄影算法,自动控制一个虚拟摄像机内的360°视频。与现有技术相比,我们的算法允许更一般的相机控制,避免冗余输出,并提取其输出视频更有效。超过7个小时的真实“在野外”视频的实验结果1. 介绍由于新兴的虚拟现实(VR)技术和应用,360°摄像机变得非常流行。2016年发布了十几款新的360°相机[1],预计未来几年市场每年将增长100%以上[2]。看-在YouTube和Facebook等内容分发网站上,全景照片和视频正在成为一种常见的体验,许多内容创作者正在采用这种新媒体。例如,BBC新闻在网上发布360°视频新闻[3]。传统相机的视场(FOV)甚至比人类的感知范围还窄,而360°相机则从其光学中心捕捉整个视觉世界。这种广泛的拍摄为摄像师和视频消费者提供了新的自由。摄影师不再需要确定在场景中捕捉哪个方向,让她可以体验这一时刻,而不是录制视频。与此同时,人类视频消费者可以自由地探索基于她的交互的视觉内容z记录Xy图1:我们的目标是在360°视频中控制虚拟摄像机的方向和视野,以便录制看起来像是由人类摄像师拍摄的视频。est,而不受摄像师所做选择的严格限制。例如,一名新闻记者可以穿越战区,而无需有意识地考虑如何描绘场景,随后的观众仍然会对悲剧和目击事件有身临其境的体验同样,父母在孩子另一方面,媒介也引入了新的挑战。用于观看360°视频的最常见界面是将视频的一小部分显示为由虚拟摄像机1捕获的2D正常视场(NFOV)视频。视频观看者现在必须通过在视频的整个持续时间内控制虚拟摄像机的方向来决定显示器可以是普通屏幕、移动终端或VR头戴设备,控制信号将分别来自鼠标、设备姿态或头部运动。这些选择决定了观众看到的内容,从而决定了用户体验。因为观众没有任何信息1例如,尝试在www.example.com上单击https://www.youtube.com/watch? v =aTTzKwLPqFw64766477关于当前FOV之外的内容,可能难以确定实时查看哪里,例如,360°视频观看者很容易没有注意到有一些东西从相反方向接近摄像机。事实上,观看者可能不得不多次观看视频,以便找到适当的方式来控制在感兴趣的内容中导航虽然360°视频可以替代地使用等矩形投影整体显示,但不熟悉的格式和失真使得这样的视频难以观看。鉴于这一挑战,360°视频是一个特别有吸引力的领域,可以调用自动摄像技术,其目的是将未经编辑的材料转换为传达事件的有效视频呈现[7,9,10,18,19、31、36、37、39]。虽然先前工作中的自动摄像在很大程度上处理了虚拟环境和手工制作的摄像[7,9,18,31],但我们最近的工作显示了学习如何提取360°视频的信息部分作为可呈现的NFOV视频的潜力[37]。在[37]中,我们介绍了Pano2Vid问题,该问题将360°视频作为输入,并作为输出生成NFOV视频,这些视频看起来像是由配备真实NFOV相机的人类观察者捕获的。我们的A-UTOCAM算法直接从人类捕获的网络视频中学习视频倾向。通过在输入视频中控制虚拟NFOV摄像头的姿态,它消除了在观看360 °视频时决定“在哪里”的负担我们提出了一个新的算法的Pano2Vid问题,扩大了范围的相机控制,以产生更逼真的视频。首先,我们将Pano2Vid的任务概括为不仅允许360°视频内的空间选择,还允许FOV中的变化这允许虚拟摄像机控制完全模仿人类摄像师的倾向,因为改变FOV,即,缩放是专业和业余摄像中的常用技术其次,为了实现更有效的算法,我们提出了一种从粗到细的搜索方法,该方法迭代地细化相机控制,同时减少每次迭代中的搜索空间。新的方法使得广义任务包含缩放计算上易于处理。最后,考虑到有效的Pano2Vid解决方案通常是多模态的这一事实,我们探索如何生成一组不同的合理输出NFOV视频,克服阻碍直接优化方法的冗余。我们使用超过7小时的真实世界360°视频进行实验,并捕获12小时的手动编辑360°数据,以定量和定性地表征结果。我们证明,提出的Pano2Vid问题的推广具有显着的效果。与现有的解决方案以及由显着性或中心偏差驱动的强基线相比,我们的方法的自动缩放将结果提高了43。百分之四此外,我们实现了显着的优势,在计算成本,减少运行时间超过84%。2. 相关工作视频显着性显着性研究吸引观众注意力的视觉内容虽然这项研究起源于静态图像,但越来越多的工作研究视频显着性[21,35,43]。视频显着性和Pano2Vid都试图预测视频中的空间位置。然而,显著性目标定位在2D图像坐标中引人注目的位置,而Pano2Vid预测摄像师将尝试用摄像机捕获的球面坐标中的方向此外,显着性通常取决于局部图像内容,而Pano2Vid取决于整个FOV的内容和视频重定向视频重定向通过裁剪和缩放来调整源视频,以更好地适应目标显示,同时最大限度地减少信息损失[5,22,23,26,29,34]。重定向和我们的算法都选择原始视频的一部分来显示给用户,但重定向会将已经编辑好的视频作为输入,并尝试生成传达相同信息的新版本相比之下,我们的输入360°视频不是预先编辑的,我们的目标是生成传达不同信息的多个输出Pano2Vid还需要更严重的空间范围减小,例如,相比之下,从网络上重新定位2D视频,以便在移动终端上很好地显示。虚拟电影摄影大多数关于虚拟电影摄影的现有工作研究虚拟(计算机图形)环境中的虚拟摄像机控制[7,9,18,31]或其他特定领域,如讲座视频[10,36,39]。除了相机控制,一些先前的作品还研究了视频或照片等原材料的自动编辑[4,12,13,19]。目标是自动生成有效的视频演示,以减少人工拍摄或编辑。现有的方法通常依赖于对流行的电影摄影规则进行编码的算法。我们的问题与上面的问题不同,因为我们将不受限制的真实360°视频作为输入。然而,我们直接从网络视频中了解到电影摄影的趋势。我们的工作与A UTO-CAM方法[37]最相关,该方法也处理360°视频并采用数据驱动方法。与[37]相比,我们通过允许相机控制中的更多自由度(即,zoom)并考虑各种假设。此外,我们提出了一个更有效的算法,使广义问题的计算易处理。视频摘要视频摘要旨在通过去除时间冗余同时保留重要事件来生成视频的简洁表示[8,14我们的目标是不同的,在这个意义上,视频摘要选择内容的时间,而我们选择内容的空间。此外,我们的算法的输出是连续的视频,看起来好像它们是由场景中的手持摄像机捕获的6478而视频摘要算法的输出通常是关键帧或连接的不相交视频剪辑。不同的解决方案搜索生成一组不同的可能的解决方案已经在不同的领域被广泛讨论[6,11,25,28,41]。一种常见的方法是迭代地找到解,并通过惩罚它们之间的相似性来鼓励当前迭代的解与先前迭代的解不同这种方法已被应用于马尔可夫随机场中的分割和姿态估计[6],以及不同波束搜索中的机器翻译[11]。我们的方法不同之处在于,我们制定了一个精确的解决方案搜索使用动态编程,而不是一个概率模型或近似的搜索。此外,我们的方法保证在不同的迭代中获得的解决方案之间的最小距离,而现有的方法依赖于一个预定义的惩罚项,无法提供相同的保证。3. 歌手:AUTO CAM首先,我们提供了我们现有的A-UTO-CAM解决方案的背景[37].UTOCAM通过从360°视频采样时空瞥见(ST瞥见)开始。ST-一瞥是一个5秒的NFOV视频剪辑,65。通过将摄像机指向360°摄像机轴上的固定方向,从360°视频记录5° FOV2该算法每五秒在18个方位角和11个极角处对候选ST瞥见进行采样:θ∈Θ ={0,±10,±20,±30,±45,±75},(a) 缩小有助于捕获完整的内容。(b) 放大镜头有助于集中注意力。图2:显示缩放重要性的示例。我们的放大/缩小结果在每对的右边。通过限制轨迹选择从先前的ST-一瞥移位超过阈值Δ θ的ST-一瞥,即,|∆Ω|θ=|θt−θt−1|≤θ,|∆Ω|φ=|t−|≤φ。(三)在实践中,我们将新的ST-一瞥限制在球坐标中的先前ST-一瞥的8-邻接内。该问题可归结为最短路问题,并可采用动态规划的方法有效地求解.该算法通过以下方式从每个360°输入生成K个NFOV输出:1)计算最佳轨迹结束在每个ST-一瞥位置(18×11 = 198个可能的位置),以及2)挑选这些位置中的前K个。 该算法假定输入由相机光学中心周围的单位球面上的像素值组成,并且不假定特定的360°相机模型。我们的结果包括来自至少四种常见的360°相机模型的视频帧。n∈Φ ={0,20,. . . ,340},t∈T={0 s,5s,.. . ,L−5s},(一)4. 方法其中L是视频长度。 每个候选ST-瞥见由视频t中的相机主轴(θ,θ)方向和时间定义:φt,θ,φt(θ t,φ t)∈Θ ×Φ.(二)然后,UTOCAM基于以下假设:1)人类捕获的NFOV视频中的内容大多数是值得捕获的,以及2)大多数ST瞥见不是值得捕获的,它学习预测视频剪辑是NFOV视频还是ST瞥见的分类器。测试ST-一瞥的后验是他们的捕获价值分数。NFOV视频是从YouTube上抓取的,卷积3D特征(C3D)[40]被用作视频表示。在获得每个候选ST-瞥见的捕获价值分数之后,UTOCAM构造相机轨迹(即,相机方向随时间的变化),通过在ST-瞥见上找到最大化总捕捉价值分数的路径,同时产生类似人类的平滑相机运动。它实现了平滑的相机2注意FOV指的是整个纸张的水平视野在本节中,我们介绍了我们的算法。首先,我们一般化原始Pano2Vid问题,以启用缩放(第二节)。4.1)。接下来,我们描述了我们的粗到精的方法,以减少相机轨迹选择的计算成本4.2)。最后,我们介绍了一种迭代方法来生成一组不同的输出轨迹(第二节)。4.3)。4.1. 变焦镜头Pano2Vid我 们 首 先 将 Pano2Vid 问 题 推 广 到 变 焦 镜 头Pano2Vid,它允许在虚拟相机控制中进行变焦变焦是改变镜头焦距(f)的技术。这相当于改变相机的FOV,因为它们通过DFOV= 2 arctan(),(4)2F其中d是水平传感器尺寸,并且是相机的常数。该技术广泛应用于视频:现在,几乎每一个数字照相机都提供了这种功能,并且我们大多数人都有通过变焦来调整照相机FOV以获得所需帧的经验。另一方面,用于观看360°视频的许多现有手动界面不提供对FOV的控制在-6479FFz候选ST-瞥见已处理ST-瞥见选定ST-瞥见t t(θ,φ)粗精图3:广义ST段瞥见。3图4:从粗到精的摄像机轨迹搜索。我们首先在一个ST-瞥见的粗样本,然后在轨迹周围的ST-瞥见的密集样本上对其进行细化它通过避免处理所有候选ST-片段来降低计算成本我们认为Pano2Vid的正确定义必须遵循录像的全部经验,而不是试图遵守这些接口,即。生成视频,就好像它是由场景中的人类摄像师捕获的一样。图2示出了缩放有助于改善框架的示例。为了达到变焦的效果,我们不仅用不同的主轴方向,而且用不同的焦距采样ST-一瞥。假设焦距为65。5° FOV为f0,我们用三种不同的焦距采样ST-一瞥f∈ F ={0. 5f 0,f 0,1. 5f0},(5)这导致FOV ∈{104. 3度655度46分4)分别。104号公路3° FOV对应于超广角镜头,是摄影中常用的最大FOV65号5度46分4° FOV覆盖标准镜头的范围主轴方向的采样保持与Eq相同。1.一、因此,新的ST-瞥见定义如下:f∈(θ t,f t,f t)∈ Θ × Φ × F.(六)见图3 .第三章。在构建相机轨迹时,我们允许算法选择具有不同焦距 的 ST- 一 瞥 因 此 , 问 题 变 成 在 一 系 列 3D 网 格(Θ×Φ×F)上找到路径除了等式中3、我们限制焦距的变化在连续ST段瞥见之间:|f=|ft − f t −1|≤0。|≤0. 5f0,(7)这是先前的说法,即人类摄像师倾向于使用变焦的逐渐变化。虽然一个基本的动态programming问题,类似于在AUTOCAM中使用的可以找到我们的配方中的轨迹,计算成本线性增长的可用焦距的数量,并成为禁止。为了使用于解决变焦镜头Pano2Vid问题的算法实用,我们接下来引入一种新的计算效率高的方法来优化轨迹。3图是最好的彩色观看。4.2. 从粗到精的摄像机轨迹搜索该算法的计算瓶颈是估计每个ST-一瞥的捕获价值分数。该算法必须首先将360° ST-一瞥渲染到NFOV视频中,然后提取C3 D特征,这两者都是计算密集型的。基本的动态编程方法(如AUTO CAM)需要所有候选ST-一瞥的捕获价值分数。即使我们假设我们可以实时渲染NFOV视频并提取C3D特征,由于大量的候选ST瞥见,处理时间也将比输入视频长度长几个数量级,即,几个小时来处理一个1分钟的360 °视频。因此,我们的目标是减少捕获价值分数的数量。最直接的方法是对候选ST瞥见的数量进行下采样然而,这将导致更粗糙的相机控制和输出视频质量的劣化换句话说,计算开销不仅使算法变慢,而且还限制了虚拟相机控制的粒度。相反,我们提出了一种由粗到细的方法,该方法保留候选ST-瞥见的有效数量,同时减少需要计算捕获价值分数的ST-瞥见的数量。 其基本思想是首先在粗采样ST-片段上构建轨迹,然后在以初始轨迹为中心的密集采样ST-片段参见图4。此外,为了使总成本在可用焦距的数量中保持次线性,我们用单个焦距构建粗略轨迹,并且仅在细化解决方案时才启用缩放。因为我们只在视频的一小部分中密集地处理ST-瞥见,所以al-出租m所需的捕获价值分数的总数减少。所提出的从粗到细的方法是基于这样的观察,即相邻ST-瞥见的捕获价值分数是正相关的,并且密集采样ST-瞥见中的最佳轨迹导致粗采样ST-瞥见中的候选解。虽然不能保证在所有候选ST-片段上的解都与动态规划的解相同,但实验结果证实了它的性能良好。一百零四3◦30◦θ15◦六十五5◦四十六岁。4◦10◦20◦Xy6480t,θ,φ ttt t t t tt我们通过对ST-瞥见进行采样来开始算法,θ∈Θ′={± 10,±30,±75},θ ∈Φ′={0,40,. . . ,320},t∈T′={0 s,10s,.. . ,L−10s},f ∈ F′={0. 5f0}。(八)我们使用焦距f= 0。5f0,其对应于最大FOV,因此这些初始ST-一瞥的视觉内容覆盖相同方向上的其他焦距的视觉内容当量8将候选ST-瞥见从等式(1)下采样2倍。1,因此需要计算的捕获价值分数的数量仅为|Θ ′× Φ′× T ′|×|Θ× Φ × T|1|F| ≈4。5%(9)图5:多样化的轨迹搜索生成轨迹迭代候选ST瞥见的数量我们使用动态规划求解轨迹,但将平滑度约束设置为2μ m,以考虑较粗糙的样本|∆Ω|θ=|θt−θt−1|≤2μ g,|∆Ω|φ=|t−|≤2μ m。(十)将由轨迹选择的ST瞥见表示为0对于t∈T′,我们然后对t∈T\T ′={5s,15s,. . . 以获得完整的轨迹。为了精确弹道我们对ST段扫描进行θ1=(θ1,θ1,f1)(12)活泼地 在每次迭代中,我们构造多轨迹搜索,通过对时间窗口进行采样并从搜索空间中移除窗口中先前选择的ST-瞥见来解决问题我们解决所有的问题,并采取最佳的解决方案作为输出轨迹。平均圈数此外,Pano2Vid的许多应用程序如果编辑者可以自由地从不同的合理算法提供的初始化中进行选择,那么编辑辅助系统将更加有用。类似地,允许观看者从不同NFOV视频呈现中选择的360°视频播放器可能实现更好的用户体验,因为观看者可以决定看什么t,θ,φ,ft t t根据他们的喜好。在方向|≤θ,|ϕ 1 − ϕ 0 |≤φ(13)|≤ ϵ φ(13)下式1和5. 然后,我们解决了相同的trajec- tory搜索问题的采样ST-瞥见使用动态规划的平滑约束方程。3和等式7 .第一次会议。候选ST-瞥见的数量通过等式中的邻接约束大大减少13,仅占所有候选ST瞥见的5%4.3. 多样的摄像机轨迹搜索到目前为止,我们已经1)提出了我们的方法,用于通用的Pano2Vid问题,允许可变FOV,和2)设计了一个快速算法,用于优化它,以产生最佳的假设NFOV视频输出。接下来,我们希望将这个最佳解扩展为一组不同的合理输出。生成一组不同的输出视频的动机源于以下事实:根据定义,每个360°视频可能有多个有效的Pano2Vid解决方案例如,人们可以通过跟踪球或通过聚焦于特定球员来捕捉足球比赛。这两个都将导致游戏的合理呈现,并且应该是有效的输出。事实上,当我们要求人类编辑从360°数据中手动提取NFOV视频时,同一源视频上任何两个编辑器的输出只有大约47%的超出。可用ST段扫描禁用ST段-瞥见不选定ST段-一瞥选定ST段-瞥见(T+1)样本时间窗口迭代T窗口1最好迭代T+1Wi n d..ow26481在动态规划的一次迭代中很难鼓励多样性在先前的工作中,AUTOCAM算法通过要求它们在视频中的不同空间位置处结束来生成多个轨迹,即,不同的ST-一瞥。然而,该要求不能保证不同轨迹之间的距离。在最坏的情况下,它们可以完全相同,除了在最后的ST-一瞥,导致差的多样性的输出。相反,我们迭代地生成轨迹,并通过在不同迭代中生成的轨迹之间施加最小距离约束来鼓励多样性。为了实现该约束,我们对时间窗口进行采样,并通过选择与窗口中先前迭代的解相同的ST-瞥见来对当前迭代的轨迹进行预测。因此,时间窗的长度决定了不同迭代的解之间的最小距离。我们在多个时间位置对时间窗口进行采样我们将其中最好的轨迹在累积捕获价值分数方面作为当前迭代的解决方案。这避免了关键的一瞥被排除在解空间之外,即使它被先前的轨迹选择。见图五、6482在实践中,我们将时间窗口的长度设置为原始视频长度的10%一旦指定了时间窗口的长度和位置,就可以使用修改的最短路径问题上的动态编程来找到最优轨迹,其中从搜索空间中移除窗口中的随机解所选择的ST-瞥见。为了提高计算效率,我们将单位球体分成6个区域(3个方位角和2个极角),并通过找到在该区域结束的最佳轨迹来生成每个区域的输出。这导致每次迭代有6个trajec-tory。迭代在生成K轨迹5. 实验接下来,我们在具有挑战性的视频上验证我们的方法请参阅项目网页的视频示例和比较。5.1. 数据集我们使用[37]中介绍的Pano2Vid数据集4它由86个360 °视频组成,使用四个关键字从YouTube上抓取:“足球”、“爬山”、“游行”及“远足”,总时长为7.3小时。该数据集还提供了我们使用一半的数据来训练逻辑回归捕获价值分类器,另一半用于评估(详见下文)。在[37]之后,我们对每个关键字使用leave-one-360°-video-out策略来训练分类器下面的一些评估度量将我们的输出与来自360°视频的人类选择的相机轨迹进行比较(为了收集这些轨迹,我们要求人类编辑视频。编辑人员用鼠标控制虚拟摄像机的角度和FOV,覆盖在360°视频的等矩形投影上,这样用户就可以一次看到所有的视觉内容。请看Supp。文件以获取详细信息和示例。我们收集了40个视频的HumanEdit数据,每个视频由3个编辑器注释。总的来说,我们收集了480个轨迹,共计717.2分钟的视频,大约18个小时的注释时间。5.2. 基线我们在实验中比较了以下方法• CENTER-随机轨迹偏向360 °视频轴的这种偏见是因为用户生成的360°视频通常在中心附近包含有趣的内容,可能是因为360°摄像头设计允许用户像使用NFOV摄像头一样使用它。我们从以当前方向为中心的高斯方向采样下一个时间步长的相机方向,该方向从中心开始• EYE-水平-静态轨迹,将虚拟对应于360°视频中的眼睛水平,其中大多数帧间事件发生。我们针对18个不同的相机方向每20°对方位角θ进行• SALIENCY-将AUTO CAM中的捕获价值分数替换为显着性分数。5显着性是通过一种流行的方法[17]在等矩形投影中的360°视频• AUTO CAM-据我们所知,解决这个问题的唯一先前工作[37]。5.3. 评估指标我们采用了[37]中提出的指标,根据需要将其推广到Zoom Lens Pano2Vid。基于HumanCam的指标这组指标评估输出视频是否看起来像人类捕获的NFOV视频(HumanCam)。算法输出与HumanCam的区别越大,算法越好。有三个指标:• 可 区 分 性 量 化 是 否 有 可 能 将 al- 出 租 m 输 出 与HumanCam区分开。其测量方法是使用HumanCam训练的判别分类器的5倍交叉验证错误率错误越大越好。• HumanCam相似性测量从算法输出到语义特征空间中的HumanCam数据的相对距离。它用HumanCam训练分类器视频作为正面,所有算法生成的视频作为负面,使用留一360°视频策略。算法生成的视频根据其到决策边界的距离进行排名,并计算归一化平均排名;越低越好。• 可转移性衡量在HumanCam视频上训练的语义分类器如何转移到算法生成的视频,反之亦然。越容易转移分类器越多,HumanCam和算法输出就越相似。我们以四个搜索关键字作为标签,在一个域上学习多类分类器,并在另一个域上使用测试误差来衡量可转移性。我们在所有指标中使用逻辑回归分类器鉴于上述度量通常通过输出视频与人类捕获的视频的相似性来对输出视频进行评分,HumanEdit度量测量算法生成的相机轨迹与同一360°视频中手动创建的轨迹之间的相似性它们越相似,算法就越好。该度量捕获了人类编辑者的主观偏好特别地,我们计算每个帧中的摄像机视场的重叠重叠近似为相机在赤道上(θ= 0°)。赤道通常5我们还考虑了一个显著性基线,它允许像我们的4http://vision.cs.utexas.edu/projects/Pano2Vid方法,但它比所有其他方法都要糟糕。648330024060300120 2406012060300120 240300240601206012060120F OV+F OVHA表1:Pano2Vid性能:基于HumanCam和基于HumanEdit的指标。第3列中的箭头表示分数越低越好(),还是分数越高越好()。我们的完整方法(OURS)显著优于基线,并且相对于最佳性能基线的相对改进高达43。4%。C输入EYE-水平S一致性[37 ]第37话:我爱你0 0 0 0 0 0 0 06030060300120 240120 24030060300240120 2406030060300120 240120 2401801801801801801801801800 0 0 0 0 0 0 06030060300120 240120 24030060300240120 2406030060300120 240120 2401801801801801801801801800180018001800180图7:从同一360°视频中提取的两个轨迹。我们的算法以不同的方式呈现相同的场景。小于10%的视频帧的角度或FOV不同被认为是同一组。计算成本我们通过1分钟360°视频的平均处理时间来衡量计算成本。时间是在一台配备有一个In-图6:我们的算法输出的示例帧和相应的相机姿势。圆形扇区显示相机FOV和方位角,颜色显示极角。红色/绿色表示角度大于/小于0,更饱和的颜色表示更大的值。在第一个例子中,摄像机跟踪潜水员。在第二个示例中,它放大以捕捉特殊时刻,例如,当一个人爬到顶部或与另一个人击掌时。在第三示例中,相机首先以长焦距捕获远处场景,并以短焦距捕获近处也可以在项目网页上看到视频。max(1 − 其中FOV H和FOV A分别对应于算法和人控相机的FOV。我们报告了两种合并策略下的重叠结果,轨迹,奖励与至少一个HumanEdit轨迹整体相似的输出,以及框架,奖励类似于任何人类编辑轨迹的在每一帧。参见附录。有关详细信息多样性我们通过输出中不同轨迹组的数量来衡量多样性,其中轨迹英特尔至强E5-2697 v2处理器(24核)和一个GeForceGTX Titan Black GPU(包括I/O)。5.4. 输出质量首先,我们使用基于HumanCam/HumanEdit的指标量化算法生成的视频的质量。我们从[37]的作者那里得到了AUTOCAM的轨迹。我们取前K=20个输出,如下[37]。表1示出了结果。我们的完整方法(OURS)明显优于所有其他方法。与最佳性能基线(A UTO C AM)相比,我们的方法将可分辨性提高了43。4%,排名25。5%的平均更好的人形凸轮相似。我们还看到轨迹重叠指标提高了23%卓越的图6和图7示出了示例。有趣的是,相机缩小(即,视野>65。(5)经常比就会放大事实上,O URS选择的76%的ST-一瞥有104。3 °FOV,编辑选择104。在55%的HumanEdit数据中为3这些结果表明30024060300120 2406030060300120 240120 24060120W/ OD IDERSITY区分性错误率(%)⇑1.934.037.7012.0517.4117.28仿人凸轮平均秩⇓0.6590.7070.6120.5220.2790.267转让性人类→汽车⇑0.5820.6070.5970.5170.5900.591自动→人类0.5260.5520.5490.5840.6180.617重叠轨迹⇑0.2710.3350.3590.3430.4360.442帧0.4980.5550.5800.5300.6290.6306484显著性AUTOCAMOURW/ODIVERSITYOUR区分性181614120 200 4000的情况。450的情况。40的情况。35重叠0 200 4001055 10 15 20平均处理时间(分钟)图8:计算成本与我们的方法和A UTO C AM的输出质量[37]。计算成本通过每1分钟输入360°视频的平均处理时间质量由可区分性和轨迹重叠来衡量;更高对于这两个指标来说都更好(P <0.05)当观看360°视频时,较大的FOV是优选的,这可能是因为感兴趣的对象通常更靠近相机。请参阅项目网页的视频。表1还表明,CENTER和EYE-LEVEL基线表现不佳,表明基于先验知识的手工编码分析是不够的,需要采用EYE-LEVEL比CENTER执行得更好,这反映了EYE-LEVEL是通用先验,而CENTER先验仅在360°相机不对称并且用 户 将 其 用 作 普 通 相 机 时 才 成 立 的 事 实 。 虽 然SALIENCY是依赖于内容的,但它捕捉吸引目光的内容,这似乎是Pano2Vid任务的一个糟糕的代理。它的表现低于OURS在所有指标中,除了人类→自动可转移性。虽然我们的方法优于所有基线,但我们注意到,学习到的捕获价值无法捕获由上下文引起的偏好。例如,在家庭录像中,阿尔-出租姆未能集中注意力在家庭成员身上。此外,在相机无法适应快速变化的内容的某些场景中,平滑度约束可能太强失败案例见项目页面。5.5. 计算成本图 8 显 示 了 计 算 成 本 与 输 出 质 量 的 关 系 , 由HumanCam可分辨性和HumanEdit轨迹重叠测量。没有粗 到 细 处 理 的 O URS 的 计 算 成 本 为 2 。 88 倍 的AUTOCAM,这表明需要一个更有计算效率的算法。与OURS相比,OURS W/ FAST将计算成本降低了84%,同时在轨迹重叠方面表现相似,在可分辨性方面仅差6%比较由这两种方法生成的轨迹,由粗到细的方法倾向于在整个视频中突出最大FOV并且忽略选择最小FOV的轨迹,因为初始轨迹是用最大FOV构造的。由于104.3° FOV在输出帧中引入失真。OURS W/ FAST的计算量不到AUTO CAM的50%,但在所有指标上都更准确。尽管对实现的进一步优化可能会减少我们的OURSW/FASTAUTOCAM我们的W/FAST我们的AUTO CAM错误率(%)相似性#独特的轨迹6485#输出图9:每个算法生成的不同轨迹的数量与算法输出的数量之间的关系。处理时间,相对成本将保持不变,因为它在处理的ST-瞥见的数量上是线性的。5.6. 输出多样性图9显示了由这些方法捕获的相对多样性作为它们生成的输出数量的函数。我们的多样化轨迹搜索方法比任何其他方法生成更多不同的轨迹,比我们的消融非多样化变体具有2 -3UTOCAM生成的轨迹比OURS W/ODIVERSITY稍微不同,尽管 它们都 使用 DP来搜 索轨迹 。这 是因为 OURSW/ODIVERSITY在相机控制中具有更多的自由度,并且可以生成给定相机轨迹的更接近的变体,即它可以通过改变最后ST-一瞥的选择来产生比UTOCAM更多的输出。SALIENCY在产出多样性方面表现不佳,即使在其前20名的产出中,平均也只有不到两个不同的轨迹。因为显著性分数比捕获价值分数被更密集地计算,所以相邻方向之间的分数的相关性更强,并且算法可以生成与其他轨迹接近的更多轨迹。请注意,图中的结果。9是对表1的补充。总之,它们表明我们的方法可以产生多样化但高质量的输出。6. 结论我们在360°视频的背景下探索虚拟视频。我们的系统控制360°视频中的虚拟摄像头,以生成看起来像人类捕获的视频,并将内容正确地呈现给被动的人类观看者。我们一般化以前提出的Pano2Vid问题,允许算法动态控制其视野,介绍了一个粗到细的优化方法,使其易于处理,并提出了一种方法,以鼓励多样性和捕获的多模态性质的在一系列指标下(包括与人类编辑的对比),我们的算法优于最先进的技术,使工具更接近实际的虚拟摄像。谢谢。我们感谢嘉珍、金柏莉、若涵、魏菊和怡萱收集注释。这项研究得到了NSF IIS -1514118和英特尔的部分支持。6486引用[1] https://www.cnet.com/news/360-degree-cameras-2016网站。[2] https://www.cta.tech/News/Blog/Articles/2016/September/360-Camera-Sales-Set-to-Skyrocket-in-2016.aspx。[3] https://www.youtube.com/playlist?列表=PLS3XGZxi 7 cBXqnRTtKMU 7Anm-R-kyhkyC。[4] I. Arev,H. S.帕克湾,澳-地Sheikh,J. Hodgins,and A.沙 米 尔 自 动 编 辑 来 自 多 个 社 交 摄 像 头 的 镜 头 。InSIGGRAPH,2014.[5] S. Avidan和A.沙米尔用于内容感知图像大小调整的接缝雕刻。ACM TOG,2007年。[6] D.巴特拉P.亚多拉普尔,A.古兹曼-里韦拉,以及G.沙赫纳洛维奇马尔可夫随机域中的多样m-最佳解。2012年欧洲计算机视觉会议。[7] D. B. Christianson,S. E.安德森湖W. He,D. H. 销售D. S. Weld和M.F. 科恩用于自动电影摄影的声明式摄像机控制在AAAI/IAAI,卷。1,1996年。[8] K. Dale,E. Shechtman,S. Avidan和H.菲斯特多视频浏览和摘要. CVPR,2012。[9] D. K. Elson和M. O.里德尔一种用于机器影像制作的轻型智能虚拟电影摄影系统。《援助》,2007年。[10] Foote和D. Kimber Flycam:实用的全景视频和自动相机控制。载于ICME,2000年。[11] K. 吉姆佩尔 D. 巴特拉 C. 戴尔 G. Shakhnarovich和五.技术机器翻译多样性的系统探索。在2013年自然语言处理中的人工智能方法会议论文集,2013年10月。[12] M. Gleicher和J.马桑兹关于虚拟摄像。第八届ACM多媒体国际会议论文集,2000年。[13] M. L.格莱谢尔河M. Heck,和M. N.沃里克一个虚拟摄像的框架。第二届智能图形国际研讨会论文集,2002年。[14] B.龚,W.- L. Chao,K. Grauman和F.煞监督视频摘要的多样顺序子集选择。在NIPS,2014。[15] M. 吉格利H.Grabner,H.Riemenschneider和L.范古尔从用户视频创建摘要。2014年,在ECCV[16] M.吉格利H. Grabner和L.范古尔通过学习目标的子模块混合的视频求和。CVPR,2015。[17] J. Harel,C. Koch和P.佩洛娜基于图形的视觉显著性。在NIPS,2006年。[18] L- W.他,M。F. Cohen和D. H.销售虚拟电影摄影师:自动实时摄像机控制和指导的范例。ACMCGI,1996年。[19] R. 见鬼 ,M 。 Wallick 和M.格莱 歇虚 拟摄像 。ACMTrans.多媒体计算机Commun. Appl. ,3(1),2007年2月[20] L. Itti和P. Baldi。贝叶斯惊奇引起了人们的注意。Vision Research,49(10):1295[21] L. Itti,N. Dhavale和F.小猪使用视觉注意力的神经生物学模型的现实化身眼睛和头部动画。 在proc SPIE第48届光学科学与技术国际年会,2003年。[22] E. Jain,Y. Sheikh,A. Shamir和J.哈金斯视频重新编辑。InSIGGRAPH,2015.[23] P. Khoenkaw和P.皮安萨雅异构显示器的自动平移和扫描算法。在Springer MTA,2015年。[24] A.科斯拉河哈米德角J. Lin和N. Sundaresan。使用网络图像先验的大规模视频摘要。CVPR,2013。[25] A. 基里洛夫湾Savchynskyy,D.Schlesinger,D.维特罗夫,C. 罗瑟 在单个标 签中推 断m- 最佳 多样标签 。IEEEInternational Conference on Computer Vision,2015。[26] P. 克雷亨布尔,M. Lang、A. Hornung和M. 恶心一个用于重定向流视频的系统。ACM TOG,2009年。[27] Y. J. Lee,J.Ghosh和K.格劳曼发现重要的人物和物体,以实现自我中心的视频摘要。CVPR,2012。[28] J. Li和D.朱拉夫斯基互信息和多样性的译码提高了神经机器翻译的效率. arXiv预印本arXiv:1601.00372,2016年。[29] F. Liu和M.格莱歇视频重定向:自动平移和扫描ACMMM,2006年。[30] T. Liu,Z.袁杰孙杰Wang,N. Zheng,X. Tang和H.- Y.沈学习检测显著物体。见PAMI,2011年。[31] P. 明德克湖奇莫勒克岛Viola,E.Gro? ller和S.布鲁克纳河多人游戏的自动摘要。在ACM CCG,2015年。[32] D.波塔波夫M. Douze,Z. Harchaoui和C.施密特类别特定视频摘要。2014年,在ECCV[33] A. Rav-Acha,Y. Pritch和S.法勒制作长视频短:动态视频简介。CVPR,2006。[34] M. Rubinstein,A. Shamir和S.阿维丹改进了视频重定向的接缝雕刻。ACM TOG,2008年。[35] D. Rudoy,D.Goldman,E.Shechtman和L.泽尔尼克庄园使用候选选择从人类注视学习视频显著性。CVPR,2013。[36] Y. Rui、黑冠草A. Gupta,J. Grudin,and L.他外自动化讲座 捕获 和广 播: 技术 和视频 。多媒 体系 统, 10(1):3[37] Y.-- C. Su,D. Jayaraman和K.格劳曼Pa
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功