没有合适的资源?快使用搜索试试~ 我知道了~
3451Deep 360 Pilot:学习深度代理,用于通过360度全景体育视频进行驾驶胡厚宁1林彦臣1刘明宇2郑贤子1张永如3孙敏1国立清华大学2NVIDIA研究3国立交通大学@gapp.nthu.edu.twarmuro@cs.nctu.edu.tw{yenchenlin1994,sean.mingyu.liu}@ gmail.comsunmin@ee.nthu.edu.tw摘要观看360度全景体育视频需要观看者通过一系列鼠标点击或头部移动来连续地选择观看角度。为了将观众从这种- 一个在每一帧,代理observes一个全景图像,并有预先选定的视角的知识。 代理的任务是移动当前视角(即,动作)到下一个优选动作(即,目标)。我们建议直接从数据中学习代理的在线策略。具体来说,我们利用最先进的物体探测器来提出一些感兴趣的物体(图中的黄色框)。①的人。然后,使用递归神经网络来选择主要对象(图中的绿色虚线框)。①的人。给定主要对象和先前选择的视角,我们的方法回归视角的偏移以移动到下一个。我们使用策略梯度技术来联合训练我们的管道,通过最小化:(1)测量所选视角与地面实况视角之间的距离的回归损失,(2)促进视角平滑过渡的平滑损失,以及(3)使聚焦于前景对象的预期回报最大化。为了评估我们的方法,我们建立了一个新的360-Sports视频数据集,包括五个体育领域。与[ 53 ]和其他基线相比,我们训练了特定领域的代理,并在视角选择准确性和用户偏好方面取得1. 介绍360◦ 视频 给 一 查看器 沉浸式体验通过在球形画布中显示摄像机的全部环境,这与传统的多媒体不同随着消费级和生产级360°摄像头的出现,360°视频每分钟都会被捕获。此外,包括YouTube和Facebook在内的社会媒体巨头对360度全景视频的推广进一步推动了它们的快速采用。 预计,360视频*表示等额缴款图1.面板(a)与从具有两个滑板者的360° C滑板视频采样的三个全景帧在这个例子中,一个滑板运动员比另一个更活跃为每个帧中,所提出的它首先提取候选对象(黄色框),然后选择主要对象(绿色虚线框)以确定视图(就像人类代理一样)。图(b)示出了从观看者的视角的NFoV将在不久的将来成为主要的视频格式研究如何将360度全景视频显示给视觉注意力有限的人类观众,成为一个越来越重要的问题。手动操作(HM)和虚拟现实(VR)是在具有自然视场(NFoV)(通常为60 mm至110 mmFoV,如图所示)的设备上显示360 mm视频的两种主要方式。①的人。在HM中,观众通过一系列鼠标点击来导航360度全景视频;而在VR中,观看者使用VR头戴设备中的嵌入式运动传感器进行导航。注意,HM和VR都需要观看者在每个帧处选择视角,而FoV由设备定义。对于体育视频,这样的选择机制可能是麻烦的,因为感兴趣的“前方物体”连续地改变它们的位置。事实上,最近的一项研究[32]表明,3452并且VR会使观看者感到不适。想象一下,在360度的视频中跟随一个玩滑板的人是多么的困难。因此,以捕捉观看者的大部分兴趣事件的方式自动导航360° C视频的机制将是有益的。从概念上讲,360度全景视频观看者是一个人类代理:在每一帧,代理观察全景图像(即,观察到的状态)并操纵视角(即,动作)以覆盖下一个优选视角(即,的目标)。我们把这个过程称为360度驾驶。基于这种类比,更重要的是,为了减轻观众在观看360度全景视频时不断转向视角的痛苦,我们主张使用一种智能代理,可以自动浏览360度全景体育视频。使用自动机制来显示视频内容并不是一个新的想法。例如,视频摘要-将长视频压缩成简短的摘要视频[ 58 ]-已用于审查每然而,虽然视频摘要算法对是否选择帧做出二元决策,但是用于360 °引导的代理需要对空间空间进行操作以操纵视角来考虑360°引导视频中的感兴趣事件。另一方面,在虚拟电影摄影中,大多数摄像机操作任务在相对简单的虚拟环境中执行[8,22,12,40],并且不需要处理观众然而,一个实际的代理360试点需要直接与原始360视频。为了显示360度全景视频,Su et al.[53]提出了首先在整个视频中检测感兴趣的候选事件然而,由于这种方法需要观察整个视频,因此它不适合视频流应用,例如中心凹渲染[45]。我们认为,能够根据当前和先前的帧(像人类代理一样)进行选择最后,[53]和最近的虚拟电影摄影作品[7,6]都旨在实现平滑的视角过渡。360度驾驶员也应该执行这种过渡。我们提出了我们的“深度360试点”代理不仅遵循感兴趣的前景对象,但也转向视角平稳,以增加观众的舒适度。我们提出了以下在线管道来学习人类代理的在线策略,以模拟人类代理如何在观看体育视频时采取行动。首先,因为在体育视频中,前景对象是观众感兴趣的对象然后,使用递归神经网络(RNN)从候选对象中选择主对象。给定主要对象和先前选择的视角,我们的方法预测如何通过学习回归量来将视角引导到优选的视角。此外,我们的管道与以下职能共同培训:(1)测量所选视角和地面实况视角之间的距离的回归损失,(2)促进视角平滑过渡的平滑损失,以及(3)聚焦于前景物体的预期回报。我们使用策略梯度技术[62]来训练管道,因为它涉及到做出与选择主对象相对应的中间离散决策。为了评估我们的方法,我们收集了一个新的360体育视频数据集,包括五个域,并为每个域训练了一个代理(称为360体育)。这些特定于域的代理在回归准确性和视角中的过渡平滑性方面实现了最佳性能。我们的主要贡献如下:(1)我们开发了第一个类人的在线代理,为观众自动导航360度全景视频。在线处理的性质适合代理流媒体视频和预测视图的视觉中心凹VR渲染。(2)我们提出了一个共同训练管道学习代理。由于主要的对象选择目标是不可微的,我们采用了政策梯度技术来优化管道。(3)我们的代理同时考虑视角选择精度和过渡平滑度。(4)我们构建了第一个360度全景体育视频数据集来训练和评估我们的2. 相关工作我们 审查 相关 作品 在 视频摘要,显著性检测和虚拟电影摄影。2.1. 视频摘要我们有选择地回顾几个最相关的视频和-[58]这是一个很大的文学作品。重要帧采样。[33,19,43,27]建议对几个重要帧进行采样,作为视频的摘要。[47,54,63]重点关注抽样特定领域的高-灯. [67,54,18]提出了弱监督方法来选择重要帧。最近,一些基于深度学习的方法[66,66,65]显示出令人印象深刻的性能,曼斯。[48,49,55]专注于提取亮点并生成概要,其显示来自视频的不同时间的几个空间上不重叠的动作在图形和HCI社区中也提出了涉及用户交互的几种方法[17,25以自我为中心的视频摘要在以自我为中心的视频中,来自手和物体的线索变得更容易提取到第三人称视频中。[30]提出了基于观测的兴趣度和多样性的视频求和,脸和脸。[36]进一步提出了跟踪对象和测量各个帧的影响[28]提出了一种新的方法来加速以自我为中心的视频,同时重新移动令人不快的相机移动。与大多数涉及是否选择帧的视频摘要方法相反,3453不不引导涉及为360° 全 景视频中的每个全景帧选择哪个视角。2.2. 显著性检测已经提出了许多方法来检测通常由人类注视测量的显著区域。[35,21,1,46,59,64,46]专注于检测图像上的显著区域。最近,[34,24,9,44,5,61,60,57]利用深度学习并实现了显着的性能提升。对于视频,[10,20,37,52,41,29]依赖于低级外观,运动提示作为输入。此外,[26,16,51,39,13]还包括有关面部,人物,物体或其他上下文的信息。注意,显著性检测方法不直接选择视图,而是输出显著性得分图。我们的方法也不同于用于对象检测的视觉注意力方法[38,3,42],因为它将视图过渡平滑度视为选择视图,这对于视频观看体验至关重要。对感兴趣的前景对象进行排序。由于体育视频中的感兴趣区域通常是前景对象,[55]提出使用对象检测器[4]来提取感兴趣的候选对象,然后对这些候选对象的显著性进行排名。对于360驾驶,我们提出了一个类似的基线,首先使用RCNN[50]检测对象,然后根据显着性检测器[64]选择聚焦于最显着对象的视角2.3. 虚拟电影摄影最后,现有的虚拟电影摄影作品集中在简单虚拟环境/视频游戏中的摄像机操作[8,22,12,40],而没有处理感知困难的问题。[14,56,7,6]放宽了假设,并在教室、视频会议或篮球场的受限静态宽视场视频内控制虚拟摄像机,其中可以轻松提取感兴趣的对象相比之下,我们的方法在五个域中处理从YouTube1下载的原始360位篮球、跑酷等)。最近,苏等。[53]还建议处理从YouTube下载的原始360度全景视频。他们将这个问题称为Pano 2 Vid-相比之下,我们提出了一个在线的人类一样的代理人的行动的基础上,目前和以前的观察。我们认为,对于处理流媒体视频和其他人在环应用程序(例如,中心凹呈现[45])为了提供更有效的视频观看支持,类人在线代理是必要的3.1. 定义我们将360度驾驶任务制定为:线视角选择任务。观察. 在时间t,代理观察到新的帧v t,它是360 nm视频的第t帧。 代理到此时为止已经观察到的帧的序列被称为Vt={v1,., v t}。目标. 智 能 体 的目标是选择一个视角使得视角序列Lt={11,.,l t}在360 °视频中平滑地捕获感兴趣的事件。请注意,lt=(θt,φt)是360°观察球上的一个点,由方位角θt∈[0°,360°]和仰角φt∈[−90°,90°]参数化行动上 为了实现目标,代理人将在时间t处通过θt操纵视角的动作。给定先前的视角lt-1和当前动作lt,当前视角lt计算如下,l t= lt+ l t−1。(一)在线政策。 我们假设智能体采取行动,在帧t处根据如下的在线策略π,t=π(Vt,Lt−1),(2)其中,在线策略取决于当前和先前的观察Vt以及先前的视角Lt-1。这意味着先前的观看角度影响当前动作,类似于人类观看者在观看360度全景体育视频时的动作因此,360试点的主要任务是从数据中学习在线政策。在下文中,我们讨论了我们提出的深度360试点的各种设计选择,其中Eq.2被建模为深度神经网络。3.2. 在对象级进行观察而不是从整个360度空间中提取信息在每个时刻的全景帧,我们建议专注于前景对象(图1)。(2)有两个原因。首先,在体育视频中,前景对象通常是要跟随的此外,与整个全景图像相比,前景对象的相对尺寸较小如果在帧级进行处理,则对象精细细节的信息将被稀释。使用基于对象的观察有助于我们的方法提取微妙的外观和运动线索来采取行动。我们将对象级观测VO定义为,VO={v O,., 0}(3)t1t3. 我们的 方法,其中v O由v O= con V(O t,P t,M t)给出。(四)t t我们首先详细定义了360度驾驶问题和Ot=conH({oi}),Pt=conH({pi}),(5)t t(第二节)第3.1节)。然后,我们介绍我们的深度360试点方法(第二节)第3.23.6)。最后,我们描述了训练过程。Mt=conH ({m i})。(六)在我们的模型中(第二节),3.7)。1https://www.youtube.com/注意,conH()和conV()分别表示向量的水平和垂直级联。矢量3454O不不不不不不不不图2. 我们的深度360试点模型的可视化。面板(a)示出了两个连续帧。面板(b)示出了由检测器给出的前N个置信对象边界框(黄色框)面板(c)显示了由基于RNN的SVM给出的选定的主对象(绿色虚线框)图(d)示出了以基于RNN的回归器预测的视角(青色框)为中心的最终NFoVi∈Rd表示第i个对象外观特征,向量pi ∈ R2表示在帧t处视球上的第i 个对象位置(与lt相同的参数化),向量mi ∈ Rk表示第i个对象运动特征.如果有N个对象,则Ot、Pt和Mt的维数分别为d×N、2×N和k×N则连接对象特征vO的维数为(d+ 2 +k)×N.3.4.聚合对象信息我们的在线政策是作为一个选择器网络如图 第2段( b)分 段)。它由 一个 RNN 和一 个softmax层组成。RNN聚合来自当前帧和过去状态的信息以更新其当前状态,而softmax层通过Ws将RNN的当前状态映射到概率分布中。请注意,我们的代理对对象的顺序是不变的更H =RNN(v0,h ),解释见技术报告[23]。 在网上tS不t−1政策(Eq. (2)用包含物体外观、运动和位置的VO代替Vt3.3.专注于主要目标我们知道,当观看体育视频时,St=softmax(Ws ht)(10)3.5. 学习平滑过渡到目前为止,我们的模型没有考虑光滑过渡,在视角上因此,我们建议修订从选择器网络工作的动作,t=pi-lt-1,其中凝视着主要的感兴趣的对象假设地点不是的主要对象的兴趣,pi,是已知的,一个天真的政策,运动特征 (图2(d)),如下所示,我的天对于360试点将是一个政策,密切遵循主对象,并且在每个时间实例采取的动作是∆ˆt=pi∗−lt−1.(七)由于机器代理不知道哪个对象是主要对象,我们提出以下方法来估计主要对象的索引i我们将此任务视为分类任务,并预测对象i是主要对象的概率St(i),如下所示:St=π(VO)∈[0,1]N,(8)Σ哪里iSt(i)= 1。给定St,i= arg max S t(i)。(九)我在这种情况下,智能体的任务变成了离散地选择一个主要对象(图1)。第2段(c)分段)。我们需要处理这个µ t =RNN R(con V(mt,t),µ t−1).∆t=WR µt,(11)在这里,我们将运动特征和来自选择网络的建议动作连接起来,以形成时间t时回归网络RNN R的输入。然后RNNR将其状态从µt−1更新到µt。 RNN S专注于主要对象选择,而RNN R专注于动作细化。然后,RNN R的状态经由W R被映射到最终的转向动作向量RNNt。因此,所得的视角由lt= lt+lt−1给出。3.6. 我们的最终模型如图2、我们的模型有三个主要模块。检测器块提取基于对象的观测v0,如等式2中所述。4.第一章选择器块选择主对象索引i,10和Eq.9 .第九条。回归量块回归给定主对象位置的视角L离散选择同时引入政策梯度[62]。伊鲁伊特3455不我们注意到,VO的大小随着观察到的帧的数量而增长,这增加了计算成本。我们提出通过一个回流神经网络(RNN)来聚合对象的先前信息.蒂翁·普蒂 运动m t 下式7,等式11,Eq。1.一、3.7. 培训我们将首先讨论回归网络的训练-工作,然后讨论选择器网络的训练。3456不不不最后,我们展示了如何联合训练这两个网络。请注意,我们使用人类注释者提供的每个时间实例的视角lgt作为地面实况。回归网络。我们通过最小化每个时刻的预测视角和地面真实视角之间的欧几里得距离来训练回归网络。为了实现平稳转向,我们还用平滑项来正则化训练,平滑项使两个连续帧之间的视角的大变化率保持不变。设vt=lt−lt−1为时间t时的视角速度。损失函数由下式给出:ΣTlt−lgt<$2+λt=1其中λ是平衡两项的超参数,T是视频中的帧数。互联网。由于每个帧的地面实况注释被提供为人类视角,因此在每个帧处要聚焦的主要对象是未知的。因此,我们采用近似的政策梯度技术-Nique在[62]中提出训练选择器网络。令l(i)是与对象i相关联的视角,SB公园BMX舞蹈BB总#视频5692535685342#框架59K27K16K56K22K180K表1. 我们的Sports-360数据集的统计数据。SB,Park。BMX和BB分别代表滑板、跑酷、自行车越野赛和篮球。K代表千。4. 体育-360数据集我们收集了一个新的数据集,称为Sports-3602,它由从YouTube下载的342个360英寸视频组成,涉及五个体育领域:篮球,跑酷,小轮车,滑板和舞蹈(图10)。(3)第三章。根据以下标准选择域:(i)YouTube上这种视频的高可用性,(ii)检索到的视频包含动态活动而不是静态场景,以及(iii)在大多数视频帧中包含清晰的人类可识别的感兴趣对象。第三个标准是需要在我们的视频中获得明确的地面实况视角。在每个领域,我们下载了按相关性排序的前200个视频。然后,我们删除了分辨率差或拼接质量差的视频。接下来,我们从没有场景转换的每个视频(许多360度全景视频)中采样并提取连续的由回归网络计算。 我们定义奖励选择对象i(将视角转向l(i))为r(l(i)),其中基于以l(i)为中心的NFOV与以l(i)为中心的NFOV之间的重叠比率来定义回报函数r。奖励功能设计的详细信息见技术报告[23]。然后,我们通过最大化期望奖励来E(θ)=Ei<$S(i,θ)[r(l(i))],(13)利用政策梯度<$θE(θ)=<$θEi <$S(i,θ)[r(l(i))] (14)=Ei<$S(i,θ)[r(l(i))<$θlogS(i,θ)],(15)其中θ是选择器网络的模型参数。我们使用采样进一步近似为,1个季度已编辑并包含场景转换)。最后,我们重新审视了5个人类注释者,其中3个被要求在一组包含人类可识别对象的视频片段中的每一帧中“为VR观众标记最显著的对象”。每个视频片段都由全景视图中的1个注释器注释(见图1)。4a)。注释结果由另外2名注释者进行验证和纠正。我们在图中示出了以地面实况视角为中心的示例全景帧和NFoV图像。3.第三章。我们的数据集包括视频片段及其注释的地面实况视角。我们的数据集的统计数据(即,每个域的视频和帧的数量)在表中示出。1.一、我们将80%的视频用于训练,20%用于测试。5. 实验我们在Sports-360数据集上评估了深度360试点我们表明,我们的模型在定量和定性上都大大优于基线。 此外,本发明还提供了一种方法,θE(θ)q=1r(l(iq))<$θlogS(iq,θ),(16)我们亦会进行使用者喜好研究。 在下文中,我们首先定义评估度量。然后,我们描述其中q是采样的主对象的索引,Q是样本的数量,并且近似梯度被称为作为政策梯度。联合训练。由于由选择器网络选择的对象的位置被馈送到回归器网络中以用于计算最终视角,并且用于训练选择器网络的奖励函数基于回归器网络的输出,所以这两个实施细节和基线方法。最后,我们报告了定量,定性和人类的研究结果。5.1. 评估指标。为 了 量 化 我 们 的 结 果 , 我 们 报 告 了 平 均 重 叠(MO)和平均速度差(MVD)。MO测量以预测的观看角度为中心的NFoV有多少重叠(即,联合上的交集(IoU))与地面实况的交集,每帧一个。一个预测是预-具体来说,我们联合更新3457这两个网络类似于[42],它混合了来自增强信号和监督信号的梯度。2我们的数据集和代码可以从aliensunmin.github.io/project/360video3458不不不图3.我们的Sports-360数据集。我们展示了五个领域的全景和NFoV图像的示例对:小轮车,跑酷,滑板,篮球和舞蹈。在每个示例中,左侧显示了具有地面实况视角(绿色圆圈)的全景帧右侧显示了以地面实况视角为中心的放大NFoV(黄色框)NFoV展示了观众的视角。(一)(b)第(1)款每50个epoch的学习率为1e−55.3. 比较方法我们将拟议的深度360试点与一个数字进行了的方法,包括国家的最先进的方法EST-CAM [53],两个基线方法结合显着性去,图4. (a)解说员用鼠标标记360度全景蓝色十字帮助注释者定位光标位置,青色框表示NFoV。在全景中标记的主要原因在技术中示出报告[23]。(b)BMX自行车如果IoU为1,则选择cise。MVD评估预测视角轨迹的曲率。它由两个连续帧中的视角速度差的范数给出,由vt−vt−1<$2给出。 请注意,平均而言,如果其在每帧处的MVD较低,则轨迹较平滑5.2. 实现细节检测器我们使用在2014年COCO检测数据集[31]上预训练的Faster R-CNN [50]模型来生成大约每帧400个边界框。然后,我们应用检测跟踪算法[2]来增加对象检测的召回率。最后,我们应用跟踪检测[2] 来 选 择 链 接 到 长 轨 迹 的 可 靠 检 测 。 给 定 这 些tracklet,我们每帧选择前N= 16个可靠的框作为我们基于对象的观察。详细的灵敏度实验结果见技术报告[23]。我们发现使用通用物体探测器是有益的。在研究的体育视频领域,非人类物体,如滑板,篮球,或bmx自行车(图。4 b)为主要对象提供强有力的线索。对于每个对象,我们提取Conv5特征的均值池R-CNN网络中的∈R512作为外观特征oi,以及具有12个方向仓的盒子的光流直方图[11]作为运动表示mi∈R12。选择器。RNN S的隐藏表示被设置为256,它以50帧的序列处理输入v O∈ R(d+2 +k)×N。回归量。RNNR的隐藏表示被设置为8。我们将λ设为10。学习我们使用随机梯度优化我们的模型,批量大小=10,最大时期=400。学习率以0的因子衰减。9从最初的使用对象检测器的检测[50],以及没有回归器的deep360 pilot的变体。AUTOCAM [53]:由于他们的模型不是公开可用的,我们使用地面实况视角从我们的数据集生成NFoV视频这些NFoV视频用于在测试视频中的每一帧处对一组预定义视角有然后,AUTOCAM使用动态规划来选择最佳的视角序列。最后,在后处理步骤中对视角序列进行平滑。请注意,由于AUTOCAM为每个视频提供了多个路径,因此我们在测试数据中使用地面实况来选择排名最高的视角序列作为系统这就创建了一个强大的RCNN+Motion:我们首先提取检测到的盒子的光流。然后,我们使用[15]提出的简单运动显着性,中值流和HoF [11]作为特征来训练一个梯度提升分类器用于选择最有可能包含主要对象的框。最后,我们使用分类器顺序选择的盒子的中心作为预测。RCNN+BMS:我们利用Zhang等人提出的显着性检测器。[64]以检测帧中最显著的区域。利用显着图的知识,我们可以提取每个盒子中的最大显着分数作为分数。然后,我们依次发射最突出的盒子中心作为我们的最佳视角轨迹。我们的w/o回归:我们测试我们的深度360试点的性能没有回归。它发出选定的主要对象的框中心作为预测在每帧。5.4. 基准实验我们将我们的方法与我们的变体和基线进行表中的方法。二、在下文中,我们总结了我们的发现。AUTOCAM在5个域中的4个域中实现了三种基线方法中的最佳MO。我们的方法在MO中显著优于AUTOCAM(最多22%3459方法滑板跑酷BMX舞蹈篮球莫MVD莫MVD莫MVD莫MVD莫MVD我们没有回归。0.716.030.744.720.7110.730.794.320.678.62我们0.683.060.744.410.698.360.762.450.666.50AUTOCAM [53]0.560.250.560.710.470.550.730.150.510.66RCNN+BMS。0.2537.50.230.80.2232.40.2440.50.225.27RCNN+Motion.0.5634.80.4726.20.4225.20.7231.40.5425.2表2.基准实验结果。除了最重要的是,滑板跑酷BMX舞蹈篮球比较赢/输赢/输赢/输赢/输赢/输相对于AUTOCAM34 /235 /131 /534 /236 /0与我们的(不含回归)28 /829 /726 /1031 /534 /2vs人类十五/二十一10 /267 /29十四/二十二7 /29表3.用户研究结果。对于所有的五个体育领域,我们的方法是显着优于AUTOCAM和我们的w/o回归。此外,它在滑板和舞蹈方面可以与专家人类相媲美。在BMX中获得至少3%的增益,在舞蹈中获得至少3%的增益)。虽然AUTOCAM实现了显着较低的MVD相比,我们的方法,我们认为,其较低的MO将严重影响其观看质量,因为我们的大多数视频通常包含快速移动的主要对象。由于我们不知道如何在MO上交易MVD,反之亦然,我们求助于用户研究来比较AUTOCAM与我们的方法我们与我们的w/o回归变量的比较是相反的。两种方法实现了相似的MO,而我们的方法实现了较低的MVD。这些结果表明,与回归,代理转向视角更平滑。图5示出了针对测试视频通过两种方法从这个视觉检查,我们验证了平滑项的结果在一个抖动较少的轨迹。5.5. 用户研究我们进行了用户研究,主要是比较我们的方法与AUTOCAM和我们的w/o回归。以下是实验设置。对于每个域,我们对两个视频进行采样,其中所有三种方法都实现了大于0的情况。MVD小于10。这是为了防止用户比较质量差的结果,这使得识别更好的方法变得困难。 对于每个视频,我们要求18名用户比较两种方法。在每次比较中,我们通过360°视频播放器显示了两种方法随机排序的视频。 我们的方法赢或输的次数如表3所示。基于双尾二项检验,我们的方法在统计学上优于AUTOCAM,p值为<0。001。这意味着用户在这种比较中认为MO更重要。基于相同的检验,我们的方法在统计学上优于p值为0的w/o回归器<。05.这意味着,当MO同样好的时候,MVD的一个小优势会导致对我们方法的强烈偏好。我们还将我们的方法与人类标记的地面真实视角进行了比较。 基于同样的测试,图5.比较我们和我们的w/o回归。这两种方法产生类似的MO,而我们的预测在两个主轴更平滑的我们的方法对于p值为0的滑板上的人是不可区分<的。405和跳舞,p值为<0。二百四十二5.6. 典型实例我们比较了我们的见图6。在第一个例子中,我们的方法和D-CAM都工作得很好,因为跳舞中的主对象不会全局移动。因此,地面实况视角并不是不断地移动。在接下来的三个例子中,我们的方法产生平滑的轨迹,同时保持足够的视图选择,而无需任何后处理步骤。相比之下,AUTOCAM自Su等人以来一直在努力捕捉快速移动的物体。[53]将每次瞥见的长度限制为5秒。此外,预定义的198个视图迫使许多动作被渲染的NFoV切成两半。我们进一步比较我们的方法在一个子集上的公开可用-3460图6. 四个领域的典型例子:(a)舞蹈,(b)小轮车,(c)跑酷,(d)滑板。对于每一个例子,中间面板显示了一个全景图像与莫塔格前景对象。顶部和底部面板分别显示了以AUTOCAM和我们的方法生成的视角为我们进一步将AUTOCAM的NFov和我们的方法分别覆盖在中间全景图像的红色从[53]的数据集可以视频。我们在[53]的定量指标中获得了140%的性能提升。与其他基线方法的类似比较和[53]数据集的更多结果见技术报告[23]。6. 结论我们开发了第一个在线代理自动360度视频导航使用新组成的Sport-360数据集对代理进行训练和评估。我们的目标是为最显着对象的定义明确的领域(例如,滑冰-寄宿生)。实验结果表明,与包括[53]在内的基线方法相比,我们的代理取得了更好的性能然而,我们的算法会在违反我们假设的领域(包含同样突出的对象或根本没有对象)受到影响。在未来,我们希望减少训练我们的代理所需的地面实况注释量。确认我们感谢NOVATEK、MEDIATEK和NVIDIA的支持。3461引用[1] R. Achanta,S. S. Hemami,F. J. Estrada和S. Ssstrunk。频率调谐显著区域检测。CVPR,2009。3[2] M. Andriluka、S.罗斯和B。席勒通过检测来跟踪人和通过跟踪来检测人。CVPR,2008。6[3] J. Ba、V. Mnih和K. Kavukcuoglu多目标识别与视觉注意。在ICLR2015. 3[4] L. Bourdev和J.马利克Poselets:使用3d人体姿势注释训练的身体部位检测器。ICCV,2009年。 3[5] N. D. B.布鲁斯角,澳-地Catton和S. Janjic深入研究显着性:特征对比,语义及其他。在CVPR中,2016年6 3[6] J. Chen和P. Carr.模仿人类摄影师。在WACV,第215-222页。IEEE,2015年。二、三[7] J.Chen, H. M. Le,P. Carr,Y. Yue和J. J. 点使用递归决策 树学 习在 线平 滑预 测器进 行实 时相 机规 划在CVPR,2016年。二、三[8] D. B. Christianson,S.E. 安德森湖wei He,D.销售D. S. Weld和M.F. 科恩用于自动电影摄影的声明式摄像机控制见AAAI,1996年。二、三[9] M.科尼亚湖巴拉尔迪湾Serra和R.库奇亚拉用于显著性预测的深度多级网络。InICPR,2016. 3[10] X.崔角,澳-地Liu和D. Metaxas时间谱残差:快速运动显著性检测。ACM Multimedia,2009年。3[11] N.达拉尔湾Triggs和C.施密特使用流量和外观的定向直方图进行在ECCV,2006年。6[12] D. K. Elson和M. O.里德尔一种轻量级智能机器人虚拟电影摄影系统。《援助》,2007年。二、三[13] A. Fathi,Y. Li和J.M.瑞格学习使用凝视识别日常行为。ECCV,2012年。3[14] Foote和D. Kimber Flycam:实用的全景视频和自动相机控制。载于ICME,2000年。3[15] G. Gkioxari和J.马利克找活动管。2015. 6[16] S.戈弗曼湖Zelnik-Manor和A.塔尔上下文感知显著性检测。TPAMI,34(10):1915-1926,2012. 3[17] D.戈德曼湾Curless,D. Salesin和S. 塞茨用于视频可视化和编辑的示意图故事板。SIGGRAPH,2006。2[18] B.龚,W.- L. Chao,K. Grauman和F.煞监督视频摘要的多样顺序子集选择。在NIPS,2014。2[19] Y. Gong和X.刘某使用奇异值分解的视频摘要。在CVPR,2000年。2[20] C.郭角,澳-地Ma和L.张某基于四元数傅立叶变换相位谱的时空显著性检测。CVPR,2008。3[21] J. Harel,C. Koch和P.佩洛娜基于图形的视觉显著性。在NIPS,2006年。3[22] L- W.他,M。F. Cohen和D. H.销售虚拟电影摄影师:自动实时摄像机控制和指导的范例。ACMCGI,1996年。二、三[23] H.- N.胡,Y.- C.林,M. Y.刘洪T.郑,Y.- J. Chang和M.太 阳深 360 皮 洛 特 技 术 报 告 。 2017.https://aliensunmin.github.io/project/360video. 四五六八[24] S. Jetley,N. Murray和E.维格通过概率分布预测实现端到端显著性映射。在CVPR,2016年。3[25] N. 乔希,S。 Metha,S. Drucker,E. Stollnitz,H. 霍普M. Uyttendaele和M. F.科恩Cliplets:并列静态和动态图像。InUIST,2012. 2[26] T. Judd,K.Ehinger,F.Durand和A.托拉尔巴学习预测人类的视线。ICCV,2009年。3[27] A.科斯拉河哈米德角J. Lin和N. Sundaresan。使用网络图像先验的大规模视频摘要。CVPR,2013。2[28] J. Kopf,M. F. Cohen和R.塞利斯基第一人称超延时视频ACM事务处理图表,33(4),2014年7月。2[29] T.李,M。Hwangbo,T. Alan,O. Tickoo和R. 艾耶低复杂度的猪有效的视频显着性。在ICIP中,第3749-3752页。IEEE,2015年。3[30] Y. J. Lee,J.Ghosh和K.格劳曼发现重要的人物和物体,以实现自我中心的视频摘要。CVPR,2012。2[31] T.- Y. 林,M。迈尔,S。贝隆吉,J.Hays,P.Perona,D.Ra-manan , P.Dolla'r 和 C.L. 齐 特 尼 克Microsoftcoco : 上下 文中 的通 用对 象。2014 年, 在ECCV。6[32] Y.-- C.林,Y.- J. Chang,H.- N.胡,H.- T.郑角,澳-地W. Huang和M.太阳告诉我去哪里看:研究在360度视频中辅助聚焦的方法。InCHI,2017. 1[33] D. Liu,G. Hua和T.尘一种用于视频对象摘要的层次视觉模型。TPAMI,32(12):21782[34] N. Liu和J.Han. Dhsnet:用于显著对象检测的深度层次显著性网络。在CVPR,2016年。3[35] T. Liu,Z.袁杰孙杰Wang,N. Zheng,X. Tang和H.- Y.沈学习检测显著物体。TPAMI,33(2):353-367,2011. 3[36] Z. Lu和K.格劳曼以自我为中心的视频的故事驱动的摘要CVPR,2013。2[37] 诉Mahadevan和N.瓦斯康塞洛斯动态场景中的时空显著性TPAMI,32(1):171-177,2010. 3[38] S. Mathe,A. Pirinen和C.斯明奇塞斯库强化学习用于视觉对象检测。在CVPR,2016年6月。3[39] S. Mathe和C.斯明奇塞斯库眼睛中的动作:用于视觉识别的动态凝视数据集和学习显着性模型。TPAMI,37,2015. 3[40] P. 明德克湖 奇莫勒克岛 Viola,E. G ro?lle r和S. 布鲁克纳河多人游戏的自动摘要。在ACMCCG,2015年。二、三[41] P. Mital,T.史密斯河Hill和J.亨德森动态场景观看期间的注视聚类通过运动来预测。Cognitive Computation,3(1):5-24,2011. 3[42] V.Mnih,N. Heess,A.格雷夫斯和K。卡武克丘奥卢。视觉注意力的再流模型。在Z. GhahramaniM.威灵角Cortes,N. D. Lawrence和K. Q.温伯格,编辑,NIPS。2014. 三、五3462[43] C. 恩戈岛Ma和H.詹基于图建模的视频摘要和场景在CSVT,2005年。2[44] J. Pan, K. 麦吉尼斯 E. 赛罗尔, N. O’Connor,X.吉罗·涅托用于显著性预测的浅层和深层卷积网络。在CVPR,2016年。3[45] A. Patney,J.金,M。Salvi,A.卡普拉尼扬角怀曼N. Benty,A. Lefohn和D. Luebke基于感知的虚拟现实。在SIGGRAPH中,第17:1-17:2页二、三[46] F. 佩拉齐山口K raühenbuühl,Y. Pritch和A. 霍农显著性过滤器:基于对比度的显著区域检测滤波。CVPR,2012。3[47] D. 波塔波夫 M. 笨蛋 Z. 哈沙维 和C. 施密特类别特定视频摘要。2014年,在ECCV。2[48] Y. Pritch,A. Rav-Acha,A. Gutman和S.法勒网络摄像头简介:窥视世界。载于ICCV,2007年。2[49] A. Rav-Acha,Y. Pritch和S.法勒制作一个简短的视频。CVPR,2006。2[50] S. Ren,K.赫利河Girshick和J.太阳Faster r-cnn:Towardsreal-time object detection with region proposal networks.在神经信息处理系统的进展,第91-99页,2015年。二、三、六[51] D. Rudoy,D. B. Goldman,E. Shechtman和L.泽尔尼克庄园使用候选选择从人类注视中学习视频显著性在CVPR,第1147-1154页,2013年。3[52] H. Seo和P.米兰法基于自相似性的静态和时空视觉显著性视觉杂志,2009年。3[53] Y.-- C. Su,D. Jayaraman和K.格劳曼Pano2vid:自动电影摄影观
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功