深度学习虚拟相机方法：360°视频自动兴趣点提取与优化

69 浏览量更新于2024-01-24 收藏 2.58MB PDF 举报

智能硬件

深度学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

引文：Muhammad IRFAN，Muhammad MunSIF。Deepdive：一种基于学习的沉浸式内容虚拟相机方法。虚拟现实智能硬件，2022，4（3）：247-262DOI：10.1016/j.vrih.2022.05.001虚拟现实智能硬件2022年12月4日第3·文章·Deepdive：沉浸式内容MuhammadIRFAN1*，MuhammadMUNSIF21. 美国密歇根州奥克兰大学计算机科学系2. 巴基斯坦白沙瓦伊斯兰学院数字图像处理实验室*通讯作者，irfantahir301@gmail.com投稿时间：2021年11月20日修订日期：2022年5月6日接受日期：2022年5月8日摘要360°视频流为用户提供了在沉浸式内容中观看自己感兴趣的点的选择。在360°视频中，通过头部或手部操作来观看感兴趣的场景是非常繁琐的，用户可能会在头部/手部移动的过程中看到感兴趣的帧，甚至丢失感兴趣的帧。而在360°视频中自动提取用户的兴趣点（UPI）由于主观性和舒适度的差异而非常具有挑战性。为了应对这些挑战，并为用户提供最佳和视觉上愉快的视图，我们提出了一种自动方法，利用两个CNN模型：对象检测器和场景的美学评分。提出的框架是三个折叠：预处理，Deepdive架构和视图选择管道。在第一折叠中，输入的360°视频帧被分成三个子帧，每个子帧具有120°视图。在第二次折叠中，每个子帧都通过CNN模型来提取子帧中的视觉特征并计算美学得分。最后，决策流水线基于检测到的对象和计算的美学得分来选择具有显著对象的子帧。与作为领域特定方法的其他现有技术相比，支持体育360°视频，我们的系统支持大多数360°视频类型。基于我们自己从各种网站收集的数据对所提出的框架进行的性能评估表明了不同类别的360°视频的性能。关键词虚拟现实;沉浸式内容;深度学习;美学;显著性1介绍360°全景视频提供周围环境的整个视图，这使得它在标准90°正常视场（NFOV）视频上占主导地位。这种视野（FOV）的显著增加为捕获和记录视觉内容提供了令人兴奋的新方法。例如，想象一个板球运动员想要研究和分析他在比赛中的投篮和失误。通过NFOV摄像头，玩家不可能同时查看所有场景。然而，从一个360°视频，他可以回顾所有的镜头和错误，不能注意到在玩游戏。类似地，在许多其他相同的情况下，例如教育和培训[1]，360°视频提供了受标准相机有限FOV限制的虚拟世界的美丽视图。此外，360°视频也受到了关注。2096-5796/©版权所有2022北京中科学报出版有限公司Elsevier B. V.代表KeAi Communization Co. Ltd.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章（http：//creativecommons.org/licenses/by/4.0/）。www.vr-ih.com虚拟现实智能硬件2022年12月4日第3消费级和生产级（E。例如，在一个实施例中，GoPro，360°Fly），并热烈欢迎市场上的360°工具。此外，包括Google，Facebook和YouTube在内的着名大型网站也开始支持360°视频的内容。据预测，在不久的将来，360°视频将成为增强现实（AR）和虚拟现实（VR）的主要娱乐来源。虽然360°视频已经提供了不同视觉内容的广泛视图，但是由于人类对视觉内容的感知的有限FOV导致观看360°视频的不同问题。首先，由于360°视频的广阔场景，用户很难找到“看哪里”的选择。有不同的技术来选择当前FOV。第一种技术是手动导航360°视频。通常，标准360°查看器显示360°视频，用户通过鼠标点击搜索感兴趣区域（ROI）。此外，在三星Gear等可穿戴技术设备的帮助下观看360°视频，其中设备中的嵌入式传感器在头部运动的帮助下导航视频。通过鼠标点击和头部移动来寻找ROI是非常困难的，特别是在沉浸式内容中。然而，这两种技术都需要用户手动选择ROI区域。此外，最近的研究表明，这些技术会产生精神压力（如晕动病），用户在观看360°视频时会感到不适（图1）。因此，需要一种智能系统来在360°视频的宽视野中找到感兴趣的场景，并将其带入当前用户的FOV中。现有技术包含许多用于显示视频内容的自动可视内容选择机制。这种机制的示例[2-5]已被用于将长电影或监控视频压缩成视频的短剪辑。[6，7]选择几个关键帧作为整个视频的摘要。一些特定领域的亮点集中在[8-10]中。在[11，12]中提出了基于每周监督技术的重要关键帧选择。[13，14]提出了表现出高性能的深度学习方法。[15]提出了基于人脸多样性和兴趣度的视频摘要。此外，[16]提出了基于视频摘要的每帧和对象跟踪的影响。在[17，18]中提出了一些基于显著性的摘要技术。这些机制中的大多数是基于是否选择帧的二元决策，而在360°视频中，在单个帧中找到感兴趣的内容，并将该区域引导到用户FOV是具有挑战性的任务。与我们提出的方法类似的研究由[19]进行，其中检测候选人的兴趣事件，然后应用动态规划将所有检测到的事件链接在一起。但是在这种方法中，首先在整个视频中观察对象，不适用于视频流。[20]进行的另一项类似研究，选择体育视频中帧前景中最活跃的移动对象，并将其引导到用户FOV。该系统仅选择360°视频前景中最活跃的对象。此外，当存在没有物体移动的自然场景时，该系统失败。在这项研究中，我们提出了第一个基于场景兴趣度的Deepdive机制，它分析360°视频帧并自动n选择的迷人场景 360°视频帧，并将其引导到用户的FOV，以提高用户虚拟内容中的舒适度。我们的系统不仅可以跟踪自然场景，还可以跟踪视频中的移动对象。我们的主要贡献如下：• 360°视频覆盖整个场景248图 1 （a ）显示了当前的UFOV 。其中ROI 位于（b）。通过HM和MC在视觉内容的这个巨大视图中搜索对观看360°视频的用户产生精神压力和不适。Muhammad IRFAN et al：Deepdive：a learning-based approach for virtual camera in immersive content这使得当用户仅对特定FOV感兴趣时难以观看这样的视频。当感兴趣的领域在当前视图之外时，它需要体力劳动，并为用户带来精神压力。为了应对这一挑战，我们提出了一个智能和新颖的框架，使有趣的和视觉上重要的看法，用户当前的FOV。• 在360°视频中，由于对象在360°视频的广泛视图中的连续运动，选择和查看基于对象的FOV是非常繁琐的已经提出了许多方法，即手动选择对象或使用HMD设备，这在观看360°视频期间对观看者产生精神压力。在所提出的系统中，利用现有的基于深度学习的方法，有效地为观看者在360°视频中找到显著对象，从而在观看360°视频期间减少精神压力并产生舒适感。• 除了不同的物体跟踪，360°视频还提供了周围世界的广阔视野。美丽的场景（自然景观，历史名胜和旅游视频）都包含在360°视频中。Deepdive系统最难的部分是预测子帧中的兴趣度，如360°视频的ROI。为了检测用户感兴趣的UFV，我们使用美学计算的CNN模型测量子帧的兴趣度，并选择具有高置信度值的子帧。本文的其余部分分为三个部分。第二节详细介绍了目前最先进的方法。第三节提供了拟议系统的描述，其中更详细地描述了详细的轮廓和帧流。第四部分包括实验结果，其中系统效率是使用不同的实验和结果进行比较，与其他国家的最先进的技术。第五部分总结了本文的结论和未来的方向。2文献综述本节提供了视频中视图选择背景下的当前文献的详细总结。在文献中，已经在视频处理方面做了大量工作，从检测[21]和质量评估[22]到自动驾驶[23]。然而，与传统视频相比，360°视频通过在虚拟内容中存在的幻觉给用户带来令人兴奋的体验。这种新的视频类型吸引了用户、大公司和研究人员，但同时也为各种应用的探索带来了新的挑战。在360°内容中，由于视频的高分辨率和人类对这种视觉内容的感知的有限FoV，遇到了不同的问题。最重要的是，由于360°视频的广阔覆盖范围，用户很难找到“去哪里看”的选择。有某些手动技术可以在360°视频中导航当前FoV。第一种技术涉及鼠标点击，其中观看者在360°视频播放器中观看输入视频。观看者还可以使用诸如头戴式显示器（HMD）的可穿戴设备来搜索360°视频中的当前FoV，即。例如，三星齿轮。这种设备中的嵌入式传感器在头部运动的帮助下导航视频。使用HMD手动观看360°视频的典型示例如图1所示。这些手动技术允许观看者在360°全景视频中选择当前FoV。通过鼠标点击和头部移动在如此广阔的360°视野中搜索ROI对于观看者来说是非常头晕和疲惫的。此外，最近的一项研究[24]表明，这些技术会产生VR疾病，如精神压力，晕动病，头痛，胃意识和定向障碍，观众在观看沉浸式视频时感到不适。为了克服这些挑战，用于360°视频的自动虚拟相机[25，26]是一个有吸引力的领域，其中设计了新颖的技术来处理未经编辑的视频，以生成视觉上吸引人和令人愉快的事件。还有其他应用不同技术的相关工作，包括显着性检测[27，28]，视频重定向[29，30]，249虚拟现实智能硬件2022年12月4日第3和视频摘要[31]，以提取视频中视觉上有趣和突出的区域。然而，这些方法在处理复杂的360°视频时具有若干限制。VR图像中的显着性检测处于原始水平[32，33]，但这些方法受到360°视频的动态特性的限制。此外，视频重定向也预测视频中的视觉注意力，然而，主要问题是它需要良好的预处理和编辑视频。此外，在视频摘要中，仅生成关键帧，其中冗余帧被去除，导致非序列帧。相比之下，我们的重点是在不丢失帧序列的情况下生成平滑、视觉上有趣且令人愉快的视频。显著性检测通过提取输入视频中有趣的视觉内容来吸引观众的注意力。例如，Jiang等人使用显着性作为回归问题，其中使用监督学习技术将图像分割为多级显着性分数[34]。此外，所有这些分数被融合以产生显著性图。在另一项研究中，Tong等人从输入图像中生成显着图，用于生成训练样本，然后使用分类器学习和检测显着像素[35]。最后，将显著图和显著像素相结合，以提高检测性能。然而，显著图提供了一些模糊的边缘，限制了显著性检测的性能。Li等人使用了一个端到端CNN网络，它具有像素级完全连接和分段特征层来处理模糊边缘问题[36]。Wang等人介绍了一种前景推理网络，用于检测图像中有趣和显著的对象。然而，这种方法忽略了全局语义信息的提取，从而导致有效的特征学习[37]。Zhang等人通过渐进的方式提取选择性的多层次上下文信息[38]。他们开发了一种多路循环反馈来提高系统效率。尽管有这些方法，Wang等人还是引入了一种名为注意显着性网络的新方法，该方法通过开发固定图来模仿人类视觉系统，以在视觉场景中找到显着和有趣的对象[39]。显着性的主要目的是强调图像的局部内容，然而，我们提出的系统专注于整个360 FOV。此外，这些方法专注于图像的2D位置，而拟议的Deepdive架构使用120° FOV的虚拟相机，为观众提供流畅，有趣和愉快的视频。除了显着性，另一个新兴的领域，旨在裁剪，缩放和最佳拟合源视频到一个给定的显示器也被称为“视频重定向”。例如，Lin等人介绍了一种基于内容感知扭曲的视频重定向新方法[40]。他们的系统使用了对象保持扭曲，减少了事件中对象令人不快的扭曲。视觉3D显著对象通过“尽可能刚性的扭曲”方案，而最不重要的内容输入到“尽可能接近”方案进行线性缩放，这使得他们的系统能够避免过度变形。此外，这个问题也研究了张等人。[41]提出了一种压缩域解决方案，用于在智能手机等低功耗设备上进行视频重定向。在他们的方法中，从比特流的运动矢量中提取诸如运动信息的低级域特征，以增强压缩视频中的四边形网格变形。这些方法对图像的特定区域或像素进行操作，从而扭曲对象的形状。Li等人提出了一种用于视频重定向的网格流方法，以克服失真问题[42]。他们开发了一种两步走的方法，在第一步中，视频被分成包含网格的片段，称为网格流，用于消除内容不一致。其次，这些网格流被用来选择关键帧的每个视频段的摘要。Bansal等人提出了一种无监督的方法，将空间和时间信息与对抗性损失相结合，以增强内容翻译和保存[29]。Kim等人提出了一种用于快速视频修复的深度架构，使用基于图像的编码器-解码器模型来合成仍然未知的区域，从而产生增强和令人愉快的视频[43]。我们的工作和视频重定向都专注于视觉吸引力，250Muhammad IRFAN et al：Deepdive：a learning-based approach for virtual camera in immersive content为观众选择突出部分。然而，视频重定向需要预先编辑好的视频，而我们的方法强调提取通过120°虚拟相机显示给用户的视觉吸引力和吸引力部分。视频摘要是计算机视觉中的另一个新兴领域[44，45]，其目的是通过删除冗余帧同时保留重要帧来压缩全长视频中的剪辑。存在大量关于视频摘要的工作，例如Hussain等人提出了一种轻量级CNN模型，用于在多视图视频监控系统中选择可疑对象[46]。该系统可用于工业应用，以节省带宽和其他资源消耗。除此之外，还有其他相关的工作，如[31，47，48]用于有效的视频摘要。这些方法的主要目标是去除冗余帧，并将显著信息保留为关键帧的组合或不相交帧的级联。与这些方法相比，我们的系统的输出是来自360°视频的有趣和愉快场景的连续视频。在当前文献中，还存在用于360°视频中的虚拟相机选择的若干方法。例如，Su等人提出了一种传统算法，该算法在360°视频内创建虚拟相机，用于控制观看者观看360°视频的视角[26]。然而，他们的方法缺乏视频中的显著对象检测。Drakopoulos等人提出的另一种技术。[49]利用传统的虹膜跟踪技术在基于移动的VR系统中指向FOV，但是他们的系统对照明和其他空间变化不鲁棒。类似的工作是由胡等人。[50]，基于一种名为“深度360试点”的基于深度学习的方法，这是一种在360°体育视频中导航视角的代理。该方法只针对体育视频中提供了对象的预标注帧，在处理其他类别时存在局限性。例如，体育、娱乐、旅游、卡通和纪录片视频。Cheng[25]通过计算基于显着性的热图进行的一项研究，用于预测野生360°视频中最显着的场景。此外，该视角由Xu等人增强。[51]通过利用与显著性数据相结合的眼睛注视数据来控制观看者在360°视频中的“看哪里”。此外，Chen等人开发了一种用于在使用VR设备时进行用户头部移动预测的基于深度DL的方法。[52]其中作者已经使用了CNN加上基于长短期记忆（LSM）的DL，用于从用户头部当前位置和FOV预测用户头部移动，以向用户提供重新感知的环境体验。他们的方法比基线方法的准确率高出16%。Li等人进一步研究了当前的问题“在哪里看”。[53]。他们提出了一个名为“viewport”的虚拟相机，该相机基于CNN，作者预测了用户的PoI的显着性。大多数现有方法都是特定于域的，仅适用于体育和野生视频，其中这些系统在处理其他360°视频类别时具有限制。此外，360°视频被认为是娱乐的主要来源，据我们所知，不存在这样的系统，可以在360°视频中找到有趣和视觉上令人愉快的FoV。因此，我们提出了一个智能系统，它可以找到视觉上愉快和有趣的FoV，并涵盖了大多数360°视频类别，如体育，娱乐，旅游，卡通和纪录片视频。3拟议框架在本节中，我们将详细介绍由各个步骤组成的所提出的方法。为了便于理解，拟议的方法分为三个小节。预处理（A），其中详细描述360°视频到子帧中的机制。下面的小节（B）详细介绍了深度CNN架构如何测量沉浸式内容中记忆力和美学分数的融合以及对象的突出程度2513虚拟现实智能硬件2022年12月4日第3在最后一个小节（C）中描述了控制内部360°视频。整个框架的可视化表示如图3所示。3.1输入采集对于大多数人来说，当提到视频内容时，分辨率会浮现在脑海中。但360°视频的现象与正常情况相比有点复杂。在360°视频中，内容被水平拉伸360°并且垂直拉伸180°，并且整个场景在观看者的两只眼睛之间被分割，从而将用户的FOV限制为360°中的120°。这意味着观众只能360°视角的三分之一。因此，基于观看者的FOV，沉浸式视频的输入帧被划分为三个子帧，每个子帧具有120°视图，如图3所示（步骤1：输入获取）。此外，360°视频具有从2K到8K的不同视频分辨率，如图2所示拟议框架，来自各种来源的视频是预-已经使用了以下等式来处理以自动调整用户FOV的分辨率：图2传统和360°视频的各种分辨率。p总=r*c（1）UFOV=c（二）其中UFOV是120°的水平视图。公式2用于从输入360°帧自动分割120°水平视图。3.2Deepdive架构为了检测图像和视频中的对象，已经提出了各种CNN架构，这些架构多次处理图像以进行对象检测。但是YOLO（你只看一次），顾名思义，通过应用单次向前传递处理策略来扫描图像以找到对象并预测它们的边界框。这种前向传递技术使YOLO能够实时检测物体。为了检测和分类图像中的对象，YOLO架构分为两个步骤：1）特征提取和2）特征检测。在我们提出的方法中，我们修改了原始的YOLO架构，只提取与显著对象相关的视觉特征。对于特征提取，我们使用了由53层组成的YOLO v3（Darknet-53），其中包括连续的3×3和1×1卷积，然后是跳过连接。该架构已经堆叠了53层，因此总共形成了106层，与以前的版本相比，处理速度较慢，但在与显著对象相关的特征方面增强了性能。视觉特征提取的详细概述如图4所示。为了提高特征提取的效率，我们采用了三尺度方法进行特征提取。在第一个尺度中，以32的步幅对81层的特征进行下采样，从而产生大小为13× 10的第一组特征图13.在第二个尺度中，在26×26的上采样之前，对79层及以后的层进行卷积。这些特征与61层的特征连接在一起，形成新的特征图。对于第三刻度，对于层91和向前的层遵循相同的过程，并与层36处的特征融合。除了与显著对象相关的视觉特征外，我们还为360°视频的每个场景提取了美学特征。为此，我们利用现有的最先进的模型[54]来测量沉浸式视频的每个场景的美学评分要提取空间要素，池化操作252Muhammad IRFAN et al：Deepdive：a learning-based approach for virtual camera in immersive content图3拟议框架详图。步骤1：输入的360°视频帧根据其大小分为子帧。步骤2：I-VIP基于两个CNN模型预测每个子帧的不同分数：SSD和记忆性。每个子帧的对象和可记忆性得分被存储到单独的数组中。步骤3：每个子帧的对象和可记忆性得分被组合成单个数组并被分配给优先级数组，其中它们按升序排列。对象在优先级数组中的位置显示对象的重要性。在给定子帧中具有最高优先级的对象被显示给用户。对于两种功能类型，网络内部的情况略有不同。初始模块的一个激活块导致固定的空间分辨率，1×1的全局分辨率，以及宽特征的5×5的空间平均池。所有提取的特征都被调整大小并沿着它们的内核大小连接。关于模型的更多细节可参见[54]。253虚拟现实智能硬件2022年12月4日第3图4使用YOLO v3进行显著对象的多尺度特征提取。3.3视图选择管道一旦沉浸式内容的每个场景的显著对象和美学得分被测量，我们的最终目标是融合所有得分，以便在360°视频中找到最主要和最有趣的视图。为此，我们测量了检测到的显著对象（通过置信度值测量）和美学得分的加权和。此外，我们还分配平衡权重γ= 0.7和μ= 0.3分别为显着的对象和美学评分的场景。总方程可以总结为：VS=εγ+μω（3）其中VS是三个FOV中的主导视图，ε是检测到的对象的置信度得分，美学评分。4实验装置本节描述了所提出的系统的实验设置和系统在从YouTube下载的不同视频上的评估。在接下来的小节中详细讨论了从所提出的系统中收集的视频和获得的结果。4.1数据集描述不同的视频已被用来评估和发现所提出的系统的效率。共有7个视频从一个巨大的视频源网站YouTube下载，其中包括不同类别的视频。这些类别包括体育，娱乐，卡通和家庭一般视频。这些视频以720×1920分辨率下载，具有不同的持续时间。视频的持续时间从30秒到516秒不等。每个视频都是以等矩形格式下载的。mp4扩展和帧速率保持在30 fps。每个视频的详细信息见表2。娱乐视频的内容是在持续时间期间变化的。每个视频的地面实况是手动生成的，并存储在单独的目录中。4.2数据集的结构为了方便和容易理解的其他研究人员利用数据集和添加更多的痕迹，数据集是有组织的格式结构。对于每个视频，有五个子目录：子帧1、子帧2、子帧3、地面实况和预测。输入帧被分为三个子帧，分别写入子帧1、子帧2、子帧3目录。从系统为观众选择的这三个子帧中选择的子帧被写入预测目录。预测的帧被写为子帧的名称后跟帧的编号，即，子254Muhammad IRFAN et al：Deepdive：a learning-based approach for virtual camera in immersive contentframe_1_0，其中sub_frame_1是第一子帧1，0是帧数。随后，将该子帧_1_ 0与所提出的系统分析的地面实况进行比较。4.3实验装置这个系统是用python 3.6版本移植的。对于基本的图像处理操作，我们使用了开源图像处理库OpenCV 4.0版。其他必要的库包括numpy，keras，tensorflow（GPU版本），caffe（为python编译），matplotlib，scikit-image和scikit-learn。对于所提出的系统评估，通过仔细检查视频的每一帧来手动生成来自七个视频的第一地面实况。总共8000帧是从视频中生成的，作为65000帧的地面实况。在每个视频中，场景中的对象（人、动物或车辆）被视为地面实况。这些视频包含静态视点（SVP）和移动视点（MVP），其中对象是静态的，对象在360°视频周围移动。所提出的系统表现良好，能够只聚焦所需对象移动的视图。4.4系统精度为了分析系统的精度，进行了不同类型的实验。不同的网络已经结合起来，以提高系统的准确性。最初，仅计算子帧1、子帧2和子帧3的美学分数。接下来，具有高美学分数的帧被观看者观看。然而，由于不同的内容，场景和照明条件的视频，获得的最好的准确率为52.57%。在所提出的系统的下一步骤中，仅测量显著对象，并且向观看者显示包含最显著对象的帧。显著目标的最高准确率为62.36%。该系统的主要目的是跟踪360°视频中物体移动的FOV。为此，我们将视觉特征与美学特征相结合，以提高所提出的系统的整体准确性。因此，如图5所示，所提出的系统的最高可能获得的准确度为68.24%。对于SVP视频1和视频6，美学评分分别为54.12%和54.81%，对于MVP视频2、视频3、视频4，视频5和视频7的美学评分分别为53.01%、51.90%、52.04%、50.65%和53.02%。与MVP视频相比，由于静态视图，每种方法在SVP上都表现出了良好的效果。对于MVP视频，由于视频内容、场景、对象的大小和对象的运动随时间变化，因此与SVP视频相比，导致较低的准确性。此外，在MVP视频中涉及不同的对象（人、动物和车辆），其中对象的错误分类导致所提出的系统的准确性降低。显著对象检测，其中包括人，动物和卡通，是所提出的框架的重要组成部分之一;在对象检测方面的检测器的进化是基于精度，召回率和F1分数进行的。我们使用了表1中给出的1200帧视频，其中每个对象出现在最少1000帧中。检测器的性能在表2中给出，其中动物类具有最高的精确度、召回率和F1分数，而人物和卡通具有相对较低的性能。其背后的原因可能是动物与其他类的相似性较小，然而，人和卡通与人的相似性相对较高，并且都具有复杂的形状。4.5时间分析已经进行了一些实验，以分析所提出的系统的有效性，在时间复杂度。使用美学方法，系统平均花费0.06秒来处理每帧。255虚拟现实智能硬件2022年12月4日第3表1数据集视频视频号视频名称焦点起始偏移FOV决议FPS1360度厨房家居之旅人0点01分2k1920×720302厨房360测试人0点01分2k1920×720303360°摄像机英格兰在温布利，不像你以前见过的！人零点零五分2k1920×720304皇家马德里vs尤文图斯|2017年欧冠决赛|3 6 0 °人0点10分2k1920×720305视频|福克斯足球狮子360°国家地理动物零点零七分2k1920×720306部落冲突360°：体验虚拟现实突袭卡通0点04分2k1920×720307360°水下国家公园国家地理动物0点04分2k1920×72030表2CNN模型对各种对象object的名称精密度（%）召回率（%）F1-疼痛（%）动物85.7175.0080.00人65.2266.6765.93卡通66.6768.0967.37另一方面，使用YOLO视觉特征，总平均时间为0.08。然而，视觉特征的准确性高于美学方法，如图5所示。此外，在图6中示出了各种视频集合的准确度。使用YOLO功能进行对象检测以捕获用户感兴趣的FOV，YOLO的处理时间为0.1-fps。每种方法和不同方法的融合所消耗的时间如图7所示。实验的第一步，用户在HMD设备上观看视频，并通过头部运动搜索视频中的不同对象来找到感兴趣的FOV。在第二步骤中，在HMD设备上向用户播放所提出的系统的输出视频，其中用户观看视频而无需手动搜索FOV。在将每个视频呈现给用户之前，使用所提出的系统生成所有视频的摘要，并将其提供给放置在用户的HMD设备内的智能手机。在观看视频之后，用户针对每个视频填写问卷。在调查问卷中，每个视频分为五类：1）优秀，2）良好，3）满意，4）需要改进，图5所提出的系统使用单一和不同方法的融合的准确性。图6每种方法在不同视频上的准确性。视频1和视频6属于SVP视频，视频2、视频3、视频4、视频5和视频7分别属于MVP视频。5)扶贫与使用HMD设备手动搜索FOV相比，所提出的系统在MVP和SVP视频两者中表现优异。SVP视频的总体百分比略高于MVP视频，因为SVP中的FOV恒定且比MVP视频更稳定。每个视频的用户评分百分比如图8所示。256Muhammad IRFAN et al：Deepdive：a learning-based approach for virtual camera in immersive content4.6用户研究我们进行了一项用户研究，比较和调查所提出的系统的有用性更详细。我们已经探索了用户与360°视频更全面的方式使用所提出的系统的交互。本研究中使用的设备是三星s6-edge智能手机和三星Gear VR HMD，用于向用户观看所提出的系统的输出视频。从我们的研究机构中招募了20名用户。这些用户的年龄在20至40岁之间。图7使用不同方法和硬件进行FOV选择的拟议系统的时间分析。图8用户在HMD设备上观看视频后对每个视频的评分百分比。4.7与最先进方法的所提出的系统与其他国家的最先进的技术进行比较，以找到系统的效率和有效性。已通过[53]、[50]和[19]进行的其他类似研究对拟定系统进行了评价。在[53]中，已经为观看者提出了360°视频的视口、显著性和VQA评分。然而，尚未在给定链接上更新拟议系统的最终版本，以将结果与拟议系统进行比较。此外，[50]中提出的方法的局限性仅关注体育视频。此外，当视频中存在单个对象时，该系统有效地工作，然而，当360°视频的广泛场景中存在多个对象或视频中没有对象时，系统失败。[50]中提出的系统处理整个视频并为特定视频生成预定义的视角。然后，通过动态编程使用这些视角坐标来将360°视频的UFOV转向观众。此外，所提出的系统不生成用于聚焦UFOV的任何类型的预定义视角。此外，所提出的系统不需要对360°视频进行任何后处理以在360°视频中聚焦UFOV。所提出的系统有效地和高效地处理了在这些最先进的方法中讨论的限制。所提出的系统适用于大多数类别的360°视频，范围从体育视频到旅游视频，自然场景视频，娱乐和卡通视频，从而优于最先进的技术。表3中示出了所提出的系统与其他现有技术方法的比较4.8拟议系统的局限性建议的系统有一定的局限性首先，由于360°自动生成UFOV257虚拟现实智能硬件2022年12月4日第3表3与其他现有技术的方法视频支持类别体育娱乐旅游/一般视频卡通[50个]是的没有没有没有[19个]是的未提供未提供未提供拟议系统是的是的是的是的视频，所提出的系统仅从整个360°视频生成单个视频。在用户的学习过程中，部分用户对娱乐视频和纪录片视频更感兴趣。由于不同的用户有不同的视频选择，这个系统可能会有限制，由于优先级为基础的UFOV选择。此外，当对象移动到子帧的边缘时，所提出的系统失败，这是由记忆性分数处理的。此外，该系统是两种深度模型的融合，系统的处理时间不是实时的，限制了该系统直接使用HMD设备。5结论我们开发了一个由两个不同的Deep模型组成的系统，可以为用户自动选择360°视频中的UFOV。我们的重点是开发一个在大多数类别的360°视频中都有效的系统。我们专注于开发一个涵盖大多数360°视频类别的系统，即体育视频，娱乐，一般和旅游视频。该系统在新收集的不同类别的360°视频上进行了验证。实验结果表明，该方法优于其他国家的最先进的技术，开发特定领域的360°视频。我们未来的方向包括通过最小化深度模型的数量和使用应该在小型设备上运行的轻量级模型来增强系统的时间成本。利用深度学习模型在单个360°中查找和学习UPI，从而根据用户的兴趣生成多个视频。我们将专注于设计一个120°视角，而不是将输入360°划分为120°多帧，该视角将根据UPI进行转向。该视角还将覆盖当前系统中的边缘问题，并将最小化时间成本。我们的最终重点将是开发基于深度模型的应用程序，其中视角将在360°视频中引导用户，从而最大限度地减少用户在观看360°视频时的精神压力。竞合利益我们声明我们没有利益冲突。引用1[10] Khan N，Muhammad K，Hussain T，Nasir M，Munsif M，Imran A S，Sajjad M.虚拟空间中儿童道路安全教育与实践之适应性游戏学习策略。传感器，2021，21（11）：3661DOI：10.3390/s211136612Muhammad K，Hussain T，Baik S W.基于CNN的高效资源受限设备监控视频摘要.模式识别快报，2020，130：370DOI：10.1016/j.patrec.2018.08.0033Mehmood I，Sajjad M，Baik S W.基于视频摘要的远程内窥镜：一种有效管理视觉的服务在无线胶囊式内窥镜检查过程中生成的数据。医学系统杂志，2014，38（9）：1-9 DOI：10.1007/s10916-014-0109-y4Muhammad K，Ahmad J，Sajjad M，Baik S W.用于医疗系统中诊断性宫腔镜检查视频摘要的视觉显著性模型。SpringerPlus，2016，5（1）：1495258Muhammad IRFAN et al：Deepdive：a learning-based approach for virtual camera in immersive contentDOI：10.1186/s40064-016-3171-85Haq I U，Muhammad K，Ullah A，Baik S W. DeepStar：检测电影中的主角。IEEE Access，2019，7：9265-9272DOI：10.1109/access.2018.28905606刘丹，华刚，陈涛.一种用于视频对象摘要的层次视觉模型。IEEE Transactions on Pattern Analysis and MachineIntelligence，2010，32（12）：2178DOI：10.1109/tpami.2010.317张文忠，张文忠，张文忠.使用网络图像先验的大规模视频摘要。2013年IEEE计算机视觉与模式识别会议，2698DOI：10.1109/cvpr.2013.3488放大图片作者：J. M.类别特定的视频摘要。In：Computer VisionCham，Springer International Publishing，2014，5409Sun M，Farhadi A，Seitz S.通过分析编辑的视频对特定领域的亮点进行排名。在：计算机视觉ECCV 2014.，Cham，Springer International Publishing，2014，78710姚T，梅T，芮Y.用于第一人称视频摘要的具有成对深度排名的高光检测。2016年IEEE计算机视觉与模式识别会议（CVPR），2016，982DOI：10.1109/cvpr.2016.11211赵B，邢鄂平。消费者视频的准实时摘要。2014年IEEE计算机视觉和模式识别会议。Columbus，OH，USA，IEEE，2014，2513DOI：10.1109/cvpr.2014.32212龚宝勤，赵文龙，郭文龙，王文龙.用于监督视频摘要的多样顺序子集选择。神经信息处理系统进展，2014，3：206913张K，赵文良，沙F，格劳曼K.摘要传输：用于视频摘要的基于样本的子集选择。2016年IEEE计算机视觉和模式识别会议。拉斯维加斯，NV，美国，IEEE，2016，1059-1067 DOI：10.1109/cvpr.2016.12014Zhang K，Chao W-L，Sha F，Grauman K.具有长短期记忆的视频摘要计算机视觉ECCV 2016。Cham，Springer International Publishing，2016，76615李Y J，高希J，格劳曼K.发现重要的人物和物体，以实现自我中心的视频摘要。2012年IEEE计算机视觉与模式识别会议。Providence，RI，USA，IEEE，2012，1346-1353 DOI：10.1109/cvpr.2012.624782016Lu Z，Grauman K.以自我为中心的视频的故事驱动摘要。2013年IEEE计算机视觉会议和模式识别。Portland，OR，USA，IEEE，2013，2714DOI：10.1109/cvpr.2013.35017Perazzi F，Krähenbühl P，Pritch Y，Hornung A.显着过滤器：基于对比度的显着区域检测过滤。2012年IEEE计算机视觉与模式识别会议。Providence，RI，USA，IEEE，2012，733-740 DOI：10.1109/cvpr.2012.624774318王建文，郭杰杰，郭建超.学习视觉显著性的组合模型用于注视预测。IEEE Transactions on Image Processing：aPublication of the IEEE Signal Processing Society，2016，25（4）：1566-1579 DOI：10.1109/tip.2016.252238019苏Y C，Jayaraman D，Grauman K. Pano2Vid：用于观看360°视频的自动摄影技术。201620林永春，张永军，胡宏南，程宏天，黄长文，孙明。告诉我去哪里看：研究360°视频中辅助聚焦的方法。2017CHI Conference on Human Factors in Computing Systems会议论文集。丹佛科罗拉多美国，纽约，美国，ACM，2017，2535DOI：10.1145/3025453.302575721Ullah H，Muhammad K，Irfan M，Anwar S，Sajjad M，Imr

下载后可阅读完整内容，剩余1页未读，立即下载