虚拟现实与增强现实中全景拼接内容的感知质量评估：一项前瞻性调查

23 浏览量更新于2024-01-24 收藏 2.3MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

引文：Hayat ULLAH，Sitara AFZAL，Imran Ullah KHAN。沉浸式应用中全景拼接内容的感知质量评估：前瞻性调查。虚拟现实智能硬件，2022，4（3）：223-246DOI：10.1016/j.vrih.2022.03.004虚拟现实智能硬件2022年12月4日第3·回顾·沉浸式应用中全景拼接内容的感知质量评估：一项前瞻性调查HayatULLAH1*，SitaraAFZAL2，ImranULLahKHAN21. 堪萨斯州立大学计算机科学系，曼哈顿，KS66506，美国2. 韩国首尔世宗大学软件系，邮编：143- 747*通讯作者，hayatullah@ieee.org投稿时间：2021年10月29日修订日期：2022年1月3日接受日期：2022年3月7日摘要虚拟现实（VR）和增强现实（AR）领域的最新进展通过数字化与人类生活相关的每一件事，对现代技术产生重大影响，并为下一代软件技术（软技术）打开大门。VR和AR技术通过高质量拼接全景内容和360°图像提供令人惊叹的沉浸式内容，广泛应用于教育，游戏，娱乐和制作领域。VR和AR内容的沉浸式质量在很大程度上取决于全景或360°图像的感知质量，事实上，轻微的视觉失真会显着降低整体质量。因此，为了确保用于VR和AR应用的构建的全景内容的质量，已经提出了许多拼接图像质量评估（SIQA）方法来在用于VR和AR之前评估全景内容的质量。在本调查中，我们提供了SIQA文献的详细概述，并专门关注迄今为止提出的客观SIQA方法。为了更好地理解，客观SIQA方法分为两类，即全参考SIQA和无参考SIQA方法。每个类被进一步分为传统的和基于深度学习的方法，并检查它们在SIQA任务中的表现。此外，我们还列出了公开可用的基准SIQA数据集和用于全景内容质量评估的评估指标。最后，我们强调了目前在这方面的挑战，现有的SIQA方法的基础上，并提出了未来的研究方向，需要进一步改进的SIQA领域。虚拟现实;增强现实;全景图像;沉浸式内容;拼接图像质量评价;深度学习;卷积神经网络1引言最近，据报道，虚拟现实（VR）[1]和增强现实（AR）[2]领域取得了相当大的进展，使其能够在各种技术支持的部门中应用，包括教育[3，4]，健康[5，6]，体育[7，8]和生产部门[9，10]。VR和AR在上述领域的目标是使用宽视场为最终用户提供身临其境的真实体验2096-5796/©版权所有2022北京中科学报出版有限公司Elsevier B. V.代表KeAi Communization Co. Ltd.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章（http：//creativecommons.org/licenses/by/4.0/）。www.vr-ih.com虚拟现实智能硬件2022年12月4日第3在最先进的头戴式显示设备（如Samsung VR Gear Headset和Oculus Rift）上显示内容或全景图像。通常，这些具有360°×180°尺寸的全景图像通过使用图像拼接算法拼接一系列图像（具有通过具有特别设计的相机设置的多个相机捕获的优化重叠间隙）来构建[11，12]。作为VR/AR的一个组成部分，全景内容的质量在用户体验中起着重要的作用，其中全景图像中的微小伪影可以大大降低VR/AR内容的整体质量。考虑到全景内容质量的重要性，在将全景/沉浸式内容用于VR和AR应用之前，必须使用图像质量评估（IQA）算法对全景/沉浸式内容的感知质量进行验证。全景内容的感知质量的这种及时验证可以极大地促进VR/AR体验，从而提供高质量的拼接图像并丢弃错误的拼接图像。到目前为止，已经提出了几种IQA方法来评估图像的感知质量。所提出的IQA方法包括基于相似性的矩阵（结构相似性指数测量（SSIM）[13]，结构相似性指数矩阵（FSIM）[14]，多尺度结构相似性指数测量（MS-SSIM）[15]，梯度幅度相似性（GMS）[16]和光谱角映射（SAM）[17]）（图片式JustNoticeable Difference（JND）[18]），基于失真（基于失真识别的图像真实性和完整性评估（DIIVINE）[19]），基于熵（空间和光谱熵质量评估方法（SSEQ）[20]），基于自然空间质量的方法（自然图像质量评估器（NIQE ）[21]，盲图像质量指数（BIQI ）[22]和使用DCT 统计的盲图像完整性标记器（BLIINDS-II）[23]）。这些IQA方法通过引入计算高效、精确和有效的方法在图像质量评估领域取得了显着的发展。尽管这些现有的IQA方法在图像质量评估任务中表现出惊人的性能，但这些IQA方法只能处理2D图像，无法估计拼接图像的感知质量。在2D IQA方法对拼接图像的限制背后有两个主要问题：首先，拼接图像中的伪影主要受到重影和未对准误差（局部误差）的诱惑。其次，在优化图像的光学调整以实现更好的拼接结果的同时，该优化常常导致所构建的全景图像中的全局失真，包括色差和视差失真。鉴于二维IQA方法对全景拼接图像质量评价的不足，必须有一种有效的质量评价方法来估计或预测拼接图像的质量。专注于拼接图像的质量评估，特别是，文献报道了许多拼接图像质量评估（SIQA）的方法，目前为止，对全景图像的感知质量评估。在现有的SIQA方法中，很少有研究遵循全景图像的主观评估，而其余的方法提出了客观的计算技术来评估拼接图像的质量。基于此，SIQA文献分为两大类SIQA方法，即主观SIQA和客观SIQA，如图1所示。通常，主观SIQA 方法涉及基于主观测试的人类观察（个体对给定全景图像或视频的质量的视觉感知），特殊的实验环境。在拼接图像质量的主观评价过程中，224图1SIQA方法的总体分类。更准确地说，我们的调查侧重于客观的SIQA方法。Hayat ULLAH等人：沉浸式应用全景拼接内容的感知质量评估：前瞻性调查用户/主体基于他们的个人感知和知识来评估给定全景内容的质量。在主观质量评估会话完成之后，专家通常计算由一组受试者给出的特定全景图像/视频的质量分数，然后通过对特定图像的质量分数值进行平均来估计平均意见分数（MOS）。主观SIQA方法比客观SIQA方法相对准确，但是很少有问题使它们难以用于实际应用。例如，主观SIQA方法需要大量的人力来获得单个全景图像的质量分数。此外，它是耗时的，其中相同的图像/视频被转发到多个主体进行质量评级，这限制了其在实际环境中的应用。为了减轻主观SIQA方法的缺点，最好的替代方案是客观SIQA方法，该方法使用计算算法来估计给定全景图像的感知质量，而无需任何人为观察。客观SIQA方法以RGB全景图像为输入，提取多尺度特征（局部和全局特征），然后将提取的特征转发到数学模型或机器学习算法，以回归给定RGB图像的质量。在这些客观的SIQA方法中，有些方法在估计给定全景图像的质量时需要参考图像，而有些方法在没有任何参考图像的情况下估计给定全景图像的感知质量。基于质量评估方法的技术多样性，客观SIQA方法可以分为完全参考SIQA和无参考SIQA方法。全参考SIQA方法将一对全景图像作为输入，其中一个用作图像以调查质量，而另一个用作参考图像，其提供用于感知比较的附加信息。另一方面，无参考SIQA方法不需要任何参考图像，而是使用给定全景图像的空间特征，包括结构一致性，直方图统计，色度和边缘处内容的可见性。典型的全参考SIQA和无参考SIQA系统的工作流程如图2所示。图2全参考和无参考拼接图像质量评估的典型流程：（a）全参考SIQA流程，（b）无参考SIQA流程。为了向研究界提供详细的SIQA文献，本前瞻性调查讨论了现有的客观SIQA方法，并对其进行了详细的解释，并将其分为两大类，即完全参考SIQA和无参考SIQA。我们详细研究了所有现有的方法，并讨论了它们在处理质量评估任务时在特定情况下的优点和缺点在225虚拟现实智能硬件2022年12月4日第3此外，我们报告了一个详细的定量分析，现有的全参考和无参考SIQA 方法，迄今为止，在SROCC，PLCC和RMSE指标，并在表1和表2。在给定的表格中给出的SROCC，PLCC和RMSE值是从他们的原始论文中报告的，这些论文表明了他们在拼接图像质量评估任务的特定数据集上的性能。此外，我们列出并讨论了公开可用的SIQA数据集，然后是通常用于全景内容质量估计/评估的评估指标。最后，我们讨论了目前在SIQA领域需要解决的挑战，并为有关研究人员在未来的研究中解决这些挑战提供了未来的方向。更确切地说，这项调查的主要贡献如下：1. 据我们所知，这是第一次尝试提出一个简短而翔实的调查，涵盖了所有现有的SIQA方法，迄今为止。本次调查探讨了SIQA领域的整体文献，并专门关注客观SIQA方法，公开可用的数据集和评估指标。2. 我们为相关研究人员提供了SIQA方法的组织分析，其中我们将SIQA方法分为两类，即全参考SIQA和无参考SIQA方法。这种分类的主要目的是描述这两种方法的典型工作流程，并获得研究界对SIQA领域的关注。3. 该前瞻性调查报告了客观SIQA领域目前面临的挑战，并提供了未来的方向，以吸引感兴趣的研究人员进一步探索这一研究领域。本文的其余部分结构如下：第二节详细讨论了客观SIQA方法，包括全参考SIQA和无参考SIQA。公开的SIQA数据集在第三节中讨论。第IV节提供了SIQA任务常用的评估指标的详细信息。第五节讨论了SIQA领域的主要挑战，并提出了进一步研究的未来方向。最后，第六节总结了调查结果。2背景和相关工作在本节中，我们概述了2005年至2021年发表的客观SIQA方法的文献，并按年份顺序进行了详细解释。根据拼接图像质量评估工作流程的不同，我们将客观SIQA方法分为全参考SIQA和无参考SIQA方法，并在单独的章节中进行讨论。表1和表2分别给出了全参考SIQA和无参考SIQA方法的总结详细信息（包括出版年份、方法描述、用于评价的数据集和获得的质量评估性能）。而图3中描述了将客观SIQA方法分类为全参考SIQA和无参考SIQA方法的视觉概述。最后，图4描述了全参考SIQA和无参考SIQA方法的逐年引用，这表明了研究人员对SIQA的两个子域（FR-SIQA和NR-SIQA）的研究兴趣和进展2.1全参考SIQA方法为了自动化全景内容质量评估的过程，有许多全参考SIQA方法。在本节中，我们将详细讨论全参考SIQA方法。作为参考，Yang等人提出了一种新的方法，通过结合感知几何误差度量和局部结构引导的IQA度量来形成新的SIQA度量[24]。在他们的研究结果中，他们将这两种情况226Hayat ULLAH等人：沉浸式应用全景拼接内容的感知质量评估：前瞻性调查图3将客观拼接图像质量评估方法分类为全参考SIQA和无参考SIQA方法，其中每个类别进一步分为传统和基于深度学习的SIQA方法。图4多年来（a）完全参考和（b）无参考SIQA方法的基于引用的重要性。所述统计数据摘自2021年10月11日的Google Scholar。以内容自适应的方式生成矩阵，其中首先从原始捕获的视点图像估计图像结构的量。他们在SIQA数据集上进行了三组实验227虚拟现实智能硬件2022年12月4日第3并计算畸变图像与参考图像之间光流场能量的局部方差，用于测量几何误差。他们达到了94.3%的融合指标的最高准确率，并采用最小生成树技术的显着性检测。Zhou等人提出了一种拼接和源图像之间的质量评估方法[25]。在他们的实验中，他们应用了一种马赛克算法，即拍摄多张图像，并将这些图像切割成具有重叠部分的部分。由于拼接算法在几何结构上会产生畸变，因此，作者采用光学图像的颜色和亮度因子来模拟这种结构。为了衡量镶嵌算法的有效性，他们利用SAM和BRF方法。此外，为了评估全景视频的丢失质量，Xu等人提出了一种名为VQA的新方法。他们的发现包括全景视频的不同视角，包括观看方向数据和产生不同的平均分数[26]。他们的方法主要包含360°×180°FoV全景视频，通过创建一个包含40个主题的新数据库，共48个全景视频序列。另一组研究人员Zhang等人对全景视频进行了主观和客观的质量评估[27]。为了创建他们的全景视频数据库，他们最初通过使用不同的编码器并向其中添加噪声来处理16个标准全景视频。他们的数据库总共包含384个全景视频。在许多主观和客观的方法方面，他们探索了他们自己进行的数据集的全景视频的比特率编码器和噪声。Yang等人使用了一个可公开访问的数据集，即VRQ-TJU，用于评估主观全参考图像中的VR质量[28]。他们利用3D端到端CNN方法来预测VR质量。这种新的方法是能够提取时空特征，而无需获取手工制作的功能。在他们的研究结果中，他们采取了预处理的视频补丁，并使用3DCNN获得了每个补丁的分数。对于性能评估，他们应用了质量分数融合。Azevedo等人提出了一种新的基于视口的多度量融合技术，用于评估360视频以及2D视频的视觉质量。最初，他们从360视频中提取视口[29]。为了匹配主观质量分数，他们训练了他们提出的模型，该模型可以将这些提取的特征组合成一个度量。Guo等人探索了用于自然图像视觉感知的配备VR的设备[30]。它们通过随机选择图像并提取这些选定图像的特征来确定图像的质量。对于他们的发现，他们利用独立交叉验证方法，并将结果与最先进的方法进行比较。通过继续研究，Chen等人提出了一种基于球面域中结构相似性的客观全方位视频质量评估方法[31]。采用二维平面和球面结构相似关系处理两个域之间的投影。他们分析了2D平面和360度球面域之间的结构相似性关系，并提出了一种基于SSIM的全向视频VQA算法。在主观全方位视频质量评估数据库上验证了所提出的度量，并与最先进的客观质量评估度量进行了比较。Zhang等人提出了一种编码应用程序的方法，该应用程序可以通过对受影响的全景视频进行质量评估来获取全景视频的特征[32]。在他们的发现中，他们最初提出了重新编码视频序列的方法，而不是编码。通过最佳的显示分辨率，可以保证视频中心的每像素最大范围，并使此评估更加有效和可靠。他们建立了一个主观质量数据库，其中包括从10个不同的原始全景视频生成的总共50个失真序列。对于绩效评估，他们使用JVET。Lim等人提出了一种用于VR图像质量评估的方法以及全向图像的对抗学习[33]。通过考虑全方位图像的特殊特征，他们提出了一种具有人类感知指导和新型预测器的深度网络。他们提出的方法通过利用空间特征自动预测质量分数228Hayat ULLAH等人：沉浸式应用全景拼接内容的感知质量评估：前瞻性调查为了对他们的发现进行性能评估，他们对全方位的数据样本进行了广泛的主观实验。他们的方法外部执行完整参考图像的现有方法。 Li等人通过创建全方位数据集提出了一种质量评估方法[34]。他们使用拼接图像以及鱼眼图像。在他们的研究结果中，他们通过制作成对的图像来评估图像的质量，这意味着他们制作了一对（0和180）和第二对（90和270）。在创建对之后，它们创建交叉引用以提供拼接区域的地面实况。根据数据集的要求，他们通过探索拼接图像及其交叉引用图像之间的关系，提出了全方位拼接质量评估指标。为了进行绩效评估，他们对这些质量评估指标进行了定性和定量实验。Yu等人提出了一种新方法，通过从4个不同角度（包括0度、90度、180度和270度）生成拼接和鱼眼图像的新数据集[35]。他们创建了两对图像a（0度和180度）和b（90度和270度）。在评估一对时，他们保留另一对作为参考。Chen Li等人提出了一种通过考虑视点预测的两个辅助任务来对360视频进行质量评估的方法[36]。这一方法包括两个主要阶段：例如，viewport建议，其次是视频质量评估。最初，开发了视口网络，然后是视口设计，以评估视频质量评估分数。遵循之前的方法，Wu等人提出了他们的数据集用于有效的视频质量评估[37]，首先，他们生成了一个主观评分数据库并将投影格式添加到其中。然后，他们提出了一个3D CNN来预测VR视频质量，而无需VR视频参考。对于性能评估，他们采用了不同的质量分数来评估他们提出的方法。Kim等人提出了一种新的基于深度学习的VR图像质量评估方法，可以自动预测全方位图像的视觉质量[38]。为了评估观看全向图像时的视觉质量，该VR质量分数预测器通过对全向图像上的块的位置特征和视觉特征进行编码来学习全向图像的位置和视觉特性。他们提出的人类感知引导器通过使用对抗学习参考人类主观得分来评估预测的质量得分。对于性能评估，他们进行了全面的主观实验。Yan等人通过提出包括颜色、重影、形状和结构失真的感知客观拼接图像质量评估来考虑拼接方法的不同失真类型[39]。通过利用色差系数、点距离和信息损失，他们设计了质量评估指标。为了评估他们的数据样本，他们使用了拼接图像的主观质量评估数据库。Zheng等人提出了一种分段球面投影图像质量评估方法[40]。他们将ERP格式转换为SSP，以便解决SSP双极区域的拉伸失真。他们提取两极和赤道地区的特征来预测失真的OI的质量。对于他们的发现，他们使用了两个数据集，即，CVIQD2018和MVAQD。Chen等人提出了立体全向图像质量评估器来处理3D 360图像[41]。在他们的研究结果中，涉及两个不同的模块，即基于预测理论的模块和基于多视图融合的模块。作者引入预测理论，模拟高优势特征和低优势特征之间的竞争，获得视口图像的质量分数。此外，作者还探讨了视口图像的质量得分使用图像的内容和位置权重。Yang等人提出了一种基于端到端神经网络的模型[42]。他们使用CNN模型来评估VRQ-TJU和VR-VQA 48两个数据集的全景视频质量。他们通过将CNN和非局部网络相结合来提取全景视频的复杂时空特征。Wang等人提出了一种新的双向质量评估方法，用于由他们自己的数据集生成的拼接图像[43]。在他们的发现中，229虚拟现实智能硬件2022年12月4日第3在测试和基准化拼接图像数据库中，i.例如，ISIQA数据库。它们提取颜色、几何和结构特征。对于他们的性能评估，他们利用SVR算法来评估质量分数，并在盲质量度量和质量度量方面获得了最佳结果。上述SIQA方法的详细信息（包括出版年份、方法描述、评价数据集及其质量评估性能）见表1。尽管这些全参考SIQA方法对于拼接图像质量评估任务表现良好，但是，这些方法中存在若干限制，包括参考全景图像或360度视频的可用性、参考和目标全景图像的耗时成对比较以及实时环境中的效率低下。在全景图像的情况下，有时不可能或很难获得参考数据，这需要大量耗时的努力和数据收集和注释方面的专门知识。这些限制使得全参考SIQA方法不适合在特定时间约束环境下进行实时拼接图像质量评估。2.2无参比SIQA方法除了全参考SIQA方法之外，还提出了几种无参考SIQA方法来自动化全景内容质量评估过程。在本节中，我们将详细讨论到目前为止提出的无参考SIQA方法及其优势和局限性，并根据其性能对其进行分析。通常，这些无参考SIQA方法在没有任何参考图像或任何先验信息的情况下评估全景内容或拼接图像的感知质量。例如，Leorin等人提出了一种用于视频会议应用的全景视频质量评估方法[44]。他们的方法通过利用重叠区域中的运动显著性、相邻相机的校准方差和拼接区域中场景的非均匀性来估计全景视频的感知质量。Xu等人通过使用9种不同的颜色校正算法来接近图像和视频拼接方法的性能评估[45]。他们使用了40个合成生成的图像对和30个原始拼接图像对，并利用颜色校正算法评估拼接方法的性能。为了定位拼接伪影（如重影和形状一致性），Yang等人提出了一种CNN辅助的拼接IQA度量，该度量关注拼接图像中的拼接失真[46]。他们的方法首先使用微调的CNN架构定位失真，然后通过映射从网络获得的错误激活来细化局部区域。在评价拼接图像质量时，根据失真大小和失真程度对每个失真进行加权。类似地，Ling等人提出了一种卷积稀疏编码（CSC）驱动的方法来评估全景图像的感知质量[47]。他们提出的CSC策略首先使用一组卷积滤波器来检测给定拼接图像中的特定失真区域，然后使用训练的内核来估计单个区域中不同类型拼接失真的复合效应。专注于拼接图像的质量评估，Gandhe等人提出了一种混合包装方法，该方法通过合并两个全局和一个局部扭曲来优化单应性，这有助于纠正拼接图像中的失真和结构不规则性[48]。Xia等人提出了一种盲全景内容质量评估方法，该方法根据模仿人脑的非对称方法预测全景图像的质量[49]。他们的方法提取全景加权局部二值模式（LBP），并计算全景拼接图像的相对变化。提取的特征，然后回归支持向量回归机（SVR），以获得预测的质量得分。在这个方向上继续研究，Yu等人提出了一种无参考拼接图像质量评估指标，重点关注重叠区域的质量[50]。他们首先消除了外部230Hayat ULLAH等人：沉浸式应用全景拼接内容的感知质量评估：前瞻性调查表1基于评估数据集和常用SIQA评估指标（包括SROCC、PLCC和RMSE）的传统和基于深度学习的全参考SIQA方法的总结对比分析方法年方法描述数据集SROCC PLCC方法类型传统的深度学习Yang等人[24日]Zhou等人[25日]Xu等人[26日]第二十六届201720172017研究用于全景图像质量评估的光流特征和结构特征专注于尺度不变特征，即，用于拼接图像检查用户对全景视频质量评估[24]第二十四话未给出-[61]第六十一话-0.2374磅----Zhang等人[27日]Yang等人[28日]Guo等人[30个]Chen等人[三十一]2017201820182018使用单刺激连续质量量表（SSCQS）和多媒体视频质量主观评估（SAMPVIQ）利用3D CNN对质量评估任务的使用空间周边视觉在球域内使用结构相似性（SSIM）进行全方位视频质量评估全景视频数据集[27][第28话]SUN360[62]全方位视频质量评估[31]0.7745 0.5859 13.6107日元1985年8月- --0.8211 0.8635 0.4428千Zhang等人[32个]2018为主观全景视频质量评估主观质量-0.8166 0.8058 ty数据库[32]第三十二话al. [四十三]使用双向颜色匹配的231-√Lim等人[33个]2018研究深度对抗学习和人类感知引导器对虚拟现实图像质量的影响SUN360[62]0.8721 0.8522 8.8048√Li等人[34个]2019评估利用感知散列，直方图相似性，稀疏重建，全局色差，十字架[34]0.7370 0.7370 1.3890√Yu等人[35]第三十五届Li等人[36个]20192019全方位360°图像质量评估为沉浸式内容质量评估通过显著性驱动的CNN架构提出视口，实现360°视频质量评估[61]第六十四话：一个人-0.8962- -0.8740 5.7551√√Wu等人[37个]2019使用3D CNN全景视频数据集[27]0.9601 0.9414 1.1265√Kim等人[38个]2019利用人类感知SUN360[62]0.8823 0.8877 6.3837√Azevedo等人[29日] 2020导向器使用多尺度融合方法[61]第六十一话0.9171 0.9257 4.9954√Yan等[39]第三十九届2020专注于使用重影、颜色、形状和[61]第六十一话-0.8253-√视差失真分析Chen et2020分析立体全方位的质量‐ OIQA[63] 0.9020 0.9060-OIQAal. [41]第41话我的世界基于人类的感知2018年CVIQD[64]0.9000 0.9070Yang等人[第四十二届]2020使用球形CNN和非局部特性检查全景视频的质量[第28话]0.9240 0.9390-√聚合物含量专注于缝合的质量评估0.3608-√虚拟现实智能硬件2022年12月4日第3点和孤立点，然后使用包围盒定位拼接图像中的重叠区域，并估计其质量。专注于虚拟现实中的SIQA应用，Madhusudana等人提出了一种名为拼接图像质量评估器（SIQE）的基于无参考的方法，该方法利用高斯混合技术来检测可操纵金字塔分解的相邻系数的二元统计数据，并验证其空间相关性以进行质量评估任务[51]。Li等人提出了一种基于深度学习的拼接图像质量评估方法，该方法具有两个不同的模块，即低分辨率和高分辨率模块[52]。低分辨率模块从双鱼眼到全向图像的解析过程中学习变形规则。而高分辨率模块则侧重于拼接图像的增强分辨率。类似地，Hou等人提出了一种基于深度学习的方法，用于全景拼接图像的盲质量评估[53]。他们使用类似于连体的网络来比较具有相同风景的两张图像的质量，并预测给定图像对的质量分数。遵循深度学习策略，Ullah等人提出了一种基于学习的方法，该方法专注于拼接失真分割，然后是质量估计模块[54]。他们的方法首先使用Mask R-CNN分割全景图像中的拼接错误，然后将分割的失真区域转发给质量估计模块。后一个模块通过聚集无误差像素上的失真像素来估计质量。随后，Sun等人提出了一种用于360°图像盲质量评估的多通道CNN辅助框架[55]。他们首先将360°图像分为六个视口，并将它们作为CNN模型的输入。他们提出的CNN模型首先提取空间CNN特征，然后使用图像质量回归因子对提取的特征进行回归。另一方面，Zheng等人提出了一种基于分割的方法，称为分割球面投影（SSP），以评估全向图像的质量[40]。该方法首先将等矩形投影（ERP）图像转换为球面图像，然后使用扇形窗口从转换后的图像中提取感知特征。最后，他们合并提取的特征来预测失真的全向图像的质量。Xu等人提出了一种名为面向视口的图形卷积网络（VGCN）的盲SIQA方法，用于全方位图像质量评估[56]。他们构建了一个空间视口图，其中创建的图的节点被定义为具有最大可能性被查看的特定视口。然后，基于GCN网络对所构造的图进行推理，预测全景图像的质量。之后，Poreddy等人提出了一种用于3D虚拟现实图像质量评估的监督无参考质量评估方法[57]。他们计算了单变量广义高斯分布（UGGD）参数和多方向可控子带分解。最后，空间BRISQUE分数和预测的显著性被合并以预测最终的质量分数。Ding等人提出了一种利用相邻像素相关性（APC）和统计特征进行全景图像质量评估的盲SIQA方法[58]。他们使用马尔可夫链估计相邻像素的概率分布和差异图，以检测全景图像统计特性的变化。最后，将提取的统计特征输入支持向量回归（SVR）算法进行质量评分预测。受人类视觉系统（HVS）特性和频率相关特性的启发，Zhou等人首先将等矩形投影映射解析为小波子带，然后利用低频和高频的熵值来计算全向图像的多频信息[59]。最后，利用SVR算法对多频信息和自然度计算进行回归，并对全景图像的视觉质量进行预测。Zhang等人提出了一种用于全景视频质量评估的基于无参考的方法[60]。他们的方法从全景视频中提取空间和时间特征。然后将提取的时空特征合并以估计最终质量232Hayat ULLAH等人：沉浸式应用全景拼接内容的感知质量评估：前瞻性调查预测得分Zhou等人提出了一种用于全方位图像质量评估的多流CNN辅助失真鉴别方法[59]。他们提出的CNN架构是基于通过从人类VR感知体验中接收到的视网膜信息生成的视口图像。类似地，Sendjasni等人提出了一种基于CNN的无参考SIQA方法来预测360°图像的感知质量[66]。他们没有将整个ERO转发给CNN，而是只将视觉上重要的视口馈送到CNN模型中，并提取视觉信息以获得质量估计分数。Tian等人提出了一种新的SIQA方法，通过利用拼接图像的局部测量误差和全局统计特性进行拼接图像质量评估[67]。他们专注于拼接图像的属性，包括错位，结构失真，几何误差，重影，模糊和色差。使用回归算法将提取的局部和全局特征回归聚合成质量分数。上述SIQA方法的详细概述（包括出版年份、方法描述、评价数据集及其质量评估性能）见表2。尽管具有比无参考SIQA方法更好的性能，但这些全参考SIQA方法仍然具有许多缺点，包括计算复杂的架构，端到端深度学习架构的不可用，以及需要高计算资源进行部署。考虑到这个技术时代的要求，深度学习架构必须在模型复杂性和准确性之间提供平衡，可以部署在资源受限的设备上并提供合理的性能。因此，基于现有SIQA方法的当前限制，计算高效且准确的深度学习架构现在是这个技术时代的需求，使研究人员和计算机视觉从业者能够在智能设备上部署资源高效的AL算法并提供合理的准确性。3数据集到目前为止，已经有几个数据集被贡献给SIQA领域，提供高质量和失真的全景图像和视频数据。在贡献的SIQA数据集中，本节讨论了可公开访问的数据集，并提供了详细信息（包括数据集中的图像数量和图像分辨率等）。最常用的可公开访问的全景拼接图像质量评估数据集包括：拼接图像质量评估（SIQA ）数据集[24] ，IISc 拼接图像质量评估（ISIQA ）数据集[51] ，交叉参考全向拼接（CROSS）数据集[34]，立体拼接图像数据库（SSID）[39]，全向图像质量评估（OIQA）数据集[63]，基于颜色校正的拼接图像数据库（CCSID）[43]和压缩VR图像质量数据库（CVIQD2018）[64]。每个数据集将在以下单独的小节中进行概述。3.1Stitchedimag equalit yassemen t（SIQA）dataset[24]SIQA数据集是基于合成的虚拟场景，他们使用强大的3D模型工具虚幻引擎从虚拟场景中获得图像。在每个场景的不同位置设置一个12头的合成全景摄像机，每个摄像机覆盖360度的周围区域，每个摄像机的视场（FOV）为90度。所有12台摄像机同时在同一位置拍摄同一图像。每个摄影机视图为其左右摄影机的拼接视图提供完整的参考。SIQA数据集使用了12个不同的3D场景，野生景观和结构化场景，他们利用不同参数的Nuke拼接工具来获得两个拼接图像集。他们收集了816个拼接图像样本，分辨率更高，大小为3k和2k的决定233虚拟现实智能硬件2022年12月4日第3表2基于评估数据集和常用SIQA评估指标（包括SROCC、PLCC和RMSE）的方法年方法描述数据集SROCC PLCC方法类型传统的深度学习Leorin等人[第四十四届]徐等人[45个]Yang等人[46个]凌等人[47个]Gandhe等人[48个]夏等人[49个]羽等人[50个]2005201020172018201920192019关注使用低级和高级视觉因素的全景视频质量评估利用多视点帧数据使用错误激活引导度量研究全景图像的感知质量使用训练的稀疏卷积核和特征选择来使用混合变形方法遵循人脑非对称处理管道的全景图像质量评价利用结构特性和显著性特征对拼接图像进行无参考质量评估。没有给[24]第二十四话SIQA[24][63]第六十三话没有给------- --0.7295 0.8574 0.3161千- --0.7150 0.7408 1.4264- --Madhusu-2019dana等人[五十一]使用颜色校正和带通分析ISIQA[51]0.7820 0.8030-0.8000Li等人[五十二]孙等人[55个]侯等人[五十三]201920192020使用深度低分辨率变形和高级别重现使用多通道CNN架构用于盲全景内容质量评估十字架[34][51]第五十一话：一个人0.7420 0.7420 2.0670美元0.9187 0.9247 4.62470.7593 0.8022-0.8024徐等人[56个]2020临界区域和球面投影分析用于全方位图像质量评估[64]第64话我的世界0.9050 0.9241 5.4616美元2019年12月31日波雷迪等人[五十七]Zhang等人[60个]20212021调查的质量关于全景使用场景统计和单变量生成的帐篷基于空域特征提取和时域池化的全景视频质量评价LIVE 3D VRIQA[65]OIQA[63][63]第63话：我的世界2018年CVIQD[64]主观质量0.7754 0.8121 0.4499泛用[32]第三十二话Sendjasni等人[第六十六话]2342021---√Ullah等人[五十四]2020基于拼接变形分割的SUN360[62]0.8591 0.9367 0.2194√Zheng2020通过对畸变空间的分割，关注全方位图像的2018年CVIQD[64]0.8614 0.9077 6.1178√√0.9394 0.9466 0.7142√0.9322 0.9496 4.36900.9614 0.9695 0.5146√0.9670 0.9751 3.1036广义高斯分布Ding等人[58个]2021利用相邻像素相关技术进行全景图像的奥玛形象Zhou等人[59个]2021利用局部-全局自然度和多频率分析实现360°图像质量田2021360°图像调查全球统计特性等人[67个]和局部测量误差，利用感知权重CNN架构，然后是视觉扫描路径，以获得质量2018年CVIQD[64]0.9280 0.9490√ISIQA[51]0.8406 0.8532 6.7551√CCSID[43]0.7632 0.7776 8.3911OIQA[63]0.9230 0.8990 6.39602018年CVIQD[64]0.9280 0.9490-Hayat ULLAH等人：沉浸式应用全景拼接内容的感知质量评估：前瞻性调查的最佳拼接图像的基础上，28个不同的观众注释和地面真理的利用，100000或更多的决定收集到平均主观意见（MOS）。该数据集是第一个考虑了透视变化的拼接图像数据集，并且在尺度和形成方面也进行了适当的构建。3.2Cross-referenceomnidiretiti tio na lstitchin g（CROSS）数据[34]该数据集的数据收集是通过三星齿轮鱼眼360°相机进行的，以提高在不同条件下捕获数据的质量和鲁棒性。该数据集由10个不同的场景组成，其进一步分为两组：例如，室内和室外。室内环境包括教室、会议室、地下公园、舞蹈室、楼梯和阅览室，而室外环境包括野外、篮球场、街道和住宅区。整个数据集由292个鱼眼样本的四元数组成，而其他四元数则是从7种不同技术（SamsungGear，Open Source，WeiMethod，Stereoscopic Vision Projection，ManMethod，Isometric Projection和Equifarm Projection）的拼接结果中获得的。该数据集包含各种室内和室外图像，如自然光环境和非自然光环境。真实的鱼眼图像是通过三星齿轮相机以最高分辨率（5792×2896）拍摄的，然后使用图像拼接算法将其拼接在一起。对于全方位图像的采集，每组包括在相机的同一位置处从不同正交类别拍摄的4幅图像。对于拼接质量的评价，他们使用交叉参考图像，而正交度的鱼眼图像被称为交叉参考，用于在给定程度上拼接图像的质量评价。3.3Stereoscopicstitche dimag edatabas e（SSID）[39]在这个数据集中，输入的立体图像是使用FUJIFILM REAL 3D使用各种复杂的相机运动拍摄的，而不仅仅是样本旋转和平面运动。该数据集包括每个样本的三个拼接结果，使用三种示例性图像拼接技术生成：APAP[69]，单应性和Yan[70]。该数据集使用30个样本构建，并且每个样本被布置在文件中，该文件包含输入拼接图像、来自3种拼接技术的立体图像和互补立体样本，即输入-R1、输入L1、输入-R2、输入-L2、H-S、H-R、H-L、APAP-S、APAP-R、APAP-L、YAN-S、YAN-R和YAN-L。为了验证他们提出的技术的有效性，进行了用户研究，并邀请30名参与者在这个用户研究，具有正常的立体视觉。研究对象为研究生及本科生，年龄介于18-28岁之间。在开始测试之前，每个参与者都被指导了不同类型的拼接失真。在第一阶段，要求参与者对随机排列的三个2D拼接左图像和三个2D拼接右图像进行随机排序，从1到5（非常差-非常好）。在

下载后可阅读完整内容，剩余1页未读，立即下载