没有合适的资源?快使用搜索试试~ 我知道了~
SphereSR:用球面图像表示的360度投影的超分辨率方法
5677SphereSR:通过连续球面图像表示的任意投影的360nmYounghoYoon,InchulChung,LinWang*和Kuk-JinYoon视觉智能实验室,韩国KAIST{dudgh1732,inchul1221,wanglin,kjyoon} @ kaist.ac.kr摘要360°成像最近获得了很多关注;然而,其角分辨率相对低于窄视场(FOV)透视图像的角分辨率,因为其使用具有相同传感器尺寸的鱼眼镜头捕获。因此,对360图像进行超分辨是有益的。已经进行了几次尝试,但大多数认为等矩形投影(ERP)作为360度图像表示的方法之一,尽管纬度依赖的失真。在这种情况下,由于输出的高分辨率(HR)图像总是与低分辨率(LR)输入具有相同的ERP格式,因此在将HR图像变换为其他投影类型时可能发生额外的信息丢失。在本文中,我们提出了SphereSR,一个新的框架,工作来产生一个连续的球面图像表示从LR 360RGB图像,与预测的RGB值在给定的球坐标的超分辨率与任意360RGB图像投影的目标。具体地说,首先,我们提出了一个特征提取模块,表示基于二十面体的球面数据,并有效地提取球面上的特征。然后,我们提出了一个球面局部隐式图像函数(SLIIF)来预测球坐标下的RGB值。因此,SphereSR灵活地重建给定任意投影类型的HR在多个基准数据集上的实验表明,该方法在性能上明显优于现有方法.1. 介绍360度全景成像最近在包括AR/VR领域在内的许多领域都受到了广泛关注。 一般来说,原始360度全景图像被变换成2D平面表示,同时保留全向信息,等矩形投影(ERP)和立方体映射投影(CP),以确保与成像管道的兼容性全向图像(ODI)1有时被投影* 王林现任职于香港科技大学。1在整个论文中,我们交替使用全向图像和360度全景图像。图1.学习连续球面图像表示。SphereSR利用SLIIF预测具有任意图像投影的SR在给定球坐标处的RGB值。返回到球体上,或者利用不同类型的投影进行变换并被渲染以用于在某些应用中显示。然 而 , 360nm 图 像 的 角 分 辨 率 往 往 低 于 窄 视 场(FOV)透视图像的角分辨率,因为它是使用具有相同传感器尺寸的鱼眼镜头捕获的。此外,在不同图像投影类型之间的变换期间,360° C因此,必须通过考虑各种投影来超分辨低分辨率(LR)360μ m早期研究试图通过在LR图像像素之间插入缺失数据来重建高分辨率(HR)ODI[3,5,25]。最 近 , 深 度 学 习 ( DL ) 为 2D 单 图 像 超 分 辨 率(SISR)带来了显着的性能提升[17,37,44]。这些方法主要使用高容量卷积神经网络(CNN)来探索超分辨率2D LR图像,例如,剩余连接[21]和学习算法,包括生成对抗网络(GAN)[18,40,41]。然而,直接将这些方法用于以2D平面表示表示的360mm图像不太适用,因为像素密度和纹理复杂度在360mm图像的2D平面表示中的不同位置上变化,如[10]中所指出的。5678因此,进行了几次尝试来解决与360° C成像相关的SR问题 [10,28,36,46]。特别是,360-SS [28]提出了一个使用Pix 2 Pix管道[14]的基于GAN的框架。但是,它只关注ERP格式,而没有充分考虑360位图的特性。LAU-Net [10]介绍了一种方法,用于识别纬度上的ODI失真,并对分割块上的ODI像素进行上采样。然而,这一过程导致相当大的断开沿补丁。简单地说,现有的ODI SR方法忽略了实际应用中360幅ERP图像的投影过程,而只将ERP图像作为LR输入,产生HR ERP输出。实际上,360° 全 景图像可以灵活地转换为各种投影类型,如在实际应用中,用户指定投影类型、方向和FOV。因此,解决ERP失真问题并努力将ODI图像超分辨为具有任意投影类型而不是固定类型的HR图像至关重要在本文中,如图1所示,我们提出了一种新的框架,称为SphereSR,其目标是通过连续的球面图像表示将LR 360球面图像超分辨为具有任意投影类型的HR图像。首先,我们提出了一个特征提取模块,它表示基于二十面体的球面数据,并有效地提取由均匀面组成的球面上的特征第3.1节)。因此,我们解决了ERP图像失真问题,并根据纬度解决像素密度差异。其次,我们提出了一个球面局部隐式图像函数(SLIIF),它可以预测球面特征图上任意坐标处的RGB值,其灵感来自LIIF [7](Sec. 3.2)。SLIIF适用于三角形面,通过基于法向平面极坐标的位置嵌入来获得球体上的相对坐标。因此,我们的方法解决像素错位的问题时,图像投影到另一个ODI projec-灰。因此,SphereSR可以预测任何SR比例参数的RGB值。此外,为了训练SphereSR,我们引入了一个特征损失来衡量两种投影类型之间的相似性,从而导致了相当大的性能增强(第二节)。3.3)。在各种基准数据集上的大量实验表明,我们的方法显着超越现有的方法。总之,本文的贡献有四个方面。(I)我们提出了一个新的框架,称为SphereSR,超分辨率LR 360的图像的HR图像与任意投影类型的目标。(II)提出了一种基于二十面体的球面数据表示和球面特征提取模块。(III)我们提出了SLIIF,它从球坐标预测RGB值。(IV)在大量的实验中,我们的方法取得了显着更好的性能2. 相关作品全方位图像SR和增强。早期的ODI SR方法[2,4,6,15,26]侧重于在球面或双曲曲面上组装和优化多个LRODI。另一方面,由于ODI中的失真是由于原始球面图像投影到2D平面图像平面上而产生的,所以最近的研究集中于使用2D卷积来处理和解决ODI中的失真,以在观察空间中实现定性结果,即, 球形表面。 Su等人[36]周等人[46]提出了用球面投影面积加权的ODI评价方法。另外两个作品[27,30]通过微调或通过添加失真图作为输入来处理不同的失真,将现有的SISR模型适应于ERP SR。Ozcinar等人[28]利用GAN通过应用WS-SSIM [46]来超解析ODI。Zhang等人[45]还提出了采用多频率结构的基于GAN的框架,以将全景图像质量提高到高端相机质量。Liu等[22]集中于利用单帧和多帧联合学习以及沿纬度不同加权的损失函数的360°Deng等[10]通过提出允许沿纬度带的不同放大因子的网络,考虑了沿纬度变化的像素密度和纹理复杂度。与上述方法不同,我们建议从LR 360RGB图像中相对于任意项目类型任意比例的2D SISR。对任意规模的SISR的研究一直在积极进行。Lim等人[21]首先提出了一种在一个网络上启用多个缩放因子的方法。MetaSR [13]实现了具有非整数比例因子的SR。然而,这两种方法都局限于对称尺度的SR。后来,Wanget al.[39]提出了一个框架,使不对称的比例因子沿水平和垂直轴。此外,SRWarp [34]将SR推广到任意图像变换。尽管这些方法对于具有任意比例因子的2D SISR是有效的,但是由于xy坐标(2D)和ODI域中的球坐标之间的差异,它们不能直接应用于360°图像SR我们克服了这一挑战,提出了SphereSR,它利用SLIIF预测RGB值的任意球坐标。连续图像表示。隐式神经表征(INR)的研究已经被进行以表达3D空间,例如,通过连续方式进行3D重建和新视图合成[23,24,32]。从那时起,连续图像表示已被探索的(x,y)坐标。一些研究使用网络从(x,y)坐标上的潜在向量预测每个像素的RGB值,而无需空间卷积来生成2D图像[1,33]。LIIF [7]建议在离散和连续之间架起桥梁5679×图2.提议的SphereSR的总体框架。0级5个球面图像,有效地从二十面体上的图像中提取特征(Sec. 第3.1节)。其次,我们提出了球面局部隐式图像函数(SLIIF),它通过提取的特征预测RGB值,以便灵活地重建具有任意投影类型的HR图像(第二节)。3.2)。最后,我们提出了一个特征损失,通过利 用 SLIIF 的 优 势 , 即 , 转 换 为 任 意 投 影 类 型(Sec.3.3)。3.1. 球面图像图3.一个二十面体的细分过程我们将像素定义为细分的二十面体的面。图像在(x,y)坐标上的OUS表示。我们提出了SLIIF,它使连续的图像表示的单位球。用于球面图像的CNN。Cohen等人[8]提出了一种基于CNN的方法,该方法在具有结构特征的球体上然而,它需要对每一步进行傅里叶变换。Coors等人[9]针对ERP图像的失真问题,提出了一种基于球面空间位置的 CNN 滤 波 器 。 Su 等 人 [35] 提 出 了 一 种 内 核Transformer网络,将透视图像上的预训练内核转换为ODI。SpherePHD [19]提出了一种适用于定义在二十面体表面上的三角形像素的卷积核。Zhang等人[43]使用适用于二十面体顶点的六边形滤波器在这项工作中,我们专注于ODI SR,并提出了SphereSR,它将卷积应用于通过细分二十面体创建的球形结构3. 方法概 况 . 如 图 2 所 示 , 我 们 提 出 了 一 种 新 的 框 架 ,SphereSR,其目标是从给定的二十面体输入中获得连续的球形图像表示首先,我们介绍了一种特征提取方法,特征提取对于球面图像SR是至关重要但又具有挑战性的,因为我们关注非常大的尺度因子,例如,十六岁在这种情况下,必须解决内存过载问题,同时确保高SR性能.因此,所提出的SphereSR表示基于二十面体的球面数据,并有效地提取由均匀面组成的球面上的特征。这是通过在二十面体上的新数据结构以及不同方向的核之间的权重共享来实现的。数据结构。受SpherePHD [19]中二十面体数据卷积的启发,我们提出了一种新的球面数据结构.为了实现卷积运算,SpherePHD [19]使用了图1中描述的二十面体的细分过程3,并为每个像素创建一个包含N个相邻像素的索引的调用表然后用大小为[N+1,1]的核执行卷积。然而,这种实现不是存储器高效的,因为它需要额外的N个通道来堆叠每个卷积操作的相邻像素。为了解决这个问题,我们提出了一种新的数据结构,通过这种结构,卷积运算可以直接应用,而无需在调用表中堆叠邻居。如图1左侧所示在图4中,我们在箭头的方向上重新排列原始数据,同时将三角形像素变换为矩形像素,使得可以应用常规的2D卷积5680△▽SS之前向上核在向下内核之后图4.新的内核权重共享。左:提出了新的数据结构,右:我们的内核权重共享方案这里,用于每个向上()排列的像素的向上核(红色核)被布置在奇数行中,并且用于每个向下()排列的像素的向下核(蓝色核)被布置在偶数行中。(更多详情见补充资料。)核权重共享。虽然内存过载问题可以通过所提出的数据 结 构 来 解 决 , 但 仍 然 需 要 确 保 高 SR 性 能 。SpherePHD [19]将每个向上或向下的内核旋转180度,以获得相同的内核形状。因此,可以共享方向和形状彼此对称的上/下核的权重。然而,由于核权重的方向对于相邻像素改变,如果需要识别根据方向的纹理的特性,则不能确保高性能。为了解决这个问题,我们引入了一种称为GA-Conv的内核权重共享方案,该方案在几何上对齐向上/向下方向的内核而不旋转。如图4的右侧所示,两个内核的像素(面)组合,其中向上/向下内核是api。图5.球面局部隐式像函数。3.2. 球面局部隐式像函数SLIIF的整个过程。随着数据的有效表示,我们现在描述用于在任意尺度上有效地超分辨ODI的方法。我们的主要思想是预测的RGB值为单位球面S2上的任意坐标使用的特征映射提取的GA- Conv的手段,如第二节所述。第3.1条受LIIF [7]的启发,我们提出了SLIIF,它使用二十面体面学习S2SLIIF采用单位球面上点的球面坐标及其相邻特征向量作为输入,并预测RGB值。它可以被公式化为:I(s)=fdec(z,s),s∈S2(1)其中fdec是与所有二十面体面共享的解码函数,s是单位球面S2上的点,z表示通过连接s的相邻特征向量而形成的特征向量,并且I(s)是s的预测RGB值。对于可以由单位球面的任意投影形成的图像中的像素,在单位球面S2上存在对应的点s。2、面部包含s记为fs,包围fs的三个顶点表示为v1,v2和v3(见图1)。(五)。rgb值根据不同的方向s s s中心像素。然而,如果中心像素的三个顶点(由右侧的红点和蓝点表示)在像素组合中作为图像像素包括两个不同的上/下像素组合的形状时,可以使两个不同的上/下像素组合的形状在几何上相同。为此,而不是平均和创建虚构的像素,我们分布的内核权重附近的像素。对于向上核,图像像素权重w3、w9和w10被分布到除了中心像素之外的最近的四个像素。向下核权重w4、w5和w11以相同的方式分布。细节在图4的右侧呈现。以这种方式,特征提取模块可以应用于任何像素而不旋转。sw.r.t. 三个顶点的坐标系是首先计算,然后基于三角形区域A1、A2和A3进行合成,以获得点s的最终RGB值。 s的RGB值w.r.t.每个顶点vj是用包含顶点和相对极坐标的六个面的特征计算。六个面的特征从fs开始顺时针连接以保持几何一致性。这里,我们将级联特征表示为zj,并且将s相对于vj的极坐标表示为(rj,θj)。 为了更好地利用位置 信 息 , 用 γ ( p ) =( sin ( 20πp ) , cos ( 20πp),.,sin(2L−1πp),cos(2L−1πp))2通过使用像素的中心点计算s的坐标联系我们联系我们公司简介公司简介公司简介公司简介公司简介联系我们+公司简介公司简介+联系我们联系我们联系我们公司简介公司简介GA-Conv联系我们公司简介公司简介公司简介公司简介公司简介联系我们56813J3图6.面向球体的细胞解码。为了扩展相对坐标的维度,如 [24、38]。 因此,我们可以预测RGB点(θ,θ)的值∈S2,可以表示为图7.球形和ERP特征之间的拟议特征丢失。−→−→如下所示:I(θ,θ)=<$A·f(z,[γ(r),γ(θ)])(2)12月j j j轴向量,n1和n2,不变的脸的方向。单位向量−n→1被定义为参考向量x和面心之间的向量,单位向量−n→2被定义为参考向量x和面心之间的向量。由逆时针旋转90度定义,一j=1−n→1。根据这个坐标确定高度和宽度当图像中的像素对应于S2上的顶点时,我们仍然可以利用上述过程,因为由于基于三角形面积的加权,相邻顶点的任何选择都会导致相同的面向球体的细胞解码。通过SLIIF,我们可以预测S2上任意点的RGB值.也就是说,我们可以通过预测每个像素的RGB值来为任何投影类型生成所需的HR图像。然而,SLIIF仅为像素的中心提供RGB值,并丢弃像素内的信息。nate系统,我们近似的球面细胞轴对齐的矩形。近似的球形单元被定义为矩形,其可以使用tw o矢量−k−x−→eq,k−y−→eq,其面积与在球面单元内具有最大相交面积的球面单元。基于近似的矩形球体单元,我们最终将面向球体的单元解码值公式化为如下所示:.-→x−x−→等式x=。cx−n→1π(3)像素区域,除了中心值。为了解决这个问题LIIF [7]将单元解码值定义为感兴趣的查询像素的宽度和高度。 然而,这一Def-−n→y⇒−y−→eq.|−x−→eq|1cy−n→2|中国(4)|Σ(4)不能直接应用于球体,因为核心-球体上的响应区域没有矩形,c= [cx,cy]=|、|,|−n→2|最大形状和参考顶点的方向,其中RGB值最初计算,不断变化。因此,我们提出了面向球体的细胞解码,一种方法,考虑到投影输出上的像素区域和S2上的相应区域之间的关系。通过将单元解码值作为输入添加到SLIIF,我们可以充分利用像素区域内的信息因此,我们可以预测RGB值I(X,Y),投影平面上的任何点基于以下等式,I(X,Y)=I(θ,θ,c)=<$Aj·f(z,[γ(r),γ(θ)],[c,c])(5)如图6所示,我们的目标是获得投影平面上矩形像素的RGB值。我们称之为-一j=112月j日jx y角像素是平面单元,可以用两个矢量−X−→X,−X−→Y表示。球体单元格,对应的球面上平面单元的面积,位于其中像素中心的对应点位于球面上。球体单元也可以使用t w o向量−ω→x,−ω→y。−→X,−→Y之间的关系和−θ→x,−θ→y取决于投影类型和位置,像素中心(详见补充资料)。为了级联特征的顺序、s的相对坐标和像素之间的单元解码值的几何一致性,我们需要定义新的56823.3. 损失函数我们使用两个损失项来训练所提出的框架。首先,我们使用多尺度L1损失。通过在多个尺度上定义L1损失,我们的框架可以更多地了解各种相对坐标和单元解码值。其次,我们设计了一个特征丢失模块来度量从球体和其他投影类型中提取的特征之间的相似性。如图7所示,我们根据ERP或立方体映射特征设计了一个特征掩码。 面具的空间部分从预测的SR5683××××N×××××××1表1.ODI-SR和SUN 360全景数据集上的ERP SR结果粗体表示最佳结果。规模X8X16方法ODI-SRSUN 360全景ODI-SRSUN 360全景WS-PSNRWS-SSIMWS-PSNRWS-SSIMWS-PSNRWS-SSIMWS-PSNRWS-SSIM双三19.640.590819.720.540317.120.433217.560.4638SRCNN [11]20.080.611219.460.570118.080.450117.950.4684VDSR [16]20.610.619519.930.595318.240.499618.210.4867[17]第十七话20.720.621420.050.599818.450.516118.460.5068MemNet [37]21.730.628421.080.601520.030.541119.880.5401MSRN [20]22.290.631521.340.600220.050.541619.870.5316EDSR [21]23.970.641722.460.634121.120.569821.060.5645D-DBPN [12]24.150.657323.700.642121.250.571421.080.5646RCAN [44]24.260.662823.880.654221.940.582421.740.5742EBRN [29]24.290.665623.890.659821.860.580921.780.5794[28]第二十八话21.650.641721.480.635219.650.543119.620.5308LAU-网络[10]24.360.680124.020.670822.070.590121.820.5824SphereSR(我们的)24.370.677724.170.682022.510.637021.950.6342ODI和HR地面真相。掩模的通道部分通过通道全局平均池化从特征生成通过这种方式,我们获得了一个高精度的特征掩模,强调了相关部分此外,通过SLIIF特征转换模块将球形特征转换为其他投影类型的形状。最后,减去并掩蔽转换后的特征以公式化特征损失Lfeat。损失总额如下:在ODI-SR和SUN 360全景数据集上对8和16 SR进行了比较如图所示,除了在ODI-SR数据集上的8 SR情况外,SphereSR在两个数据集上的性能优于所有其他方法然而,对于16 SR,在ODI-SR和SUN 360全景数据集上,与LAU-Net相比,SphereSR在WS-PSNR和WS-SSIM方面表现出更好的性能。定性比较。 图8显示了一个Loss=Iest−Igt1+λLfeat(6)ODI-SR数据集上×8SR图像的视觉比较N4. 实验JJj=1如图所示,SphereSR可以重建清晰的纹理,更精确的结构,而在这种情况下比较的其他方法通过这种视觉对比,我们4.1. 数据集和实现我们使用ODI-SR数据集[10]和SUN 360全景数据集[42]来训练和测试SphereSR。对于训练,使用800个ODI-SR训练图像中的750个,剩余的50个图像用于验证。为了进行测试,我们使用了来自ODI-SR测试数据集的100张图像和来自SUN 360全景数据集的另外100张图像HR ODI的分辨率为1024 - 2048,并针对8和16的量表进行培训。 如图3所示,SphereSR将二十面体上的图像作为从LR ODI转换的输入,并且将尺度为8和16的二十面体细分级别分别设置为5和6。(更多详情见补充资料。)4.2. 企业资源规划评价我们使用ODI-SR和SUN 360 Panorama数据集进行评估。我们将SphereSR与9个2D SISR模型进行了比较,包括SRCNN [11],VDSR [16],LapSRN [17],[20],[21],[22],[23],[24],[25],[26]RCAN [44]、EBRN [29]和ODI-SR的2个模型,即,360-SS [28]和LAU-Net [10]。我们使用WS-PSNR [46]和WS-SSIM [46]作为评估指标。定量结果。 表1显示了定量结果。可以得出结论,SphereSR比ERP网络更准确地产生重复图案的纹理。4.3. 其他投影类型在本节中,我们将验证使用ODI-SR数据集上的ERP图像训练的SphereSR是否可以在任何投影类型下表现良好。首先,我们进行了一个实验,涉及到一个FOV90°的透视图像的大小为512 512转换。然后,我们进行了另一个实验,转换为FOV 180× 1024的鱼眼图像大小1024 × 1024。此外,我们使用圆形鱼眼投影,几种类型的鱼眼投影之一。为了与其他SR模型进行比较,我们使用双三次插值来转换为所需的投影类型。ERP GT图像也使用二立方法插值到所需的投影类型,用于性能评估。我们使用PSNR和SSIM作为评价指标。请注意,我们选择五个随机方向,生成适合相应方向的投影输出,并计算PSNR和SSIM的平均值。透 视 图 。 表 2 显 示 了 透 视 图 像 SR 的 定 量 结 果 。SphereSR再次在ODI-SR和SUN 360数据集上实现了最佳性能。LAU-Net [10]实现了26.39dB5684图8.ODI-SR数据集上不同方法的x8 SR结果的视觉比较图9. ODI-SR数据集上透视图像x8 SR的视觉比较。图10.ODI-SR数据集上鱼眼图像x8 SR的视觉比较24.33dB。相比之下,我们的方法显着超过LAU-Net,并在两个数据集上分别实现了26.76dB和24.46dB的最高PSNR值。此外,当去除SphereSR中的SLIIF分量时,相应的PSNR值下降了0.1dB和0.14dB。在图9中,我 们 显 示 了 带 SLIIF 的 SphereSR 、 不 带 SLIIF 的SphereSR、RCAN [44]和LAU-Net [10]之间的视觉比较。如图所示,SphereSR重建清晰的直线和纹理比其他RCAN(b)和LAU-Net(c)方法更好此外,作为SLIIF的使用的比较(d,e),当不使用SLIIF(d)时产生三角形伪影,但是可以确认当使用SLIIF(e)时产生清晰的直线。鱼眼表2示出了鱼眼图像SR的定量结果。可以看出,就ODI-SR和SUN 360全景数据集上的PSNR和SSIM值而言,SphereSR具有最高的性能。在用于2D SISR的方法中,RCAN在ODI-SR数据集上实现了第二高的PSNR值24.40dB。在SUN 360全景数据集上,LAU-Net实现了24.97dB的第二高PSNR我们的方法的结果在最高的PSNR和SSIM值,表现出最好的SR性能。图10,我们显 示 了 具 有 SLIIF 的 SphereSR 、 不 具 有 SLIIF 的SphereSR、 RCAN [44]和LAU-Net [10]之间的视觉比较具体而言,我们裁剪该区域以查看南极的SR结果。如图所示,RCAN(b)和LAU-Net(c)生成了不适当的纹理,其中有几条线冲向南极。另一方面,SphereSR(w/o SLIIF)(d)和Sphere SR(w/ SLIIF)(e)不会遇到这样的问题。此外,在(e)的情况下,它消除了(d)中产生的三角形伪影。4.4. 消融研究和分析在本节中,我们研究了我们提出的每个模块的有效性,例如,GA-Conv、SLIIF和特征丢失。此外,我们使用建议的数据结构和使用SpherePHD [19]验证CNN操作期间的内存负载。GA-Conv. 我们比较了表3中模型1和模型3在添加或删除GA-Conv时的结果。在特征提取模块中使用GA-Conv如果不使用GA-Conv,则使用由SpherePHD [19]提出的内核权重共享,该内核每个内核旋转180度。表3显示使用GA-Conv将PSNR分数提高0。14 dB和0.ODI-SR和SUN 360全景数据集上的12dB对于×8SR,SLIIF。SphereSR使用SLIIF通过球体上呈现的特征向量来呈现ERP投影类型的SR结果。与早期的方法[31]相同,我们实现了一种能够在没有SLIIF的二十面体上执行SR的像素重排算法,当使用像素重排步骤时,最后一个特征图被比例因子倍数细分,之后,5685表2.ODI-SR和SUN 360全景数据集上的透视和鱼眼SR结果粗体表示最佳结果。投影型透视鱼眼FOV90180方法ODI-SRSUN 360全景ODI-SRSUN 360全景PSNRSSIMPSNRSSIMPSNRSSIMPSNRSSIM双三25.400.685823.490.651623.270.711722.750.7157SRCNN [11](+Bicubic)26.040.700523.980.665423.920.724623.470.7295[21]第二十一话26.530.719224.910.691624.210.732323.980.7452D-DBPN [12](+Bicubic)26.590.713924.630.683624.390.730824.020.7401[44]第四十四话:26.700.719124.810.690124.400.734824.080.7452360-SS(+Bicubic)23.280.652821.950.620522.000.695721.610.6962LAU-网络[10](+双三次)26.390.719724.720.694324.330.734624.970.7727Sphere SR(不含SLIIF)(+双立方)26.660.717624.830.693024.320.734525.000.7477SphereSR(我们的)26.760.720824.970.696224.460.739325.140.7780表3.在ODI-SR和SUN 360全景数据集上对×8和×16 SR的 ERP SR进行消融研究规模组件X8X16模型GA-Conv SLIIF特征损失ODI-SRSUN 360全景ODI-SRSUN 360全景WS-PSNR WS-SSIM WS-PSNR WS-SSIM WS-PSNR WS-SSIM WS-PSNR WS-SSIM1X✓X24.200.668823.980.671922.440.634121.920.63182✓XX24.310.673124.070.674922.470.633521.920.62943✓✓X24.340.676524.100.681622.470.636421.930.63364✓✓✓24.370.677724.170.682022.510.637021.950.6342表4. SpherePHD和建议的数据结构之间的激活内存的比较SpherePhD和我们的网络架构具有相同数量的卷积层(16)和隐藏特征维度(32)。水平4567SpherePHD(MB)6601896671426032新数据结构(MB)37472421387450最终ERP输出通过双三次插值得到。如表3中的模型2和3所示,使用SLIIF进行连续图像呈现可实现更高的性能(24.34dB vs.24.31dB),比像素混洗方法对× 8SR的二十面体进行剖分。特征丢失。我们提出了一个特征损失,通过使用从其他投影类型生成的特征进行特征掩模来测量关键区域的特征相似性为了确认特征丢失的有效性,我们比较了添加和删除此丢失时的表3中的模型3和4显示了消融结果。结果的性能比较表明,在×8和×16 SR情况下,所有指标的性能都有所改善。数据表示效率。节中3.1,我们指出,CNN实现的SpherePHD是不是有效的SR。因此,我们提出了一个新的数据结构来解决这个问题。为了确定新数据结构的效率,我们实现了一个简单的CNN模型,然后进行了一个实验来比较激活记忆。CNN模型是一个简单的结构,其中卷积层堆叠;卷积层的数量设置为16,隐藏特征维度设置为32。表. 图4示出了从输入水平4到输入水平7的实验。示在表中,GA-Conv中的新数据结构具有低得多的激活存储器水平。此外,还发现随着输入电平的增加,使用新数据结构内存的比例下降到SpherePHD。在此基础上,所提出的数据结构被证明是更有效的内存相比,SpherePHD。此外,效率随着输入分辨率的增加而增加。5. 结论在本文中,我们提出了一种新的框架,SphereSR,它产生一个连续的球形图像表示从LR 360的图像。SphereSR预测对应于任意项目类型的HR图像的给定球坐标处的RGB值首先,我们提出了几何对齐的卷积来表示球数据有效,然后我们提出了SLIIF提取RGB值的球坐标。因此,SphereSR灵活地重建了具有任意投影类型和SR比例因子的HR图像在各种基准数据集上的实验表明,我们的方法显着优于现有的方法。限制和未来的工作。我们专注于寻找一种有效的数据结构和核权重共享方法,以基于GA-Conv(Sec. 第3.1节)。因此,未来的研究将需要使用ODI与透视图像相比的属性来改进网络架构,然后我们可以通过SLIIF实现更好的SR结果。谢谢。这工作是支持由韩国政府(MSIT)资助的韩国国家研究基金会(NRF)资助(NRF-2022R1 A2 B5 B 03002636)。5686引用[1] Ivan Anokhin 、 Kirill Demochkin 、 Taras Khakhulin 、Gleb Sterkin、Victor Lempitsky和Denis Korzhenkov。具有条件独立像素合成的图像生成器。在IEEE/CVF计算机视觉和模式识别会议(CVPR),2021年。2[2] Zafer Arican和Pascal Frossard。L1正则化超分辨率从未注册的全向图像。第829-832页,2009年。2[3] Zafer Arican和Pascal Frossard。联合登记和全方位图像的超分辨率。IEEE Trans-actions on ImageProcessing,20(11):3151-3162,2011. 1[4] Zafer Arican和Pascal Frossard。联合登记和全方位图像的超分辨率。第20卷,第3151-3162页,2011年。2[5] Luigi Bagnato 、 Yannick Boursier 、 Pascal Frossard 和Pierre范德海恩斯基于全光的全方位图像序列超分辨率。2010年IEEE图像处理国际会议,第2829-2832页。IEEE,2010。1[6] Luigi Bagnato 、 Yannick Boursier 、 Pascal Frossard 和Pierre范德海恩斯基于全光的全方位图像序列超分辨率。第2829-2832页,2010年。2[7] Yinbo Chen,Sifei Liu,and Xiaolong Wang. 学习控制具有局部隐式图像函数的连续图像表示在IEEE/CVF计算机视觉和模式识别会议论文集,第8628-8638页,2021年。二、四、五[8] T.S.科恩,M。Geiger,J. Khler,and M.威林球形CNNS。在国际会议上学习代表,第4302-4311页,2018年。3[9] Benjamin Coors、Alexandru Paul Condurache和Andreas盖革Spherenet:学习球面表示,用于全向图像的检测和分类。在欧洲计算机视觉会议(ECCV)的会议记录中,第518-533页,2018年。3[10] Xin Deng,Hao Wang,Mai Xu,Yichen Guo,YuhangSong,还有李阳。Lau-net:用于全向图像超分辨率的纬度自适应放大网络。在IEEE/CVF计算机视觉和模式识别会议论文集,第9189-9198页,2021年。一二六七八[11] Chao Dong , Chen Change Loy , Kaiming He , andXiaoou唐 使 用 深 度 卷 积 网 络 的 图 像 超 分 辨 率 。 在 IEEETransactionsonPatternAnalysisandMachineIntelligence,第38卷,第295-307页,2016中。六、八[12] 穆罕默德·哈里斯,格雷格·沙赫纳罗维奇,关于Norimichi浮田用于超分辨率的深反投影网络。在IEEE计算机视觉和模式识别会议,2018年。六、八[13] 胡学才,穆浩元,张翔宇,王自磊,铁-牛坦和孙坚。Meta-sr:一种用于超分辨率的放大任意网络。在IEEE计算机视觉和模式识别会议上,2019年。2[14] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei A埃夫罗斯使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议论文集,第1125-1134页,2017年。2[15] Hiroshi Kawasaki,Katsushi Ikeuchi,and Masao Sakauchi.使用时空分析的超分辨率全向相机图像。第89卷,第47-59页2[16] Jiwon Kim,Jung Kwon Lee,and Kyoung Mu Lee.使用非常深的卷积网络实现精确的图像超分辨率。2016年IEEE计算机视觉和模式识别会议(CVPR),第1646-1654页,2016年。6[17] 赖伟胜、黄家斌、纳伦德拉·阿胡贾、明宣阳。 深拉普拉斯金字塔网络实现快速和精确的超分辨 率 。 2017 年 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),第5835-5843页1、6[18] 克里斯田·莱迪格,卢卡斯·泰斯,费伦茨·胡斯·扎尔,乔斯·卡瓦列罗,Andrew Cunningham , Alejandro Acosta , AndrewAitken,Alykhan Tejani,Johannes Totz,Zehan Wang,et al.使用生成式广告网络的照片真实感单图像超分辨率在IEEE计算机视觉和模式识别会议论文集,第4681-4690页1[19] Yeonkun Lee,Jaeseok Jeong,Jongseob Yun,WonjuneCho,还有尹国珍Spherephd:将cnn应用于具有非欧几里德球面 多 面 体 表 示 的 360° 图 像 。 在 IEEE Transactions onPattern Analysis and Machine Intelligence,2020。三、四、七[20]Juncheng Li,Faming Fang,Kangfu Mei,and GuixuZhang.多尺度残差网络在图像超分辨率中的应用。在ECCV,2018年。6[21] Bee Lim , Sanghyun Son , Heewon Kim , SeungjunNah,and Kyoung Mu
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功