没有合适的资源?快使用搜索试试~ 我知道了~
12426用于减轻球面失真Marc Eder,Mykhailo Shvets,John Lim和Jan-Michael Frahm北卡罗来纳大学教堂山分校Chapel Hill,NC{meder,mshvets,jlim13,jmf}@ cs.unc.edu摘要在这项工作中,我们提出了受汽车摄影和计算机图形学技术的启发,我们绘制了一个球形图像,年龄到一组失真减轻的局部平面图像网格,该网格与细分的二十面体相切。通过独立于细分级别改变这些网格的分辨率,我们可以有效地表示高分辨率球面图像,同时仍然受益于低失真二十面体球面近似。我们表明,在切线图像上训练标准卷积神经网络与许多已开发的专用球形卷积核相比,具有优势,同时还可以有效地扩展以处理更高的球形分辨率。此外,由于我们的方法不需要专门的内核,我们证明了我们可以将在透视图像上训练的网络转换为球形数据,而无需进行微调,并且性能下降有限。最后,我们证明了切线图像可以用来提高球形图像上稀疏特征检测的质量,说明了它对传统计算机视觉任务(如运动恢复结构和SLAM)的有用性。1. 介绍已经提出了许多方法来解决球面图像上的卷积。这些技术在设计上各不相同,包括可学习的变换[25,26],卷积运算的推广和修改[8,9,11,27],以及用于球面表示的专用内核[7,16,29]。通常,这些球面卷积分为两类:那些在等角投影上操作的和那些在球体的细分二十面体表示上操作的。后者已被证明可以显着减轻球面失真,这导致密集预测任务的显着改进[10,11,18]。它还具有一个有用的特性,即二十面体一级二十面体切线图像内部视图图1:使用切线图像表示4k地球图像[13]。TL:一个基本的1级二十面体。TR:选择从地球图像渲染的切线图像。B:球面近似切线图像的内部视图。每个细分,允许一个简单的类比2×上采样和下采样操作在标准卷积,函数神经网络(CNN)。由于细分二十面体表示提供的性能改进,我们在本文中专门关注它。尽管对这些二十面体回旋的研究越来越多,但进一步发展存在两个重大障碍:(1)标准CNN到二十面体上的球形数据的可转移性,以及(2)将所提出的球形卷积运算缩放到高分辨率球形图像的困难。先前的工作已经暗示[7,11]或证明[9,27,29]在透视图像上训练的网络可转移到不同的球面12427表示。然而,那些报告结果的人看到,与CNN在透视图像上的性能和在球形数据上原生训练的专用网络相比,准确性明显下降,这使得这种重要和期望的行为成为一个未解决的问题。此外,所提出的专用卷积核要么需要后续的网络调整[7,29],要么与标准卷积不兼容[16]。几乎所有关于二十面体卷积的先前工作都建立在像素和面之间的类比上[7,18]或像素和顶点之间的类比[11,16,29]。虽然表面上看起来很优雅图2描述了在先前工作中评估的球面图像分辨率。请注意,到目前为止获得的最高分辨率是8级细分,这相当于512×1024等矩形图像。从表面上看,这种像素分辨率似乎是合理的,高,但每像素的角分辨率仍然很低。 512 × 1024的等矩形图像的角分辨率为0。三百五十二度。作为比较,具有45μ m×60μ m视场(FOV)的VGA分辨率(480 ×640)透视图像的角分辨率为0。094度。这是最类似于一个2048×4096等矩形图像,具有角度分辨率为0。并且对应于10级细分的二十面体。 由于这是一个非常高的分辨率,比以前的工作已经能够证明,这是我们测试我们提出的方法的分辨率。在这项工作中,我们的目标是同时解决可转移性和可扩展性,同时利用高效的实施前,可扩展网络架构和操作。为此,我们提出了一种解决方案,从细分级使用定向,失真减轻的图像,可以过滤与标准的网格卷积操作的分辨率。使用这些切线图像,标准CNN性能与专业网络竞争,但它们有效地扩展到高分辨率球形数据,并为透视和球形数据之间的性能保持网络传输打开了大门。此外,标准卷积运算的使用允许我们利用高度优化的卷积实现,例如来自cuDNN库[5]的卷积实现此外,切线图像的好处不仅限于深度学习,因为它们通过数据表示而不是数据处理工具来解决失真问题。这意味着我们的方法也可以用于传统的视觉应用,如运动恢复结构和SLAM我们将我们的贡献总结如下:□ 我们提出切像球面表示:与二十面体的面相切呈现的一组定向的低失真图像。□ 我们表明,在切线图像上训练的标准CNN与专门的球形卷积核有竞争力,同时也有效地扩展到高分辨率球面图像。□ 我们证明了切线图像有利于透视和球面图像之间的网络传输,无需微调和最小的性能下降。□ 我们通过使用切线图像来改进球面图像上的稀疏关键点匹配来说明切线图像在传统计算机视觉任务2. 相关工作最近,已经有一些努力来缩小CNN在透视图像和球面图像上的性能之间的差距。这些努力可以基于所使用的球形图像表示自然地2.1. 等距柱状图像由于直角坐标和球坐标之间的简单关系,等矩形图像是流行的球面图像表示。然而,它们会导致严重的图像失真。已经提出了一些方法来解决这个问题。Su和Grauman [25]开发了一个可学习的自适应内核来训练CNN,以将在透视图像上训练的模型转移到等矩形域。Su等人[26]通过开发一个内核来扩展这个想法,该内核可以根据局部失真特性学习变换特征图。Cohen等人[8,6]开发球面卷积,它提供了球面上卷积所需的旋转等方差。然而,这种方法需要一个专门的内核,Coorset al的作品[9] Tatenoet al. [27]通过以位置相关的方式扭曲平面卷积核来解决等矩形图像失真。由于等矩形表示是如此高度扭曲,因此关于该主题的最新工作已经寻求利用二十面体球面近似的扭曲减少特性。2.2. 二十面体表示将球形图像表示为细分的二十面体减轻了球形失真,从而与在等直角图像上操作的技术相比提高了CNN准确性。Eder和Frahm [10]使用地图学领域的分析来激发这种表示。对这种表示的进一步研究主要集中在开发新的核设计,以处理二十面体流形上的离散化和方向挑战。Lee等[18]通过定义新的、依赖于方向的核来对该表示进行卷积,以从二十面体的三角形面采样。Jiang等[16]将卷积核重新参数化为二十面网格表面上的微分算子Zhang等人[29]提出一种适用于124280级[12顶点,20张脸]90μ m/pixel[2×4像素]1级[42顶点,80张脸]45μ m/pixel[4×8像素]5级[10 242个顶点,20,480张面孔]二、812/像素[64×128像素][7、16]7级[163 842个顶点,327,680张面孔]0的情况。703μm/像素[256×512像素][10、11、18]8级[655 362个顶点,一百三十一万零七百二十张脸]0的情况。352像素[512×1024像素][29日]10级[10 485,762个顶点,20,971,510张面孔]0的情况。088μm/pixel[2048×4096像素][我们的]图2:展示了元素的数量,相应的等矩形图像尺寸,以及各种二十面体细分级别的角像素分辨率。下面的引文表示在这些论文中检查的最大分辨率除了我们的,它们都受到像素到面或像素到顶点类比的限制。99.098.598.097.597.096.50的情况。00。10.20304050.0 0.1 0.2 0.3 0.4 0.5K1功能性。图3中的图表显示了CNN性能显著下降在最流行的球面图像表示中,等距矩形图像和立方体映射的失真是相当显著的[10],因此导致甚至更差的性能。虽然我们通常可以使用Brown-Conrady畸变模型[2]等工具来消除透视图像中的大多数镜头畸变,但球面畸变是不可避免的。这是从高斯的定理Egregium,其结果是,球面表面是不等距的一个平面。因此,将球形图像表示为平面图像的任何努力都将导致某种程度的失真。因此,我们的目标,图3:通过改变Brown-Conrady径向失真模型的K 1参数,将枕形失真添加到测试图像中,MNIST分类精度会降低[2]。示出了不同失真水平下的示例数字。二十面体网上的一种特殊的六边形卷积Co- hen等。[7]预先计算覆盖二十面体网格的不同方向的图表图集,并使用掩蔽的核以及Eder等人[11]定义通过这种方式,它们指定过滤器的方向并从二十面体表面采样。我们的切线图像表示通过确保所有切线图像在渲染时一致地定向来解决数据定向问题,并通过渲染到图像像素网格来规避离散化问题3. 减轻球面失真图像失真是我们不能简单地将许多最先进的CNN应用于球形数据的原因。失真改变了图像的表示,导致局部内容变形,违反了平移等效性,这是卷积所需信号的关键属性几千年来,制图师们只限于寻找一个最佳的平面表示的球体为我们的用例。3.1. 二十面体球体考虑用经典的穷举法来近似一个内接正多边形的圆。由此可见,在三维空间中,我们可以用同样的方法来近似一个球体。因此,平面球面近似的选择应该是具有最多面的凸柏拉图立体:二十面体二十面体被制图师用来表示地球,至少早在巴克·富勒最近在计算机视觉方面的工作[7,10,11,18,16,29]已经证明了形状虽然改进了单平面图像投影及其柏拉图立体表亲立方体,但20面二十面体本身在其失真减轻特性方面仍然有限。它可以通过重复应用Loop细分[21]来细分面并插值顶点来改进,从而产生越来越接近的球面近似,同时减少每个面上的局部扭曲量。图4演示了失真精度124291.000.950.900.850.80基准面+2基准面+30 1 2 3 4 5 6 7 8 9 10细分级别图4:在每个细分级别上,细分的二十面体的表面积与相同半径的球体的表面积之比。该全局度量证明了细分曲面与球体的接近程度,并从已建立的制图度量中绘制[17]。注意第三个细分级别后的水平。在每个细分级别上都有所下降然而,并非所有先前的工作效率和代表性之间在很大程度上存在着权衡。Cohenet al. [7]和张等人使用的网。[29]由于它们的平面图像表示是有效的,但是它们限于0级二十面体的失真特性。另一方面,Eder等人提出的映射卷积。[11]对网格本身进行操作,因此可以从更高级别的细分中受益,但是由于在计算网格上的中间特征时的高速缓存一致性问题,它不能很好地扩展到更高级别的Jiang等[16]在网格上提供有效的性能,但通过用微分算子近似卷积来实现,这意味着现有的网络不能被转移。值得注意的是,目前许多深度学习任务的最佳执行方法[29]使用0级二十面体的网络。这表明,广泛的细分可能不是所有用例所必需的。用于处理球形图像的实用方法必须解决有效的可扩展性问题,但也应该允许传输为透视图像设计的经过它们还应该提供根据应用调节可接受失真水平的机会。为了解决这些约束,我们提出打破细分级别和球面图像分辨率的耦合,通过将球面图像表示为具有可调分辨率和失真特性的图像集合。3.2. 切线图像从减少失真的角度来看,细分二十面体提供了相当快的减小返回,如图4中的红色垂直线所示。然而,现有的方法必须继续细分,以匹配球面图像分辨率的网格元素的数量。我们通过确定细分的基准水平b来确定可接受的细分水平,从而消除这些考虑因素。基础等级+4基础等级+5图5:说明切线图像分辨率如何在不更改底层细分级别的情况下增加。切线像素网格的视场保持不变,但其分辨率在每个维度上增加了2倍,这由代表球体上像素样本的蓝点证明这种缩放保持较高级别的二十面体的角像素分辨率,而无需额外的细分。失真的程度,然后将球形图像渲染为正方形、定向的平面像素网格,该网格在该基准级别与每个面相切。这些切线图像的分辨率随后由球面输入的分辨率确定。给定对应于球面输入分辨率的细分级别s,切线图像的维度d由以下关系式给出:d=2s-b(1)这种设计保留了通过进一步细分而发生的相同分辨率缩放,而不是增加切线图像的分辨率。这种关系在图5中示出。我们的切线图像的动机在相关领域的现有用低失真平面区域来近似球体的截面类似于通用横轴墨卡托(UTM)大地坐标系,该坐标系将地球划分为许多近似欧几里德区域。此外,由于切线图像可以被认为是将球形网格渲染为一组四边形纹理,因此高分辨率的好处类似于Ptex [4],Ptex [4 ]是一种计算机图形技术,通过为3D网格的每个四边形提供其自己的纹理贴图来实现高效的高分辨率纹理。图1中提供了切线图像概念的可视化。计算切线图像切线图像是球面数据到定向的正方形平面上的日心投影,正方形平面以水平b细分二十面体的每个面为中心。 切线图像的数量N,由基准面二十面体的面确定N=20(4b),而它们的空间范围是表面积比12430b − 1级二十面体的顶点分辨率R v(b − 1)和图像网格的分辨率,由等式(1)给出。 设(φf,λf)为球坐标系下二十面体三角面的重心。然后,我们在球坐标系中计算平面的边界,作为在中心纬度和经度的逆日心投影点的tude(φf,λf)方法滤波器Acc.Cohen等人[八]《中国日报》Esteves等[12]Jianget al. [16个]球面相关光谱参数化网格转换百分之八十五88.9%百分之九十点五我们2D卷积百分之八十九点一表1:ModelNet40数据集的分类结果[28]。没有任何专门的卷积运算,我们的方法是.Σ。d−1φ±R(b − 1)×λΣd−1±R(b −1)与现有技术的球面卷积方法竞争f2dvf2dv(二)数据集[28]使用Cohen等人[8]的一项建议。 因为数据密集地涵盖了整个研究了一个二阶二十面体S(b)的顶点分辨率Rv,计算为所有顶点之间的平均角度v,以及其邻居,adj(v):球形,不像球形MNIST,它是稀疏的,只投射在一个半球上,我们相信这个任务是更一般的分类性能的指示。R(b)= 1v| S(b)|(v,w)(三)|adj(v)|实验设置我们使用Jiang等人的网络架构。[16]但是我们替换了专门的内核,v∈S(b)w∈adj(v)使用Rv(b−1)可确保切线图像完全覆盖其相关的三角形面。 由于顶点分辨率在每个后续细分级别上大致减半,我们定义R v(−1)= 2R v(0)。使用切线图像切线图像需要渲染-从球体到球体只需要一次。 首先,我们创造通过渲染到由等式(2)定义的平面而设置的切线图像。然后,我们应用期望的透视图像算法(例如,CNN或关键点检测器)。最后,我们计算每个平面上的区域可见的一个球形摄像机在中心的二十面体和渲染算法输出回球体。我们已经发布了切线图像渲染代码和相关实验作为PyTorch扩展1。4. 实验先前的研究已经建立了一套通用的实验,这些实验已经成为球面卷积新研究的测试平台。该集合通常包括球形MNIST分类[8,7,16,18,29]、形状分类[8,12,16]、气候模式分割[7,16,29],和语义段-[7,16,18,27,29]。为了对这些以前的作品进行基准测试此外,我们还展示了我们的方法 最后,为了展示切线图像表示的多功能性,我们引入了一个新的基准,球面图像上的稀疏关键点检测,并将我们的表示与等矩形图像基线进行比较。4.1. 分类我们首先评估我们提出的方法的形状分类任务。与之前的工作一样,我们使用ModelNet401https://github.com/meder411/Tangent-Images简单的3×3二维卷积。向前传球包括分别在每个补丁上运行卷积块并且随后利用平均池化来聚集块特征。我们在5级分辨率数据上进行训练和测试,就像之前的工作一样。结果和分析我们的实验结果示于表1中。在没有任何专门的卷积核的情况下,我们在这项任务上的表现优于大多数先前的工作。Jianget al. [16]杠杆-在网格上使用专门的卷积近似,这抑制了为任务微调现有CNN模型的能力。我们的方法可以被认为是在多视图方法中使用传统的CNN来处理球形图像。这意味着,对于像分类这样的全局推理任务,我们可以选择我们最喜欢的预训练网络,并将其转换为球形数据。在这种情况下,可能需要进行一些微调,以解决我们的网络设计中的最后补丁聚合步骤。4.2. 语义分割接下来,我们考虑语义分割的任务,以证明密集的预测能力。为了与之前的工作相比较,我们在低二十面体分辨率(5和7)下对我们的方法进行了基线评估,但我们也在10级输入分辨率下评估了我们的方法的性能,以证明切线图像表示对处理高分辨率球形数据的有用性。以前没有工作在这个分辨率下运行我们希望我们的工作可以作为进一步研究高分辨率球面图像的基准。实验设置我们在斯坦福2D3DS数据集[1]上训练和测试我们的方法,与之前的工作一样[8,7,16,29]。我们在5级、7级和10级评估RGB-D输入,数据集提供的最大分辨率。在第10级,我们还评估了仅使用RGB输入来展示高分辨率功能的好处。对于第5级和第7级实验,我们使用了剩余的UNet风格的架12431构,如[16,29],但我们再次替换了专门12432Stanford2D3DS数据集S方法输入BMACCMiouCohen等人[七]《中国日报》RGB-D055.939.45Jiang等[16个]Zhang等人[29日]RGB-DRGB-D5054.758.638.343.3我们RGB-D050.237.5Tateno等人[27日]RGBERP-34.67Lee等[18个国家]RGB726.4-我们RGB-D054.941.8我们RGB061.044.310我们我们RGBRGB1265.261.545.642.7我们RGB-D169.151.9表2:语义分割结果。s是以等效二十面体水平表示的输入分辨率,b是基本子划分水平(ERP表示等距矩形输入),mIoU是平均交并度量,并且mAcc是加权的每类平均预测精度。3×3卷积的核10级输入的更高分辨率需要更深网络的更大感受野,因此我们使用FCN-ResNet 101 [14,20]模型预处理。[19 ]第19话为了那些实验对于5级数据,我们在整个切线图像集上进行训练,而对于更高分辨率的实验,我们从每个球形输入中随机抽取切线图像的子集来进行训练。我们发现这种抽样方法在不损失准确性的情况下我们把它比作一个场景的多个透视图的训练结果和分析我们在表2中报告了我们的实验结果。Stanford2D3DS数据集上的结果在3倍上取平均值。个别班级的成绩可以在补充材料中找到。正如预期的那样,我们的方法在5级分辨率下的性能不如以前的工作回想一下,5级分辨率球面图像相当于45°FOV的16×16透视图像我们的方法将已经很低的角分辨率图像并将其分离成一组低像素分辨率图像。虽然它对分类的影响有限,但这些双低分辨率对于密集预测任务来说是有问题的。我们将在补充材料中进一步阐述低分辨率限制。我们的切线图像表示在缩放到高分辨率图像时表现出色。我们在低分辨率性能方面的牺牲,我们通过有效地扩展到高分辨率输入来弥补通过缩放到数据集的完整分辨率,我们能够报告仅使用RGB输入的宽范围的球形数据集上有史以来最高的执行结果添加额外的深度通道,我们能够进一步提高性能(+4。8 mAcc,+7。0mIOU)。在输入电平10处,我们发现基本电平1在较高基本电平处的较低FOV与较低基本电平中存在的增加的失真之间提供最佳折衷。我们在柔软的材料中详细阐述了这种权衡。4.3. 网络传输我们的贡献的目的是解决等效网络的每一个,无论输入数据格式。也就是说,对于给定的网络,我们努力在透视数据和球形数据上实现相同的性能。这个目标是由有限数量的球形图像数据集和收集大规模球形训练数据的困难所如果我们能够实现透视图像网络的高可移植性,我们就可以减少对大量球形训练数据的需求。由于生成切线图像固有地将球形图像转换为透视图像的集合,因此这种表示促进了期望的网络可传递性,而不需要对球形数据进行微调并且具有有限的性能下降。实验设置我们在三个实验中评估切线图像表示的可转移性。在第一个实验中,我们使用在相应的透视图像训练集上训练的网络在球形图像测试集上评估语义分割性能。我们在Stanford 2D 3DS数据集[ 1 ]的透视图像训练集上微调PyTorch模型动物园提供的预训练的FCN-ResNet 101模型[14,20然后,我们评估语义分割性能的球形图像测试集在8级分辨率。本实验仅使用RGB输入。在数据集微调期间,我们确保考虑球面测试图像的所需角一个训练过的网络-具有1μ m角分辨率的透视图像相应地学习滤波器。 我们应该把这些过滤器应用到即时通讯上吗-在相同的位置、以相同的图像分辨率、但具有较窄的FOV捕获的年龄,角分辨率的差异为了匹配我们的球形评估集的角分辨率,我们在训练期间对所有透视图像的相机矩阵进行归一化,使得它们具有与测试图像相同的角分辨率。因为这实际上是数据的中心裁剪,所以我们还随机移动新的相机中心以捕获图像的所有部分这种预处理的详细情况请注意,我们不对球面数据进行微调。第二个实验将切线图像提供的可转移性与解决该主题的先前工作进行了比较[29]。使用Zhanget al.[29],我们在SYNTHIA数据集[24]的透视图像上训练模型,该数据集对应于OmniSYN-THIA数据集我们再次利用上面提到的摄像机归一化过程我们在基础水平1下评价OmniSYNTHIA测试集的最后,实验三研究了角分辨率匹配对训练和测试的影响。为此,我们将第一个实验中的ResNet 101语义分割解决方案。1243350表3:使用Stan-40ford2D3DS数据集。在没有微调的情况下,我们在传输到由切线图像表示的球形数据时保留了93%的透视网络精度。201005 6 789 10表4:将我们的迁移学习结果与之前的工作进行来自Zhanget al. [29]在不同输入分辨率的OmniSYNTHIA数据集上,s。请注意,他们报告的结果是经过10次微调后的结果,而我们的结果没有使用任何微调。前两个实验的结果分别在表3和4中给出。在第一个实验中,请注意,这两个结果都是使用仅在透视数据上训练的网络获得的。对于正切图像,我们能够保留92。6%的准确度和93。透视评估IOU的1%,无需任何后续网络调优。这是因为切线图像表示具有与透视图像相似的失真特性,并且我们匹配了两个域之间的角第二个实验的结果表明,切线图像方法显著优于现有技术,而无需任何专门的内核或子系统微调。请注意,Zhanget al. [29]在对球面图像进行10次微调后报告结果,而我们的方法根本没有对球面图像进行微调。同样值得注意的是,在更高的分辨率下,我们的传输结果实际上与现有的在球形数据上训练的方法具有竞争力。我们的实验受到可用球面图像数据集的最大分辨率的限制,但这一结果表明,使用切线图像的网络传输可能允许更高分辨率的球面图像推断。最后,第三个实验的结果绘制在图6中。回想一下,这个模型是在透视图像上训练的,透视图像被归一化为具有相当于8级二十面体的每像素角分辨率。该图表强调了在对透视图像进行训练以传输网络时相机归一化的重要性。观察随着球面输入的角分辨率进一步偏离训练数据的角分辨率,性能如何恶化。分辨率水平图6:显示了使用在透视图像上训练的网络进行球形语义分割的结果,透视图像被归一化为具有相当于8级球形输入的角分辨率。随着球面输入的角分辨率与训练数据变得越来越不相似,性能会显著下降。8级结果变暗。4.4. 稀疏关键点对应最近对球形图像的研究主要集中在深度学习任务上,主要是因为其中许多工作都集中在卷积运算上。由于我们的贡献涉及球形数据的表示,而不是具体的卷积,我们的目标是证明我们的方法具有深度学习之外的为此,我们评估了使用切线图像进行稀疏关键点检测,这是运动恢复结构,SLAM和其他各种传统计算机视觉应用的关键步骤由 于 该 任 务 没 有 现 有 的 基 准 , 我 们 使 用Stanford2D3DS数据集提供的球形图像的子集创建数据集[1]。为了创建这个数据集,我们首先根据提供的房间信息对数据集的区域1图像进行聚类然后,对于每个位置,我们计算等矩形图像中的SIFT特征[22],并使用OpenMVG库[23]提供的球形运动结构流水线接下来,我们计算av-计算每个重叠图像对的体积FOV重叠。因为我们处理的是360度全景图像,所以没有图像边界来约束相反,我们使用地面实况深度图和姿势信息将每个图像对反向投影到规范姿势中。我们然后使用左图像深度图来计算对左相机可见的右图像点的百分比,以去除被遮挡的点,反之亦然。我们对这两个值取平均值,以提供图像对的FOV重叠分数。这种重叠在图7中可见。我们将关键点数据集定义为根据此重叠度量的前60个图像对。最后,我们将生成的数据集拆分为一个51.6MACCMiou47.145.936.936.136.230.130.023.918.816.76.9度量30格式输入Res.AngRes/PixMACC Miou感知斯菲尔128 ×1288级0的情况。352◦0的情况。352◦55.751.638.936.2S方法MACCMiou6Zhang等人[29](转让)我们的(转让)44.852.836.741.3Zhang等人[29]第二十九话52.243.67Zhang等人[29](转让)我们的(转让)47.255.338.035.8Zhang等人[29]第二十九话57.148.3Zhang等人[29](转让)52.865.445.349.712434nn分裂数量平均FOV重叠#校正硬3083.35%298容易3089.35%515左图像右图像图7:来自斯坦福2D3DS数据集[ 1 ]的关键点基准的图像对之间的FOV重叠可视化。左侧图像中的红色区域表示右侧相机可见的区域,右侧图像中的绿色区域表示左侧相机可见的区域。设置和“硬”设置,再次基于FOV重叠。所得数据集统计数据如表5所示。所有图像均以其完整的10级分辨率进行评估。我们在补充材料中提供了数据集的详细信息,以便进一步研究。实验设置为了评估我们提出的表示,我们检测和描述切线图像网格上的关键点,然后将这些关键点渲染回球形图像。此渲染步骤确保仅关键点可见,由于切线图像具有重叠内容,因此对于二十面体中心处的球形照相机来说是可能的。然后,我们使用OpenMVG [23]来计算假定的对应关系和几何一致的内点匹配。结果与分析我们使用等矩形图像格式作为基线,在3个不同的基础水平上评估对应匹配的质量。我们计算假定匹配率(PMR),匹配分数(MS),和精确度(P)度量,其由Heinly等人定义。[15 ]第10段。对于图像对(L,R)的图像集S,具有p个假定的对应关系、f个内点匹配和n个{L,R}个检测到的对两个图像可见的表5:我们的关键点基准的统计数据。#Corr.是在该分割中的等距矩形图像上检测到的内点匹配的数量。统计数据在分割上取平均值。硬度量对等L0L1L2PMR22.2%百分之二十八点四百分之三十点一百分之二十七点四MS百分之八点二百分之十一点一百分之十一点七百分之十点九P百分之三十六点九百分之三十九点五百分之三十九点六40.2%容易度量对等L0L1L2PMR百分之二十六点三百分之三十二点四百分之三十四点六百分之三十一点九MS百分之十三点六百分之十六点六17.7%16.1%P46.0%46.4%47.5%百分之四十六点五表6:关键点评估指标。我们报告每个指标的平均值在每个分裂的L{ 0,1,2}是我们计算关键点的细分级别。在两个拆分中,PMR均无法改善。我们将这种改进归因于在我们的失真较少的表示上计算SIFT特征向量。像卷积运算一样,SIFT描述符也需要检测域中的平移等效性切线图像通过其低失真表示恢复了此属性,这使可重复的描述符成为可能。关键点的更好定位也会影响内点匹配,从而获得更好的MS分数。我们将超过1级的性能平稳归因于更高级别细分的减小的FOV,这阻碍了检测器对的定义如下:1ΣPMR=2 |S|.Σp pn +n5. 结论我们已经提出了切线图像,一个球面图像1MS =2|S|(L,R)∈S L RΣ。ff+(L,R)∈S L R(四)将图像渲染到与细分的二十面体相切的定向像素网格上的表示。我们已经表明,这些切图像不需要专门的con-cor-cor-1名妇女fP = |S|p(L,R)∈S以与计算FOV重叠相同的方式,我们使用数据集提供的地面真实姿态和深度信息来确定左图像中的哪些关键点应该对右图像可见(nL),反之亦然(nR),考虑到遮挡。结果在表6中给出。我们使用的切线图像有很大的影响,产生的对应关系,特别是在硬分裂。回想一下,这种分割在基线等矩形表示处具有较低的FOV重叠和较少的内点匹配。因此,在这种情况下,改进的性能特别有用。我们观察到一个重要的-12435卷积核用于训练CNN并有效地扩展以表示高分辨率数据。我们还表明,它们有助于将在透视图像上训练的网络转移到球形数据,并且性能损失有限这些结果进一步表明,使用切线图像的网络传输可以为处理更高分辨率的球面图像打开大门最后,除了深度学习之外,我们还展示了切线图像在传统计算机视觉任务中的实用性。我们的研究结果表明,切线图像可以是一个非常有用的球形表示的各种计算机视觉应用。致谢我们要感谢David Luebke、Pierre Moulon、Li Guan和Jared Heinly为支持这项工作提供的咨询。这项研究得到了Zillow的部分资助。12436引用[1] Iro Armeni , Sasha Sax , Amir R Zamir , and SilvioSavarese.用于室内场景理解的联合2d-3d语义数据。arXiv预印本arXiv:1702.01105,2017。五六七八[2] 杜安·C·布朗透镜的偏心畸变。摄影测量工程与遥感,1966年。3[3] 富勒·理查德·巴克特。制图,扬。29 1946年。美国专利2,393,676。3[4] 布伦特·伯利和迪伦·莱斯韦尔Ptex:用于产品渲染的逐面 纹 理 映 射 。 在 计 算 机 图 形 论 坛 , 第 27 卷 , 第1155Wiley Online Library,2008.4[5] Sharan Chetlur,Cliff Woolley,Philippe Vandermersch,Jonathan Cohen , John Tran , Bryan Catanzaro 和 EvanShelhamer。cudnn:高效的深度学习原语。arXiv预印本arXiv:1410.0759,2014。2[6] 塔科·科恩,马里奥·盖格,乔纳斯·科勒,马克斯·威林。球形信号的卷积网络arXiv预印本arXiv:1709.04893,2017。2[7] Taco Cohen,Maurice Weiler,Berkay Kicanaoglu,andMax Welling.规范等变卷积网络与二十面体卷积神经网络。在国际机器学习会议上,第1321-1330页,2019年。一、二、三、四、五、六[8] 塔 科 湾 Cohen , MarioGeiger , JonasK ?hler ,andMaxWelling.球形CNN。在2018年国际学习代表会议上。一、二、五[9] Benjamin Coors , Alexandru Paul Condurache , andAndreas Geiger. Spherenet:学习球面表示,用于全向图像的检测和分类。欧洲计算机视觉会议,第525Springer,2018. 一、二[10] 马克·埃德和扬·迈克尔·弗拉姆。球面图像上的卷积在IEEE计算机视觉和模式识别研讨会会议论文集,第1一、二、三[11] 马克埃德,真正的价格,清武,阿卡什巴帕特,和扬-迈 克 尔 弗 拉 姆 。 映 射 卷 积 。 arXiv 预 印 本 arXiv :1906.11096,2019。一、二、三、四[12] Carlos Esteves 、 Christine Allen-Blanchette 、 AmeeshMaka- dia和Kostas Daniilidis。用球面cnn学习so(3)等变在欧洲计算机视觉会议(ECCV)的会议中,第525[13] 詹姆斯·黑斯廷斯-特鲁行星纹理地图,2019年。得planetpixelemporium.com/earth8081.html 余弦值.2019-04-16访问。1[14] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on Computer Vision and PatternRecognition,第770-778页,2016中。6[15] 杰瑞德·海因利恩里克·邓恩和简·迈克尔·弗拉姆二进制特征的比较评估。欧洲计算机视觉会议,第759-773页。Springer,2012. 8[16] Chiyu Max Jiang,Jingwei Huang,Karthik Kashinath,Prab- hat , Philip Marcus, and Matthias Niessner. 球 形CNN在非结构化网格上。在2019年的学习代表国际会议一、二、三、四、五、六[17] Jon A Kimerling , Kevin Sahr , Denis White 和 LianSong。比较全球网格的几何特性。制图学与地理信息科学,26(4):2714[18] Yeonkun Lee、Jaeseok Jeong、Jongseob Yun、WonjuneCho和Kuk-Jin Yoon。Spherephd:将cnn应用于360度图像的球形多面体表示。在IEEE计算机视觉和模式识别会议上,第9181-9189页,2019年。一二三五六[19] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco:上下文中的公用对象。欧洲计算机视觉会议,第740Springer,2014. 6[20] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议的Proceedings,第3431-3440页,2015年。6[21] 查尔斯·卢普基于三角形的光滑细分曲面。犹他大学数学系硕士3[22] David G Lowe等.基于局部尺度不变特征的目标识别。计算机视觉国际会议,第99卷,第1150-1157页,1999年7[23] 皮埃尔·穆伦、帕斯卡·莫纳斯、罗穆阿尔德·佩罗特和雷诺·马莱。Openmvg:打开多视图几何体。在模式识别中可再现研究的国际研讨会上,第60-74页。施普林格,2016年。七、八[24] German Ros、Laura Sellart、Joanna Materzynska、DavidVazquez和Antonio M.洛佩兹synthia数据集:用于城市场景语义分割的大量合成图像。在IEEE计算机视觉和模式识别会议(CVPR)上,2016年6月。6[25] Yu-Chuan Su和Kristen Grauman。学习球面卷积快速功能从360图像。 神经信息处理系统的进展,第529-539页,2017年。一、二[26] Yu-Chuan Su和Kristen Grauman。用于紧凑球形卷积的内核Transformer网络。在IEEE计算机视觉和模式识别会议(CVPR)上,2019年6月。一、二[27] 馆野圭介纳西尔·纳瓦布费德里科·汤巴里用于全景图像密集预测的失真感知卷积滤波器欧洲计算机视觉会议,第732-750页。Springer,2018. 一、二、五、六[28] 吴 志 荣 , 宋 舒 然 , Aditya Khosla , Fisher Yu , Lin-guang Zhang , Xiaoou Tang , and Jianxiong Xiao. 3dshapenets:体积形状的深度表示。在IEEE计算机视觉和模式识别会议论文集,第1912-1920页,2015年。5[29] Chao Zhang , Stephan Liwicki , William Smith , andRoberto Cipolla.二十面体球体上的方向感知语义分割。在IEEE计算机视觉集,第3533一、二、三、四、五、六、七
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 彩虹rain bow point鼠标指针压缩包使用指南
- C#开发的C++作业自动批改系统
- Java实战项目:城市公交查询系统及部署教程
- 深入掌握Spring Boot基础技巧与实践
- 基于SSM+Mysql的校园通讯录信息管理系统毕业设计源码
- 精选简历模板分享:简约大气,适用于应届生与在校生
- 个性化Windows桌面:自制图标大全指南
- 51单片机超声波测距项目源码解析
- 掌握SpringBoot实战:深度学习笔记解析
- 掌握Java基础语法的关键知识点
- SSM+mysql邮件管理系统毕业设计源码免费下载
- wkhtmltox下载困难?找到正确的安装包攻略
- Python全栈开发项目资源包 - 功能复刻与开发支持
- 即时消息分发系统架构设计:以tio为基础
- 基于SSM框架和MySQL的在线书城项目源码
- 认知OFDM技术在802.11标准中的项目实践
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功