单目360°双投影融合深度估计方法

43 浏览量更新于2023-10-25 收藏 1.39MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

462BiFuse：通过双投影融合进行单目360°Fu-En Wang王福恩1，3fulton84717@gapp.nthu.edu.tw叶玉萱nctu.edu.twMin Sun1，5sunmin@ee.nthu.edu.tw邱伟贞walon@cs.nctu.edu.tw蔡怡萱4wasidennis@gmail.com摘要从单目360° 全景图像进行深度估计是一个新兴的问题，由于消费级360°全景相机的可用性和完整的周围感测能力，该问题越来越受欢迎。随着360°全景成像标准的快速发展，我们提出通过模拟人眼的周边视觉和中央凹视觉来预测单眼360°为此，我们采用两个分支的神经网络杠杆化两个常见的预测：等矩形和立方体映射投影。特别是，等距矩形投影包含完整的视场，但引入失真，而立方体贴图投影避免失真，但在立方体的边界处引入不连续性。因此，我们提出了一种双投影融合方案，以及可学习的掩模，以平衡来自两个投影的特征图此外，对于立方体贴图投影，我们提出了一个球形填充过程，减轻了每个面的边界处的不连续性。我们将我们的方法应用于四个全景数据集，并对现有的最先进的方法显示出良好的结果。1. 介绍由于大量的实际应用，从2D图像推断3D结构已经被广泛研究。例如，对于自动驾驶汽车和室内机器人等自主系统来说，感知3D环境至关重要，在3D重建的几种技术中，由于深度学习的进步和大规模3D训练数据的可用性，单目深度估计已经取得了例如，FCRN [16]实现了单目1国立清华大学2国立交通大学3华硕AICS系4NEC Labs America5MOST人工智能技术与全Vista医疗联合研究中心* 作者对本文的贡献相同图1.我们的Bioresist网络使用等矩形和立方体贴图投影从单目图像估计360度提出了一种双投影融合组件，这两个投影都是由人眼的周边和中央凹视觉启发的。给定估计的360°深度，可以生成围绕相机的完整3D点云，以服务于下游应用。通过他们提出的上投影模块进行深度估计。然而，大多数现有的方法是针对具有正常视场（FoV）的相机而设计的。近年来，随着360°全景摄像机的日益普及，单目360 °全景深度估计的研究受到了人们的在本文中，我们提出了一种端到端的可训练神经网络，利用两种常见的投影-我们的主要动机是将外围设备和像人眼一样的中央凹视觉（见图1）。1为插图）。注意，等矩形投影提供模仿周边视觉的宽视场，而立方体映射投影提供模仿中央凹视觉的较小但不失真的视场。一方面，等矩形投影允许从单个2D图像观察所有周围信息，但引入失真。另一方面，立方体贴图投影避免了变形，但在463立方体考虑到这两个投影将具有互补性质，其中我们将我们的方法称为双投影。然而，中心凹视觉的FoV可能太小，这降低了我们融合方案的有效性（图11）。2）。为了解决这个问题，已经提出了立方体填充（CP）方法[26，4]来从立方体上的相邻面扩展视场。然而，使用立方体填充可能导致边界处的几何不一致，这引入了不可忽略的失真效应。因此，我们提出了球形填充（SP），它通过考虑球形几何形状来填充边界，并减少边界不一致性。最后，代替天真地组合两个分支的特征（例如，[31]），我们提出了一种具有可学习掩模的双投影融合过程，以平衡两个投影之间共享的信息。源代码和预训练模型可供公众使用1.我们将我们的方法应用于四个全景数据集：Mat-terport3D [3] 、 PanoSUCG [26] 、 360D [38] 和 Stan-ford2D3D [1]。我们的实验结果表明，所提出的方法对目前的国家的最先进的（SOTA）的方法表现良好。此外，我们提出了广泛的烧蚀研究，为每个拟议的模块，包括球形填充和融合计划。我们的贡献概述如下：1. We propose an end-to-end two-branch network, whichincorporates both equirectangular and cubemap pro-jections, to mimic the combination of peripheral andfoveal vision of the human eye, respectively.2. 为了共享不同投影的信息，我们提出了一种双投影融合方法，该方法使用可学习的掩模来平衡来自两个投影的信息。3. 我们提出了球面填充来扩展立方体贴图投影的视野，并减少每个面的边界不一致性。2. 相关工作我们在下文中描述关于单目深度估计和360度全景感知的相关工作单眼深度估计。 Saxena等人 [20]是学习估计单眼深度的先驱工作之一。经过几年使用经典机器学习方法的发展，深度学习有助于最新的性能显着提高Eigen等人[8]首先使用深度神经网络从单个图像中估计深度图。后来，Lainaet al. [16]利用ResNet [12]作为编码器，并提出一个向上投影1https://fuenwang.ml/project/bifuse图2.视野（FoV）比较。与立方体贴图投影上的每个面相比，等矩形投影具有最大的FoV，其中（实线）或不具有（虚线）提议的球形填充。用于上采样过程的模块以及反向Huber损失，以改进深度估计。此外，Leeet al.[17]尝试使用几个裁剪的图像来预测深度，并在傅立叶域中将它们组合起来。为了进一步改进深度预测，[2，28，18，29，30]将条件随机场（CRF）集成到深度神经网络中以实现更好的性能。例如，Caoet al. [2]将深度估计公式化为分类问题，并使用CRF来细化最终预测。此外，已经进行了其他尝试来推进深度估计。Fu等人[10]使用扩张卷积来增加感受野，并应用有序回归损失来保持每个相邻类之间的空间关系。在光度损失的情况下，深度估计的无监督训练[11，37，33，34，32，25，15]可以实现。Godard等人[11]使用立体对来预测基于左右一致性的视差，而Zhouet al. [37]提出了两个网络来从视频序列中估计深度和自我运动。此外，Yanget al. [32]使用深度-法线一致性来改进深度预测。然而，对于上述方法，是为具有正常FoV的相机而设计的，而不考虑360度全景图像的属性。360度感知。最近，全向相机已经成为一种流行的媒体，它鼓励人们从事与全景相关的任务[27，39]。例如，由于大视场，可以从全景图中推断房间布局[39，35，31]。然而，等矩形投影的失真往往会影响其性能。为了克服这个问题，提出了几种方法。Cheng等人[4]将全景转换为立方体贴图。对于每一张脸，他们用他们的亲，46422Qz提出了立方体填充方法，以消除边界不一致。[4]王建（Wanget al.）[26]使用cubemap和cube padding进行无监督全景深度估计。为了使网络意识到失真，最近提出了球面卷积方法[6，9，22，23]。考虑到这一性质，Ziouliset al. [38]提出了Om- niDepth，并采用[23]中的球形层作为预处理模块。然而，这仍然是一个挑战当在深度任务上使用更深的网络应用球形CNN时。Ederet等人[7]将360°深度估计处理为深度、表面法线和平面边界的多任务学习。然而，来自深度图的表面法线通常是嘈杂的，特别是在现实世界的sce中。narios限制了合成场景之外的可扩展性。与已有的研究成果不同，本文改进了学习-立方体面立方体填充球形填充从人眼视觉系统的角度出发，通过利用双分支网络来分析立方体贴图表示机制，我们的实验表明，我们的方法实现了国家的最先进的性能在现实世界和合成场景。3. 我们的方法在本文中，我们的目标是利用两个不同的◦图3.球形衬垫与立方体填充。立方体填充模具直接焊补连接面的特征。除了边界处的明显不一致之外，四个角的值是未定义的。在[4]中，值仅由最接近的一侧选择。在我们提出的球形填充中，填充区域是用球形投影计算的。因此，可以解决边界处的缺失角和不一致性。其中θfi和φfi是等矩形投影的经度和纬度代表360 图像，等距矩形和立方体-我我我地图投影，用于改进单目360度深度估计。在下文中，我们将依次详细介绍cubemap投影与我们提出的球形填充过程中节。3.1和3.2节中的双投影融合方案3.3节中的整体网络架构三点三3.1. 初步对于边长为w的立方体图表示，我们将其六个面记为fi，i∈ {B，D，F，L，R，U}，分别对应于后，下，前，左，右和上。每个面都可以被视为具有焦距W的独立照相机的像平面，其中所有这些照相机共享相同的投影中心（即，立方体的中心），但是具有不同的姿势。当我们将世界坐标系的原点设置为立方体的中心时，每个摄像机坐标系的外矩阵可以简单地由旋转矩阵Rfi和零平移来定义。给定图像平面fi上的像素pi，其坐标（x，y，z）在对应相机系统，其中0≤x，y≤w−1和z=w，我们可以将其转换为等距矩形表示，一个简单的映射：qi=Rfi·pi，Qx分别为Q。由于这个映射是可逆的，我们能够以容易地执行分别表示为E2C和C2E的等矩形到立方体和补充材料中有更详细的说明3.2. 拟定的球形衬垫由于等矩形投影中的失真，直接学习典型的卷积神经网络来对等矩形图像进行单目深度估计会导致训练过程不稳定和预测不满意[4]。相比之下，立方体贴图表示受到的失真较小，但由于每个面的边界上的不连续性而产生较大的误差[4，26]。为了解决立方体贴图投影的这个问题，Cheng等人. [4]提出立方体填充（CP）方法，利用立方体上面之间的连接性进行图像填充。然而，仅仅利用相邻人脸的特征来填充人脸的特征图因此，在这里我们提出了球面填充（SP）方法，它根据球面投影填充的功能。因此，我们可以用几何关系连接每个面。立方体填充[4]和我们提出的球形填充之间的比较是illustrated-θfi = arctan（i），我Qy（一）图中3 .第三章。应用球形填充的最直接方法φf=arcsini，我|QI|对于cubemap，首先将所有的面转换为统一465Y20.5公斤pW/2图4.建议的生物多样性网络。我们的网络由两个分支Be和Bc组成。B e的输入是RGB等距矩形图像，而Bc将相应的立方体贴图作为输入。我们用预块[38，23]替换B e中的第一个卷积层。对于解码器，我们采用上投影[16]模块。对于B c中的每个卷积和上投影层，我们应用球形填充来连接六个人脸的特征图。最重要的是，在Be和Bc的特征图之间，我们使用建议的双投影融合模块来共享两个特征表示之间的信息。最后，我们添加了一个Conv模块[24]来统一来自Be和Bc的两个深度预测。R fi→fj。然后在典型的针孔投影模型上，建立从fi中的像素pi到fj的映射摄像头：K=0w/2 0w/ 20w/ 2w/ 2μ g，0 0 1图5.长度为w，填充大小为γ的立方体贴图。我们继续焦距相同（0. 5w）并计算新的FoVσ′。pj=K·Rfi→fjpxpy·Pi，（二）x=j，y=j，z zJ JC2E的等矩形图像。然后，将原始的FoVσ=90°扩展到σ′，并通过E2C映射回立方体图。因此，我们可以将它们完全填充在每个面上，而不会丢失部分（即，图中立方体填充中的未定义区域。（3）具有一致的几何形状。特别地，给定边长为w且Fovσ=90μ m的立方体地图，C2E变换与（1）的逆计算相同。当我们应用具有填充大小γ的球形填充时，该填充大小由控制器中的填充大小确定，卷积层（例如，对于3× 3卷积层，γ =1），我们将立方体面的边长更新为w′=w+2γ，并且相应的FoV在填充后变为σ′=2 arctanw/2+γ，如图2所示。五、因此，对于映射从等距矩形图像返回到填充立方体图，我们应该使用w′和σ′来导出用于球形填充的正确E2C变换。高效转型。我们已经描述了我们的球形衬垫的总体概念然而，上述过程由C2E和E2C转换组成，这可能需要大量的计算成本。因此，我们简化了这一过程，推导出一个直接映射函数之间的两个立方体面。给定两个立方体面fi和fj，我们首先将它们的摄像机坐标系之间的几何变换表示为旋转矩阵，其中（x，y）表示映射到fj的图像平面上之后的pi的2D位置。由于该映射仅需要针对填充区域上的所有像素计算一次，因此应用球形填充的计算成本与立方体填充相当，而不包括任何E2C或C2E变换。3.3. 拟议的生物多样性网络我们已经介绍了我们的球形填充方法，扩大了视野，同时保持边界处的几何一致性，以改善立方体地图表示作为建议的Bioburden网络的一个分支。在图4中，我们显示了由具有周边视觉和中央凹视觉的人眼系统驱动的完整的双分支网络。总的来说，我们的模型由两个编码器-解码器分支组成，分别以等距矩形图像和立方体映射作为输入，其中我们将等距矩形分支表示为Be，将立方体映射分支表示为Bc。如SEC中所述。1、各部门都有其优势，但也有其局限性。为了共同学习更好的模型，同时共享这两个优点，我们利用了一个双投影融合块，它将信息桥接在两个分支上，这将在下面描述为了生成fi-p466Ce在最终预测中，我们首先将cubemap的预测转换为等距矩形视图，并采用卷积模块将两种预测合并。双投影融合。为了鼓励在两个分支之间共享信息，我们根据经验发现，直接组合来自Be和Bc的特征图[31]将导致不稳定的梯度和训练过程，因此迫切需要开发一种融合方案来平衡两个分支。受最近多任务工作的启发[5，36]，我们专注于平衡两种不同表示的特征图。为了实现这一目标，我们提出了一个双投影融合模块H：给定分别来自每层Be和Bc的特征图he和hc，我们地图被连接在一起作为64通道特征地图，并进一步馈送到下一层。在立方体贴图分支Bc中，我们在每个相邻层之间用球形填充替换原始的零填充操作4）.此外，在编码器和解码器两者中，在Be和Bc之间的每两层之间插入如（3）中所提出的双投影融合块，其中一个融合模块中的每个He和Hc包含具有与输入特征图相同的通道号的卷积层最后，为了结合Be和Bc的预测，我们采用了一个具有多个卷积层的模块，如[24]所示。3.4. 实现细节我们使用PyTorch实现网络[19]估计相应的特征图h′=He（he），框架。我们使用Adam [14]优化器，β1= 0。9和hc=Hc（C2E（hc）），其中He和Hc表示卷积。层为了生成使两个分支都受益的特征图，我们首先连接h′和h′，然后将其传递给卷积β2=0 。 999 我们的批量大小为 16 ，学习率设置为0.0003。为了训练我们的模型，我们首先独立地学习Be和Bc分支，而不使用融合方案，e c热身训练阶段40 epoch，然后更新层，以估计掩模M，平衡融合过程。最后，我们生成特征映射h<$e和h<$c作为ne xt层的输入：h<$e=he+M·h′，h<$c=hc+E2 C（（1−M））·E2 C（h′）。（三）注意，我们在融合过程中使用C2E和E2C操作以确保特征和掩模M在相同的投影空间中。损失函数。我们采用反向Huber损失[16]作为优化Be和Bc预测的目标函数：. |X||≤ c，| ≤ c,只有双投影融合模块用于另外40个时期。最后，我们训练整个网络20个epoch。4. 实验结果在本节中，我们在四个全景基准数据集上进行实验：Matterport3D [3]、PanoSUCG [26]、360D [38]和Stanford2D3D [1]，无论是定量还是定性。我们主要将我们的方法与基线FCRN [16]和Om-niDepth [38]方法进行比较，Om-niDepth [38]方法是当前用于单全景深度估计的最新技术。此外，我们比较了不同的变体所提出的框架，以验证我们设计的模块的有效性。源代码和模型将向公众开放。B（x）=x2+c22c（四）|X|>c.4.1. 评估指标和数据集然后，总目标函数被写为：ΣL=B（Di−Di）+B（C2E（Dc）i−Di），（5）我们通过深度估计中的标准度量（包括MAE、MRE、RMSE、RMSE（log）和δ）来评估性能。每个数据集的详细信息如下所述，i∈Pe GTGT我们使用相同的设置来比较所有的方法。其中D e和D c分别是B e和B c产生的预测;D GT是等距矩形表示中的地面实况深度;并且P指示在地面实况图中存在有效深度值的所有像素。我们注意到，在计算损失之前，需要将Dc转换为等矩形形式的C2E运算网络架构。对于每个分支，我们采用ResNet-50 [12]架构作为编码器，并使用[16]提出的上投影模块作为解码器。类似于考虑等矩形属性的[38]，我们将ResNet-50的第一个卷积层替换为具有大小为（3，9），（5，11），（5，7）和（7，7）的多尺度内核的球形预块，其中它们的输出特征Matterport3D。Matterport3D包含10，800全景和相应的深度地面实况由Matterport该数据集是室内全景场景的最大真实世界数据集，这使得它具有挑战性，因为来自ToF传感器的深度图通常在某些区域具有噪声或缺失值。在实践中，我们在训练过程中使用缺失值过滤区域。为了训练和测试我们的网络，我们遵循官方的分裂，一间是训练室，另一间是测试室。我们将图像和深度图的分辨率调整为512 ×1024。斯坦福2D3D。Stanford2D3D是从现实世界中的三种建筑中收集的，包含六个大规模的室内区域。该数据集包含1413个样本467表1.真实世界数据集的定量结果：Matterport3D和Stanford2D3D。数据集方法MRE↓MAE↓RMSE↓RMSE（log）↓δ1↑δ2↑δ3↑Matterport3DFCRN [16][38]第0.24090.29010.40080.48380.67040.76430.12440.14500.77030.68300.91740.87940.96170.9429EquiCube我们的w/fusion0.20740.25050.20480.37010.39290.34700.65360.66280.62590.11760.12810.11340.83020.75560.84520.92450.91350.93190.95770.96120.9632斯坦福2D3DFCRN [16][38]第0.18370.19960.34280.37430.57740.61520.11000.12120.72300.68770.92070.88910.97310.9578EquiCube我们的w/fusion0.14280.13320.12090.27110.25880.23430.46370.44070.41420.09110.08440.07870.82610.83470.86600.94580.95230.95800.98000.98380.9860表2.虚拟世界数据集的定量结果：PanoSUCG和360D。数据集方法MRE↓MAE↓RMSE↓RMSE（log）↓δ1↑δ2↑δ3↑PanoSUCGFCRN [16][38]第三十八话0.09790.11430.13460.16240.39730.37100.06920.08820.92230.87050.96590.93650.98190.9650EquiCube我们的w/fusion0.06870.06280.05920.08360.08910.07890.29020.29460.25960.04960.05080.04430.95290.94530.95900.97870.97800.98230.98860.98900.9907360DFCRN [16][38]第三十八话0.06990.09310.13810.17060.28330.31710.04730.07250.95320.90920.99050.97020.99660.9851EquiCube我们的w/fusion0.06060.06130.06150.11720.11670.11430.26670.27390.24400.04370.04470.04280.96670.96880.96990.99200.99080.99270.99660.99560.9969我们使用其中一个官方分割，将第五区域（区域5）用于测试，其他区域用于训练。在训练和测试过程中，我们将图像和深度图的分辨率调整为512 ×1024。PanoSUNG。PanoSUNG包含103个SUNG场景[21]，并有25，000个场景。在实验中，我们使用官方的训练和测试分割，其中80个场景用于训练，23个场景用于测试。对于所有 panora- mas ，我们将其调整为 256×512，并过滤掉深度值大于10米的像素360 D。360D数据集由OmniDepth [38]收集，包括两个合成数据集SunCG和SceneNet以及两个现实数据集Stanford2D3D和Matterport3D。他们使用路径跟踪渲染器来渲染四个数据集，并将球形摄像机放置在虚拟环境中，以获得具有256 × 256分辨率的照片级逼真的全景图。512. 对于每幅全景图，他们应用90度的增强，180度和270度。360 D号共有35，977辆坦克，其中34，679辆用于训练，其余的用于进行测试。4.2. 整体性能我们首先介绍了使用两个基线的结果，每个基线都有一个分支，并将它们与我们提出的两个-分支架构：1）Equi：没有双投影融合的等矩形分支Be; 2）立方体：立方体填充的立方体贴图分支B c[4]，没有我们的融合方案; 3）我们的w/ fusion：我们的最终模型，将所提出的球形填充应用于cubemap分支B c，并将我们的双投影融合集成到两个分支。在表1和表2中，我们显示了上述四个数据集的定量比较。总的来说，我们的融合模型对FCRN [16]和Om-niDepth [38]以及我们使用单个分支的基线（即，Equi或Cube）。这验证了所提出的两分支网络的有效性，其中等角视图提供了更大的视场，而立方体映射则专注于非失真区域。此外，在Matterport3D和Stanford2D3D上，我们发现OmniDepth的官方实现（最初为360D [38]数据集设计）很难在这两个数据集上进行转换，因此我们添加了批量归一化[13]以成功训练模型，在表1中将其标记为OmniDepth（bn）。定性比较。从图6到图9，我们展示了四个数据集上深度图的定性结果。与FCRN和OmniDepth方法相比，我们的模型是468图6.Matterport3D的定性结果地面实况深度图中的黑色区域指示无效像素。图7.斯坦福2D3D的定性结果地面实况深度图中的黑色区域指示无效像素。表3.cubemap分支上填充方法的比较数据集方法MREMaeRMSE立方体w/zp0.25770.41360.6934Matterport3D立方体w/cp0.25050.39290.6628立方体w/sp0.22540.36600.6327立方体w/zp0.14570.26670.4511斯坦福2D3D立方体w/cp0.13320.25880.4407立方体w/sp0.12590.23880.4269立方体w/zp0.11950.13670.3441PanoSUCG立方体w/cp0.06280.08910.2946立方体w/sp0.06000.08400.2874立方体w/zp0.07610.13820.2819360D立方体w/cp0.06100.11630.2722立方体w/sp0.05880.11450.2614能够围绕边界产生更清晰的结果这可以归因于中央凹视图捕获详细信息，而具有较大FoV的外围视图提供全局背景。4.3. 更多结果和消融研究469表4.Matterport3D上融合方法的定性结果方法MREMaeRMSEYang等[三十一]0.26620.48420.7364平均0.26580.44050.7202我们0.20480.34700.6259如表3所示。通过应用我们的球形填充，cubemap分支Bc明显优于其他填充方法。此外图图10示出了应用不同浸轧方法的定性比较。当使用零填充时，六个面的深度图具有明显的边界伪影。使用立方体填充后，边界效果变得更加平滑，但仍然可以观察到，因为立方体填充不遵循几何关系。通过应用所提出的球形填充，我们能够保持边界，因为球形填充是使用球形投影计算的。融合方案。为了验证我们的融合模块，我们使用[31]中提出的融合方法通过直接添加两个特征图和特征平均方案在Matterport3D上进行两个基线。我们把这个展示给-球形填充的效果。为了进一步研究在立方体贴图中，我们比较了球形填充（SP）和其他两种填充方法，即，零填充（ZP）和立方体填充（CP）。仅cubemap分支上的定量结果如下：研究结果见表4。从结果来看，我们的方法明显优于基线。例如，与Yang 等人相比， MAE提高了 28%和23%。[31]平均值。另外，我们发现这种基线的训练是不稳定的，并且存在收敛问题，470图8.PanoSUCG的定性结果地面实况深度图中的黑色区域指示无效像素。图9.360D的定性结果地面实况深度图中的黑色区域指示无效像素。ZPCPSP图10.不同填充方法的定性结果。为了清晰的可视化，我们绘制了相反的深度来比较不同的填充方法。来自不同分支的梯度不能很好地平衡。这显示了集成我们的双投影融合方案的好处，该方案应用几个掩模来平衡fea。两个分支的结构。5. 结论在本文中，我们提出了一个端到端的360度深度估计网络，它结合了等距矩形和立方体图投影来模拟周边和中央凹的视觉效果。就像人类的眼睛。由于这两种投影具有互补性，我们利用双投影融合模块对它们的特征进行融合.此外，为了扩展立方体映射投影的视野并消除每个立方体面的边界不一致性，我们提出了球形填充，其连接来自相邻面的特征。实验结果表明，我们的方法达到国家的最先进的性能。鸣谢。该项目由该部资助。台湾科技部（MOST-109-2636-E- 009-018 ， MOST 109-2634-F-007-016 ，MOST 108-2634-F-07-06、MOST人工智能技术与全Vista医疗联合研究中心、台湾计算云）。471引用[1] 艾罗·阿尔梅尼、萨沙·萨克斯、阿米尔·罗山·扎米尔和西尔维奥·萨瓦雷塞。结合2d-3d语意资料于室内场景理解。CoRR，2017年。二、五[2] Y.曹，Z. Wu和C.沈使用深度全卷积残差网络从2[3] Angel Chang、Angela Dai、Thomas Funkhouser、MaciejHal- ber 、 Matthias Niessner 、 Manolis Savva 、 ShuranSong、Andy Zeng和Yinda Zhang。Matterport 3D：从室内环境中的rgb-d数据中学习2017年国际3D视觉会议。二、五[4] Hsien-Tzu Cheng，Chun-Hung Chao，Jin-Dong Dong，Hao-Kai Wen，Tyng-Luh Liu，and Min Sun.立方体填充用于360度全景视频中的弱监督显着性预测。在IEEE计算机视觉和模式识别会议上点火（CVPR），2018年。二、三、六[5] J. Cheng，Y.- H. Tsai，S.王和M H.杨Segflow：用于视频对象分割和光流的联合学习。 IEEEInternationalConference on Computer Vision（ICCV），2017年。5[6] 塔科湾 Cohen ， MarioGeiger ， JonasK ？hler ，andMaxWelling. 球形CNN 。在国际会议上学习表示（ICLR），2018年。3[7] M. Eder，P. Moulon，and L.关。Pano弹出窗口：基于平面感知网络的室内三维重建。2019年国际3D视觉会议（3DV）。3[8] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度神经信息处理系统进展（NIPS）2014. 2[9] Carlos Esteves 、 Christine Allen-Blanchette 、 AmeeshMaka- dia和Kostas Daniilidis。用球面cnn学习so（3）等变在欧洲计算机视觉会议（ECCV），2018。3[10] Huan Fu ， Mingming Gong ， Chaohui Wang ， KayhanBat- manghelich，and Dacheng Tao.用于单目深度估计的深度有序回归在 IEEE计算机视觉和模式识别会议（CVPR），2018。2[11] Clement Godard，Oisin Mac Aodha，and Gabriel J.兄弟-拖。具有左右一致性的无监督单目深度估计。在IEEE计算机视觉和模式识别会议（CVPR），2017。2[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR），2016年。二、五[13] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。在2015年的国际机器学习会议（ICML）上6[14] Diederik P. Kingma和Jimmy Ba。亚当：的方法用于随机优化。2014年国际学习表征会议（ICLR）。5[15] 赖雪英、蔡怡萱、邱伟贞。通过时空相关将立体匹配和光流连接起来响应在IEEE计算机视觉和模式识别会议（CVPR），2019。2[16] Iro Laina、Christian Rupprecht、Vasileios Belagiannis、Federico Tombari和Nassir Navab。使用全卷积残差网络进行更深的深度预测。 2016 年国际 3D 视觉会议（3DV）。一二四五六[17] Jae-Han Lee ， Minhyeok Heo ， Kyung-Rae Kim ， andChang- Su Kim.基于傅立叶域分析的单幅图像深度估计。在IEEE计算机视觉和模式识别会议（CVPR），2018。2[18] Fayao Liu，Chunhua Shen，and Guosheng Lin.用于从单个图像进行深度估计的深度卷积神经场。在IEEE计算机视觉和模式识别会议，2015年。2[19] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动差分。神经信息处理系统进展（NIPS），2017年。5[20] Ashutosh Saxena，Min Sun和Andrew Y. Ng. Make3d：从单个静态图像学习3D场景结构。IEEE TransactionsonPatternAnalysisandMachineIntelligence（TPAMI），2009年。2[21] Shuran Song、Fisher Yu、Andy Zeng、Angel X Chang、Mano-lis Savva和Thomas Funkhouser。语义场景完成从一个单一的深度图像。IEEE计算机视觉和模式识别会议（CVPR），2017年。6[22] Yu-Chuan Su和Kristen Grauman。内核Transformer网络用于紧凑的球面卷积。在IEEE计算机视觉和模式识别会议（CVPR），2019年。3[23] Yu-Chuan Su和Kristen Grauman。学习球面卷积快速功能，从360毫米图像。神经信息处理系统进展（NIPS）2017. 三、四[24] Benjamin Ummenhofer、Huizhong Zhou、Jonas Uhrig、Niko-laus Mayer 、 Eddy Ilg 、 Alexey Dosovitskiy 和Thomas Brox。Demon：用于学习单眼立体声的深度和运动网络。在 IEEE 计算机视觉和模式识别会议（CVPR），2017。四、五[25] Chaoyang Wang，Jose 'Miguel Buenaposada，Rui Zhu，and Simon Lucey.使用直接方法从单眼视频学习深度。在IEEE计算机视觉和模式识别会议，2018。2[26] 王福恩、胡厚宁、郑显子、林娟婷、杨尚达、施孟丽、朱宏国、孙敏。从360个视频中进行深度和相机运动的自我监督学习。亚洲计算机会议Vision（ACCV），2018年。二三五[27] 王宁旭，玻利瓦尔·索拉特，蔡怡萱，邱伟辰，孙敏。360 sd-net：360英寸立体声深度估计，具有可学习的成本量。arXiv：1911.04460，2019年。2[28] Peng Wang ， Xiaohui Shen ， Zhe Lin ， Scott Cohen ，Brian Price，and Alan L.尤尔。从单个图像实现统一的深度和语义预测。在IEEE计算机视觉和模式识别会议（CVPR），2015年。2[29] Dan Xu，Elisa Ricci，Wanli Ouyang，Xiaogang Wang，and Nicu Sebe.作为顺序深度的472用于单目深度估计的网络。在IEEE计算机视觉和模式识别会议（CVPR），2017年。2[30] Dan Xu ， Wei Wang ， Hao Tang ， Hong Liu ， NicuSebe，and Elisa Ricci.用于单目深度估计的结构化注意力引导卷积在 IEEE 计算机视觉和模式识别会议（CVPR），2018。2[31] Shang-Ta Yang ， Fu-En Wang ， Chi-Han Peng ， PeterWonka，Min Sun，and Hung-Kuo Chu.Dula-net：一个双投影网络，用于从单个rgb全景图估计房间布局。在IEEE计算机视觉和模式识别会议，2019年。二、五、七[32] Zhenheng Yang，Peng Wang，Wei Xu，Liang Zhao，and Ra- makant Nevatia.从具有边缘感知深度法线一致性的视频中无监督学习几何。2018年AAAI人工智能会议（AAAI）。2[33] 尹志超和石建平。Geonet：对密集深度、光流和相机姿态进行无监督学习。在IEEE计算机视觉和模式识别会议（CVPR），2018。2[34] HuangyingZhan ， RaviGarg ， ChamaraSarojWeerasekera，Kejie Li，Harsh Agarwal，and Ian Reid.单目深度估计和具有深度特征重建的视觉里程计的无监督学习在IEEE计算机视觉和模式识别会议（CVPR），2018年。2[35] Yinda Zhang，Shuran Song，Ping Tan ，and JianxiongXiao. Panocontext：一个用于全景场景理解的全房间3D上下文模型欧洲计算机视觉会议（ECCV），2014。2[36] Zhenyu Zhang，Zhen Cui，Chunyan Xu，Zequn Jie，Xiang Li，and Jian Yang.语义分割和深度估计的联合任务递归学习在欧洲计算机视觉会议（ECCV），2018。5[37] Tinghui Zhou ， Matthew Brown ， Noah Snavely ， andDavid G.洛视频深度和自我运动的无监督学习。在IEEE计算机视觉和模式识别会议（CV

下载后可阅读完整内容，剩余1页未读，立即下载