用于全景图像稠密预测的失真感知卷积滤波器

201 浏览量更新于2023-10-13 收藏 3.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

用于全景图像稠密预测的失真感知卷积滤波器Keisuke Tateno1，2，Nassir Navab1，3，和Federico Tombari11CAMP - TU慕尼黑，德国2Canon Inc.，日本3美国约翰霍普金斯大学抽象。对于360°全景图像和视频，存在对3D数据的高需求，这是由市场上用于捕获（例如，捕获）和视频的专用硬件的日益增长的可用性推动的全向相机）以及3D可视化（例如，头戴式显示器）全景图像和视频。同时，能够捕获3D全景数据的3D传感器是昂贵的和/或几乎不可用的。为了填补这一空白，我们提出了一种学习方法，从一个单一的图像的全景深度图估计。由于专门开发的失真感知可变形卷积滤波器，我们的方法可以通过传统的透视图像进行训练，然后用于回归全景图像的深度，从而绕过创建注释的全景训练数据集所需的工作。我们还展示了我们的方法，如全景单眼SLAM，全景语义分割和全景风格转移的新兴任务。1介绍360°全景视觉数据的可用性正在迅速增加，这要归功于市场上新一代廉价紧凑的全方位摄像机的可用性：仅举几例，理光Theta，Gear360，Insta360 One。与此同时，还有在3D全景显示器内利用这种视觉内容的需求也在增长，如由头戴式显示器（HMD）和新的智能手机应用程序提供的，由虚拟现实（VR）和游戏领域中的新兴应用程序然而，绝大多数当前可用的全景内容仅仅是单视场的，因为可用的硬件没有将深度或几何信息与所获取的RGB数据相关联的手段这自然地限制了体验这种内容时的3D感觉，即使当前硬件已经可以利用3D内容，因为几乎所有的HMD都具有立体显示器。因此，从硬件和应用的角度来看，强烈期望获得用于全景图像的3D数据的能力。然而，从全景视频或图像获取深度不是一件容易的任务。与常规透视成像的情况相反，在常规透视成像的情况下，存在现成的、便宜且重量轻的3D传感器（例如英特尔实感、Orbbec Astra），消费级3D全向摄像头尚未开发。用于获得360°全景RGB-D图像的当前设备依赖于一组深度相机（例如，一个或多个相机）。Matterport照相机4）、激光扫描仪（例如，FARO5），4https://matterport.com5https：//www.faro.com2K. tateno和N.Navab和F.通巴里输入全景图像全景图像上的标准CNN地面实况标准CNN在预校正立方体贴图上语义重建（已提出）全景图像上的失真感知CNN（建议）图1.一、从单个输入等矩形图像（左上），我们的方法利用失真感知卷积来显着减少影响传统CNN（底行）的深度预测中的失真。右上：同样的想法可以用于预测语义标签，从而从单个图像中获得全景3D语义分割。或移动机器人装置（例如，NavVis手推车6）。所有这些解决方案都特别昂贵，需要很长的设置时间，并且不适合移动设备。另外，这些解决方案中的大多数需要静态工作条件并且不能处理动态环境，因为设备经由机械旋转或被推来推去而递增地扫描周围环境最近，已经出现了针对从单个RGB图像进行深度预测的研究趋势。特别地，以端到端的方式使用卷积神经网络（CNN）[15，4，5]已经证明了以相对高的分辨率和良好的泛化精度回归密集深度图的能力，即使在没有单目线索来驱动深度估计任务的情况下。通过我们的工作，我们旨在探索使用学习方法从单视场360全景图像预测深度信息的可能性，这将允许基于全方位低成本摄像机。实现该目标的一个主要挑战是需要大量注释来训练深度预测，这仍然需要上述基于3D全景传感器的高成本、不切实际的解决方案。相反，如果我们可以利用传统的透视图像来训练全景深度预测器，则这将极大地有利于降低注释的成本并且有利于在各种条件（室外/室内、静态/动态等）下进行训练。通过利用公开可用的透视数据集的财富有了这个动机，我们的目标是开发一种学习方法，该方法在透视RGB图像上训练并回归360◦全景深度图像。主要问题是由等距矩形表示引起的失真：实际上，当将球形像素投影到平面上时，图像会明显失真6http://www.navvis.com/失真感知卷积滤波器3尤其是沿Y轴。这种失真导致深度预测中的显著误差，如图1所示。1（底行，左）。这个问题的一个简单但部分的解决方案是由整流。由于相机模型的视场限制，360◦全景图像不能校正为单个透视图像，因此通常使用6个透视图像的集合来校正它们，每个透视图像与不同的方向，即，一种称为立方体映射投影的表示[8]。然而，这样的表示包括在每个图像边界处的不连续性，尽管全景图像在那些区域上是连续的。因此，预测的深度也显示出不希望的不连续性，如图2所示1（底行，中间），因为网络的接收场终止于立方体映射对于这个问题，Suet al.[29]提出了一种从透视图像到等矩形全景图像的CNN域自适应方法。然而，他们的方法依赖于专门针对对象检测的特征提取，因此它不容易扩展到密集的预测任务，如深度预测和语义分割。我们建议通过利用图像失真的几何先验来修改网络的卷积，通过一种新的失真感知卷积，该卷积通过根据失真和投影模型使卷积滤波器的形状变形来因此，这些改进的滤波器可以在卷积操作期间直接补偿图像失真，从而校正感受野。这允许采用不同的失真模型来训练和测试网络：特别地，优点在于可以借助于标准透视图像来训练全景深度预测一个例子如图所示。1（底行，右），突出显示相对于标准卷积的失真的显著减少。我们通过用所提出的失真感知卷积替换最先进架构[15]的卷积层，在公共全景图像基准上展示了重建透视图像和等距矩形全景图像之间的深度预测任务的域自适应能力此外，我们还测试了语义分割的方法，并从单个全景图像获得360◦语义3D重建（见图11）。1，右上）。最后，我们展示了应用程序的示例阳离子的任务，如全景单眼SLAM和全景风格转移我们的方法。2相关作品基于单幅图像的深度预测由于深度学习的最新进展，人们对基于单幅图像的经典的深度预测方法采用手工制作的特征和概率图形模型[11][17]来产生正则化的深度图，通常通过过度约束场景几何来实现。最近开发的深度卷积架构在深度估计精度方面明显优于以前的方法[15][4][5][25][24][18][16]。与这种有监督的方法相比，还提出了基于立体图像的无监督深度预测这特别适用于难以获得精确密集距离数据的情况，例如：户外和街道场景。卷积单元的变形最近已经实施了使卷积算子的形状变形以改善CNN的感受野的方法4K. tateno和N.Navab和F.通巴里核感受野输入特征映射输出特征图图二. 失真感知卷积背后的关键概念是根据图像失真模型来变形采样网格，使得感受野被矫正。[13][12][13] Jeon等人提出了一种具有学习偏移量的卷积单元，通过学习每个卷积上的特征采样的固定偏移量来获得用于对象分类的更好的接收场Dai等人提出了一个更动态可变形的卷积单元，其中通过一组参数学习图像偏移[3]。Henriques等人提出一种扭曲卷积，使网络对一般空间变换（如平移和缩放变化或2D和3D旋转）保持不变[10]。Su等人提出一种方法来学习沿着每个水平扫描线的特定卷积核每个卷积核被重新训练，使得透视图像中的核的输出与等距矩形图像中的核的输出之间的误差虽然他们的目标是解决与我们的工作类似的问题，但他们的域自适应方法专门关注对象检测和分类，因此不能直接应用于密集预测任务，如深度预测和语义分割。此外，他们的方法需要单独地重新训练每个网络以适应等矩形图像域，即使图像失真系数将保持完全相同。在[27][26]中已经探索了通过几何融合从单个等矩形图像恢复3D形状和语义的方法。Yang等提出了一种通过施加几何约束来分析场景中的垂直和水平线段以及超像素小平面来从单个等角图像恢复3D形状的方法Xu等提出了一种通过结合表面取向估计和对象检测来估计室内空间的3D形状的方法[26]。这两种算法因此，这些方法不能应用于呈现无组织结构的场景，例如室外环境。3用于深度预测的失真感知CNN在本节中，我们用公式表示所提出的失真感知卷积算子。我们首先在Sec中介绍基本运算符第3.1条然后在Sec。3.2我们描述如何根据下式在失真感知卷积内计算自适应空间采样器：失真感知卷积滤波器5θXzΦθx（像素）p=（x，y）球形展开图像图三. 等矩形图像自适应采样网格计算综述。该方法首先将等距矩形图像中的每个像素点p变换到单位球坐标系下，然后在单位球坐标系下的切平面上计算采样网格，最后将采样网格反投影到等距矩形图像中，确定畸变采样网格的位置。等矩形投影随后，在SEC。3.3我们说明了我们的密集预测网络的体系结构，其具有用于深度预测和语义分割的失真感知卷积3.1失真感知卷积在我们的卷积算子的描述中，为了清楚起见，我们仅考虑4D卷积张量中关于2D空间卷积的部分，并且省略关于与通道数量和批量大小相关的附加维度的符号和描述。2D卷积运算如下进行：分为两个步骤：首先，通过在层l处的输入特征图fl上应用规则网格R来对特征进行采样，然后计算由w加权的特征的邻域的和。采样网格R定义了感受野大小和尺度。在标准3×3滤波器的情况下，网格简单地定义为R={（−1，−1），（−1，0），.，（1，0），（1，1）}。（一）特征图、网格或图像上的通用2D空间位置表示为（x（p），y（p）），即x和y是分别返回位置p的水平和垂直坐标的运算符。对于输入特征图fl上的每个位置p，每个输出特征图元素fl+1被计算为fl+ l（p）=Σr∈Rw（r）·fl（p+r）⑵其中r枚举R中的像素相对位置。在失真感知卷积中，通过函数δ（p，r）来变换采样网格R，该函数根据图像失真模型来计算像素位置的失真邻域。在这种情况下，（2）变为Σfl+ l（p）=r∈Rw（r）·fl（p + δ（p，r））.（三）yytypu（xu，yu，zu）txΦΦρuθ单位球面上的切平面Xz单位球坐标系反投影成等矩形图像y（像素）6K. tateno和N.Navab和F.通巴里通过根据失真函数δ（p，r）自适应地变形采样网格，接收场得到校正，如图1B所示。2.关于如何根据失真模型计算δ（p，r）的细节在第2节中给出。3.2.通过δ（p，r）计算的像素位置主要是分数，因此（3）是通过双线性插值计算为fl+ l（p）= Σq∈φ（pφ）G（q，p~）fl（q）⑷其中p~是通过失真函数δ（p，r），i获得的分数像素位置。e. p~=p+δ（p，r），并且δ（p~）表示与p~相邻的四个整数空间位置。此外，G（·，·）表示双线性插值核，即 G （ ·， · ） = G（ · ， ·） +G （ ·， · ） +G （ · ， · ） +G（·，·））。G（q，p）=max（0，1 − |x（q）− x（p）|）max（0，1 − |y（q）− y（p）|）的情况。（五）重要的是，在未失真的透视图像的情况下，如（3）中定义的卷积的结果与（2）中的规则卷积的结果相同。3.2基于单位球坐标系的采样网格变换这里，我们描述如何根据像素位置p和采样网格的相对位置r=（x（r），y（r））∈ R来计算失真像素位置δ（p，r）。图3示出了跨不同坐标系应用的整组变换首先，将等距矩形图像（x，y）上的点p的图像坐标变换为球坐标系ps=（θ，φ）中的经度和纬度。作为θ=（x−w）2π（六）H（22Wπ-y）H（七）其中w和h分别是以像素为单位的输入图像的宽度和高度然后，根据以下关系将纬度和经度（θ，φ）转换到单位球坐标系pu=（xu，yu，zu）xupu=yu=zucos（φ）sin（θ）sin（φ）（8）cos（φ）cos（θ）随后，在单位球坐标系中围绕像素位置pu的切平面，即，tu=（tx，ty）。为此目的，切平面的水平和垂直方向矢量tx，ty可以通过单位球坐标系υ=（0，1，0）的上矢量获得为t x=|υ × p u|（九）t y=|p u× t x|（十）失真感知卷积滤波器7XX其中×表示两个向量的叉积。在这一点上，我们注意到图像在这样的切平面上的投影表示：在原始等矩形图像上的像素位置周围发送校正图像p. 因此，原始图像P上的失真像素位置的期望集合可以通过将经由规则网格采样的切平面tu上的相邻位置反投影到等矩形图像坐标系来获得该采样网格被表示为r球，使用切平面的两个轴tx、ty和原始采样网格r=（x（r），y（r））∈ R上的相对元素位置来计算。因此，网格的每个元素可以被定义为r球=ρu·（tx·r（x）+ty·r（y））（11）其中ρu表示空间分辨率（即，单元之间的距离）在单位球坐标系上对应于初始等矩形图像的分辨率。等效于等矩形图像上的1个像素的分辨率可以是计算为：.Σ2πρu= tanw.（十二）虽然这里没有讨论，但有趣的是，虽然该分辨率相当于没有采样内核的膨胀，但可以通过增加ρu的值来获得内核的通用膨胀，这导致了全景图像的atrous卷积的定义[28]然后，与采样网格元素rsphere相关的切平面上的每个位置被计算为pu，r=pu+ r球面。（十三）最后，通过使用上述坐标变换的反函数，首先通过经过球坐标系，即，通过使用球坐标系，将每个元素pu，r=（xu，r，yu，r，zu，r）反投影到等矩形图像域。反相（8）θr=.01 -02- 01（zu，r）（如果xu，r>=0）u，r（十四）tan−1（zu，r）+π （否则）u，rφr=sin−1（yu，r）（15）然后通过落在原始2D等矩形图像域上x（r）=（θr2π+1）w2（十六）y（r）=（1−2φr）h.（十七）π先前定义的函数δ（p，r）计算相对坐标x（r）-x（p），y（r）-x（p）。y（p）。由于这些偏移在给定图像失真模型的情况下是恒定的，因此它们可以被计算一次并被存储以供以后使用。在等距矩形图像（和不同于鱼眼图像），由于在相同的水平位置上失真是恒定的，因此只有一组h *|R|需要存储偏移（|R|是网格/滤波器中的元素的数量）。同样重要的是要注意，从几何角度来看，如上定义的失真感知卷积等效于在单位球坐标系中的切平面上应用的卷积8K. tateno和N.Navab和F.通巴里培训透视RGB-D图像权重球形展开图像测试意识回旋CNN失真-标准CNN见图4。所提出的方法的一个主要优点是，标准卷积架构可以与透视图像的常见数据集一起使用，以训练权重。在测试时，在具有失真感知卷积滤波器的相同架构上传输权重，以便处理等距矩形图像。尽管该图报告了深度预测的情况，但我们将相同的策略应用于语义分割任务。3.3用于密集预测任务的CNN架构一般来说，失真感知卷积算子可以通过替换标准卷积算子来应用于任何类型的在这项工作中，我们通过修改[15]中提出的全卷积残差网络（FCRN）模型来构建我们的架构，给出了深度预测和语义分割的竞争结果。FCRN架构的下采样部分基于ResNet-50 [9]，并使用ImageNet [20]的预训练权重进行初始化，而上采样部分用一组由解池和卷积层组成的上采样残差块替换了ResNet-50中最初的全连接层。损失函数基于反向Huber函数[15]，而权重通过反向传播和随机梯度下降（SGD）进行优化。至于需要在网络上应用的修改，FCRN中的每个空间卷积单元被替换为失真感知卷积。像素混洗器单元（诸如在[15]中提出的用于提高计算效率的快速上卷积单元）被正常的解池化和卷积替换，因为快速上卷积中的像素混洗假设像素邻居总是一致的，而失真感知卷积中的特征采样不保持像素邻居一致性。另外，对于非池化层，我们用平均非池化代替最大非池化，即.取两个最近邻居的平均值来填充空条目。实际上，使用零来填充空条目的最大解池不能与失真感知卷积所使用的分数稀疏采样一起使用，因为使用零的插值不可避免地导致输出特征图中的伪影另外，为了获得逐像素的语义分割标签而不是深度值，修改最终层以具有与类的数量一样多的输出通道，而损失是交叉熵函数。这种模式允许我们通过利用常用的带有透视图像注释的数据集来训练网络实际上，网络的标准版本与其失真感知对应版本之间的权重完全相同。这个想法在图中描述4.第一章由于上述原因，这在全景图像的情况下是主要优点失真感知卷积滤波器9(a) StdConv（b）CubeMap上的StdConv（c）DistConv（建议）图五、在我们的实验评估中比较的方法：（a）等直角图像上的标准卷积，（b）通过立方体映射投影在6个校正图像上的标准卷积，（c）提出的等直角图像上的失真感知卷积。（a）原始图像（b）修补图像（c）校正透视图像图六、具有/不具有修补的等矩形图像和提取的校正透视图像的示例。具有密集注释的公共数据集对于深度预测和语义分割任务的限制。4评价本节提供了我们的深度预测任务的方法的实验评估（第二节）。4.2)和语义分割（Sec. 4.3)在等距360◦全景图像上。我们比较了它的定量和定性标准卷积的equirectangular图像以及立方映射纠正，即。校正360◦球面图像的标准方法，如图所示五、此外，我们还展示了全景深度预测对室外数据和全景单目的应用满贯最后，我们将我们的失真感知卷积推广到不同的任务（即，全景式传输）和不同的CNN体系结构（即，VGG）。补充材料包括进一步的定性评价。4.1实验装置为了实现我们的失真感知卷积和密集预测网络，我们使用TensorFlow7。我们在一台配备8GB GPU内存的NVIDIA Geforce GTX 1080上进行训练。FCRN架构的编码层的权重在NYU Depth v2数据集[21]上进行预训练，而上卷积的修改层（平均解池和卷积）被初始化为从具有零均值和0.01方差的正态分布中采样的随机滤波器。如第3.3、在校正后的透视RGB图像上训练网络，使用标准卷积预测相应的深度图，然后通过失真感知卷积在等矩形图像上测试网络作为测试的基准，我们使用7w.orghttps://www.tensorflo10K. tateno和N.Navab和F.通巴里GT（a）StdConv（b）CubeMap上的StdConv（c）DistConv（建议）见图7。斯坦福2D-3D-S数据集上深度预测的定性比较[1]。红色圆圈突出显示了由标准卷积模型（a）和CubeMap表示（b）引起的失真造成的伪影，这些伪影由我们的方法（c）解决。Stanford 2D-3D-S数据集[1]，提供了具有深度和语义标签的等矩形360°全景图像作为地面实况注释。数据集包括其中，官方划分包括用于训练的1040个图像和用于测试的372个图像。由于该数据集上的图像在极地区域附近缺乏颜色，因此它们被填充为零（见图1）。（见第6（a）段）。为了避免在训练过程中对网络产生偏见，我们应用了一种修复算法[23]，如图所示第6（b）段。为了创建用于训练的透视图像，首先我们从不同方向提取具有有限视野的图像。原始的360度全景图像。方向沿垂直轴（偏航旋转）以20◦间隔采样，沿水平轴（俯仰旋转）以15◦然后，我们将它们校正成如图所示的标准透视图6（c）.通过将像素从等矩形投影映射到透视投影来创建这些校正的透视图像[8]。训练图像的总数为216320= 1040×16×13。注意，360◦全景图像的深度图像存储相对于从相机中心位置到点的方向的距离，而不是沿着相机坐标系的z轴（正视方向）的距离。这通常发生在标准透视深度图中。这是因为如果相机的视场大于180◦，则它无法沿前视图方向定义负深度（它将为0或更小）。因此，提取和校正的透视图像的深度图也使用距离值而不是深度值来编码深度值。我们用标准卷积训练FCRN模型，批量大小为16，大约20个epoch。初始学习率为0。01，当我们观察到平台时，我们每6-8个时期逐渐减少;动量为0.9。训练中的校正透视图像被重新缩放到308×228像素，而校正透视图像被重新缩放到308×228像素。用于测试的等矩形图像被重新缩放为960×480像素，使得空间分辨率为960×480像素。1◦视角的分辨率在训练和测试之间是相当的。8https://matterport.com失真感知卷积滤波器11表1. （1）在斯坦福2D-3D基准数据集上的深度预测准确性方面的比较，以及（2）在由NYU深度数据集v2训练的斯坦福2D-3D基准数据集上的比较。(1)斯坦福2D-3D-S(2)NYU深度数据集相对值[m]均方根[m]log10 相对值[m]均方根[m]log10(a)标准转换0.2010.3950.0940.6040.6310.188(b)CubeMap上的标准转换0.2200.3710的情况。08180.6690.6920.195(c)DistConv（我们的）0的情况。1760的情况。3690.0829 0的情况。5170的情况。5780的情况。171训练图像：来自NYU深度数据库v2的透视RGB-D图像测试图像：图像来源：Stanford2D-3D-SGTStdConvDistConv（拟定）见图8。由NYU深度数据集v2训练的网络预测的斯坦福2D-3D-S数据集上的深度预测的示例。4.2全景深度预测表1报告了使用如在先前的作品[15][5][4]中提出的标准误差度量计算的深度预测的准确性，即地面实况深度和预测深度之间的相对误差（rel）、均方根鉴于表中的结果，我们可以得出结论，我们的方法优于相关方法。值得注意的是，在相对误差，这是特别敏感的小错误，我们的方法显示出显着改善的性能相比，其他人在log 10和rms的度量中，我们的方法和cubemap rectifica- tion显示出相当的结果。但是，就相对误差而言，cubemap比其他两个更差其原因可以通过观察图1所示的定性结果来确定。图7描述了三种评估方法的预测深度图以及顶视图重建，并将它们与地面实况进行比较。由于沿着图像边界的不连续性和沿着极区的失真，标准卷积的结果是相当不准确的（特别是在顶视图图像中可见）。cubemap的结果不显示这样的形状变形，但是在每个立方体贴图上的图像边界附近存在深度这是由于立方体图的每个图像的有限视场，这限制了CNN在这些区域上的接收场。为了补充以前的结果，我们还演示了如何我们的失真感知卷积可以在equirectangular图像上进行测试，同时在基准透视数据集上进行训练。该实验还显示了我们的方法在训练和测试之间适应不同数据集的泛化能力在这种情况下，网络在基准NYU深度数据集V2上训练[21]，并在斯坦福大学2D-3D- S上测试[1]。我们以类似于4.2中描述的方式训练FCRN模型，但仅使用12K. tateno和N.Navab和F.通巴里天花板地板墙柱梁窗门桌子椅子书柜沙发板杂物表2. 在斯坦福2D-3D基准数据集上比较每个类别的语义分割准确性。精度计算为求交除以并集（%）。天花板地板壁柱束窗口门表椅子书柜沙发板杂波总(a)标准转换60.8278.01 54.850040.1113.0834.5532.4544.91046.6518.8432.63(b)立方体贴图61.3272.72 61岁7700.2136.97十五岁45三十七5433.48四十八50048.3423岁4233.82(c)DistConv61岁5683岁4057.1700的情况。376四十二6513.8537.38三十五4147.17050块8519.52 三十四56GT（a）StdConv（b）CubeMap上的StdConv（c）DistConv（建议）见图9。斯坦福2D-3D-S数据集上语义分割的定性比较[1]。红色圆圈突出显示了CubeMap模型的极区和边界上的错误，这些错误在我们的失真感知方法中不存在。来自纽约大学深度数据集的数据。在训练期间，透视图像被重新缩放为160×128像素，而用于测试的等矩形图像被重新缩放为960×480像素，使得视角1 ◦上的空间分辨率在训练和测试之间是相当的。训练图像的示例示于图1的左侧。见图8。定量结果示于表1的⑵中。我们的方法优于标准卷积，虽然预测精度下降，由于不同的领域的场景。定性结果也示于图1B中。8.通常，标准卷积的结果往往在预测深度图中的极区上失败另一方面，我们提出的方法可以正确地预测这些区域。4.3全景语义分割我们评估我们的失真感知卷积的全景语义分割的任务。Stanford 2D-3D-S数据集中的语义标签由13个语义类组成。我们通过比较与深度预测实验相同的3种方法来进行评估。表2报告了语义分割的准确性，其计算为类式交集对并集（mIoU）的平均值，即使用与语义分割相关工作中使用的如表所示，与标准卷积和立方体映射方法相比，我们的方法显示出更好的准确性。特别是，我们的方法显着提高了“地板”类的准确性其中通常存在强失真，这对于标准卷积是典型的问题其他类的整体准确度失真感知卷积滤波器13GT天花板柱梁窗口门见图10。我们的深度预测和语义分割从单视场360全景图像的定性结果。训练图像：透视RGB-D图像测试图像：360等矩形图像通过DistConv预测的深度（建议）图11个国家。左和中：通过从Xtion pro深度相机获得的透视图像训练的室外场景中的预测深度。右：CNN-SLAM-360如从图中的定性结果9，我们可以看到标准卷积产生分割误差，特别是在极区附近。此外，从立方体图的结果中可以看到不正确的分割伪影，这是由每个立方体图图像上的视场限制另一方面，我们的方法在这些区域内具有更高的精度。我们还在图中示出了深度预测和语义分割10号，左边。语义重构结果通过单个单视场360◦图像推断。值得注意的是，我们的方法允许联合重建和语义分割相机周围的整个场景从单个图像，这将是不可能的，无论是通过标准深度预测，也不是通过SLAM或从运动恢复结构。4.4室外场景和全景单目SLAM为了补充以前的结果，我们展示了我们的方法在户外环境中的性能。由于我们的方法不依赖于任何几何假设，例如[27][26]使用的在这种情况下，我们在NYUv2和Stanford 2D-3D-S数据集上使用预先训练的网络，然后通过Xtion pro live获得的1200个RGB-D图像进行微调（如图11左侧所示）。在经由Insta360 One全向相机9获取的等矩形图像上测试网络：预测图在图11中示出。值得注意的是，我们的方法可以通过对基准数据集进行预训练并借助于消费者深度相机进行微调来预测来自户外场景的深度。我们还展示了基于单视360°全景序列的全景单目SLAM的扩展为了这个目标，我们已经借用了CNN-SLAM [22]的思想，其利用来自单目SLAM的深度估计来细化基于CNN的深度预测，从而产生相机姿态估计和融合的3D重建。申请9https://www.insta360.com/product/insta360-one/桌子椅子书柜沙发板杂物GT14K. tateno和N.Navab和F.通巴里样式图像（透视）内容图像（等矩形）样式图像（透视）结果（标准偏结果由DistAwareConv（我们由StdConv在CubeMap上显示结果由DistAwareConv（我们图12个。我们的失真感知卷积在全景风格转换中的应用。在等矩形数据上的CNN-SLAM中，我们引入了类似于[2]中的全向方法的多个针孔相机模型。重建和估计的相机姿态的示例在图1中示出。11岁对补充材料中包含其他定性结果。4.5应用于全景风格转换作为我们的失真感知卷积在任务方面的通用目的并且独立于特定的网络架构，我们将我们提出的卷积应用于称为全景风格传输的不同任务，即在[6]中提出的透视图像上的风格转移的等矩形全景图像的扩展。在这里，我们不采用FCRN网络，而是采用[6]中提出的修改后的VGG架构，其中用于对输入图像内容进行编码的网络部分通过用失真感知卷积替换标准卷积来修改。由于我们使用的样式图像是普通的透视图像，因此对样式图像进行编码的网络层依赖于原始卷积。图12中的中间行示出了样式转移的结果，而底部行示出了从样式转移的等矩形图像投影的透视图像。如红色高光所示，在标准卷积的结果和立方体贴图上的结果上可以看到一些边界和不连续性，因为标准卷积的样式转换没有考虑等矩形图像的失真和连续性。另一方面，从我们的方法的投影图像不显示这样的不连续性，显得更自然。5结论与标准卷积以及CubeMap表示相比，所提出的失真感知卷积被证明是有效的，用于深度预测和语义分割等两个密集预测任务我们还展示了对不同架构（FCRN和VGG）、纯透视训练集（NYU v2）和全景风格转换等进一步任务的成功未来的工作包括将我们的方法扩展到不同的失真模型，如等距投影和等立体角投影的鱼眼镜头和不同的预测任务，如目标检测或实例分割等矩形图像。失真感知卷积滤波器15引用1. 阿尔梅尼岛Sax，A.，Zamir，A.R.，Savarese，S.：用于室内场景理解的联合2D-3D语义数据ArXiv电子打印（2017）2. Caruso，D.，Engel，J.，Cremers，D.：全方位摄像头的大范围直接猛击。IEEE/RSJ智能机器人与系统国际会议（IROS）3. Dai，J.，Qi，H.，Xiong，Y.，李，Y.，张，G.，Hu，H.，魏云：可变形卷积网络。在：国际计算机视觉会议（ICCV），2017（2017）4. Eigen，D. Fergus，R.：预测深度，表面法线和语义标签与常见的多尺度卷积架构。In：In Proc.Int. Conf. 计算机视觉（ICCV）（2015）5. Eigen，D. Puhrsch，C. Fergus，R.：使用多尺度深度网络从单个图像进行预测。在：程序会议神经信息处理系统（NIPS）（2014）6. 洛杉矶的加蒂斯Ecker，A.S. Bethge，M.：利用卷积神经网络进行图像风格转换.In：Proc.Int. Conf. 计算机视觉和模式识别（CVPR）（2016）7. 戈达尔角Aodha，O.M.，Brostow，G.J.：具有左右一致性的无监督单目深度估计。In：In Proc.计算机视觉与模式识别（CVPR）国际会议（2017）8. Greene，N.：环境测绘和世界预测的其他应用。IEEE计算机图形学与应用（1986）9. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习Proc. 计算机视觉与模式识别（CVPR）（2016）10. Henriques，J.F.，Vedaldi，A.：Warped convolutions：空间变换的有效不变性机器学习国际会议（ICML）（2017）11. Hoiem，D.，Efros，A.，Hebert，M.：从一个单一的图像几何背景。计算机视觉和模式识别（CVPR）（2005）12. Jaderberg，M.，西蒙尼扬，K.，Zisserman，A.，kavukcuoglu，k.：空间Transformer网络。神经信息处理系统（NIPS）进展（2015）13. Jeon，Y.，Kim，J.：活动卷积：学习卷积的形状用于图像分类。在：程序会议计算机视觉与模式识别（CVPR）（2017）14. Kuznietsov，Y. Stuckler，J.，莱贝B：用于单目深度图预测的半监督深度学习。In：In Proc.计算机视觉与模式识别（CVPR）国际会议（2017）15. 莱娜岛鲁普雷希特角Belagiannis，V.，Tombari，F.，Navab，N.：使用全卷积残差网络进行更深的深度预测。在：IEEE 3D视觉国际会议（3DV）（arXiv：1606.00373）（2016年10月）16. 李，B.，Shen，C.，戴，Y.，den Hengel，A.V.，He，M.：使用深度特征和分层CRF回归从单眼图像的深度和表面法线估计。在：程序会议计算机视觉与模式识别（CVPR）pp. 111917. 刘，B.，Gould，S.，Koller，D.：从预测的语义标签进行单图像深度估计计算机视觉和模式识别（CVPR）（2010）18. 刘芳，Shen，C.，Lin，G.：用于从单个图像进行深度估计的深度卷积神经场在：程序会议计算机视觉与模式识别（CVPR）pp. 5162-5170（2015年）19. 朗JShelhamer，E.，达雷尔，T.：用于语义分段的全卷积网络In：In Proc.计算机视觉与模式识别（CVPR）国际会议（2015）20. Russakovsky，O.，Deng，J.，Su，H.，Krause，J.，Satheesh，S.，妈妈，S.，黄志，Karpathy，A.，Khosla，A.Bernstein，M.Berg，A.C.，李菲菲：ImageNet大规模视觉识别挑战。International Journal of Computer Vision（IJCV）115（3），21116K. tateno和N.Navab和F.通巴里21. Silberman，N. Hoiem，D.，Kohli，P.，Fergus，R.：室内分割和支持从rgbd图像推断。In：ECCV（2012）22. Tateno，K.，Tombari，F.，莱娜岛Navab，N.：Cnn-slam：实时密集单眼slam，具有学习深度预测。In：In Proc.Int. Conf. 计算机视觉与模式识别（CVPR）（2017）23. Telea，A.：一种基于快速行进法的图像修复技术。图形工具杂志9.1（2004）24. 王，P.，沈，X.，林芝，Cohen，S.，普莱斯BYuille，A.L.：从单个图像实现统一的深度和语义预测In：Proc.Conf. 计算机视觉与模式识别（CVPR）。pp. 280025. 徐，D.，Ricci，E.：多尺度连续crfs作为单目深度估计的顺序深度网络。In：In Proc.计算机视觉与模式识别（CVPR）国际会议（2017）26. 徐，J，Stenger，B.，Kerola，T.，Tung，T.：Pano2cad：从一个单一的全景图像的房间布局。IEEE Winter Conference on Applications of Computer Vision（WACV）（2017）27. 杨，H.，Zhang，H.：从单个全景图中高效地恢复3d房间形状In：Proc.计算机视觉与模式识别国际会议（CVPR）（2016）28. 余，F.，Koltun，V.：通过扩张卷积的多尺度上下文聚合In：ICLR（2016）29. Yu-Chuan，S.，Kristen，G.：Flat2sphere：学习球面卷积，从360度图像中获得快速功能在：程序会议神经信息处理系统（NIPS）（2017）30. 赵，H.，施，J.，Qi，X.，王，X.，Jia，J.：金字塔场景解析网络。In：In Proc.计算机视觉与模式识别（CVPR）国际会议（2017）

下载后可阅读完整内容，剩余1页未读，立即下载