多模式空间校正器：自我中心场景理解中的视觉表示学习方法

101 浏览量更新于2023-10-25 收藏 21.99MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

28320通过多模式空间校正实现自我中心场景理解0Tien Do 1 Khiem Vuong 2 Hyun Soo Park 101明尼苏达大学2卡内基梅隆大学0图1.我们研究了从单视图自我中心图像中预测几何（深度和表面法线）的问题，其中包括动态物体（如手和人）。我们设计了一种多模式空间校正器，可以有效处理由头部运动引起的过度倾斜的图像（例如，当进行眼手协调时，近乎90度的俯仰角）。我们的方法在EPIC-KITCHENS[7]（左）、FPHA [18]（右上）和我们的EDINA（右下）数据集的未见图像上表现出很强的性能。0摘要0在本文中，我们研究了自我中心场景理解的问题，即从自我中心图像中预测深度和表面法线。自我中心场景理解面临前所未有的挑战：（1）由于头部运动较大，图像是从非规范视点（即倾斜图像）拍摄的，现有的几何预测模型不适用；（2）动态前景物体，包括手，构成了视觉场景的很大一部分。这些挑战限制了从大型室内数据集（如ScanNet[6]和NYUv2[36]）学习的现有模型的性能，这些数据集主要包含静态场景的直立图像。我们提出了一种多模式空间校正器，将自我中心图像稳定到一组参考方向，从而实现了一致的视觉表示学习。与通常会为自我中心图像产生过度透视变形的单模式空间校正器不同，多模式空间校正器从多个方向学习，可以减小透视变形的影响。为了学习动态前景物体的视觉表示，我们提出了一个名为EDINA（Egocentric Depth oneveryday INdoorActivities）的新数据集，其中包含超过50万个同步的RGBD帧和重力方向。借助多模式空间校正器和EDINA数据集，我们提出的方法0在单视图深度和表面法线估计方面，我们的方法不仅在我们的EDINA数据集上优于基线方法，而且在其他流行的自我中心数据集上也表现出色，例如First Person HandAction（FPHA）[18]和EPIC-KITCHENS [7]。01.引言0我们在结构化但相当复杂、无组织和动态的环境中与周围物体进行互动，这是由我们强大的自我中心感知能力所实现的，它有助于我们理解周围的三维场景几何。这种固有的感知能力与现有的计算机视觉系统形成鲜明对比，后者经过训练，能够处理由精心控制的相机记录的静态和井然有序的场景图像。尽管这些经过训练的模型在性能上表现出色，但在预测观察到非脚本化的日常活动中的自我中心图像的场景几何时，它们表现出极高的脆弱性，这些活动包括多样化的手-物体交互，由头部/身体佩戴的摄像头捕捉到。这需要额外的传感器，如IMU和深度传感器，用于增强/混合现实设备（例如Hololens和Magic LeapOne），以在我们的日常空间中提供交互和沉浸式体验。在本文中，我们研究了自我中心三维问题。28330场景理解-从单视图自我中心图像预测深度和表面法线。除了经典场景理解问题的挑战[6]，自我中心场景理解还面临两个挑战：（1）图像不再是直立的。头部运动引起了显著的横滚和俯仰运动，使场景通常以倾斜的方式呈现。特别是由于手眼协调的本质，自我中心图像在操作物体时受到严重的俯仰运动的影响，这与现有的数据分布（如ScanNet[6]、NYUv2 [36]和KITTI[19]）有很大的不同。（2）图像不仅包括背景物体，如家具、房间布局和墙壁，还包括动态前景物体，如人类和手臂/手（见图1）。经典场景理解主要集中在重建由这些背景物体组成的整体几何布局，而将前景物体视为异常值。相反，在自我中心场景中，这些前景物体更加显著，因为它们对不断变化的活动具有很高的指示性。0我们推测自我中心场景理解的挑战可以通过一种融合等变性基本原理的图像稳定方法来解决，称为空间整流器[8]，它是一种将倾斜图像转换为规范方向（即与重力对齐）的图像变形，使预测模型能够从直立图像中学习。这类似于我们通过对视觉刺激进行心理稳定来实现稳健感知[54]。然而，空间整流器在预测涉及大幅度头部运动（例如近90度的俯仰）的自我中心图像的3D几何时表现出较差，导致透视变形过大。我们提出了一种多模态空间整流器，通过推广规范方向，即不仅仅是单一的与重力对齐方向，我们从自我中心图像的方向中学习多个参考方向，从而减小透视变形的影响。我们的多模态空间整流器利用表面法线的分布将自我中心图像的聚类分为多个俯仰模式，在每个模式中学习一个专门用于矫正相关滚动角度的几何预测器（表面法线或深度）。0为了促进学习动态自我中心场景的视觉表示，我们提出了一个名为EDINA（Egocentric Depth on everyday INdoorActivities）的新数据集。我们的数据集包括16小时的室内活动的RGBD记录，包括清洁、烹饪、进食和购物。我们的数据集提供了同步的RGB、深度、表面法线和3D重力方向，用于训练我们的多模态空间整流器和几何预测模型。我们从EDINA中学到的深度和表面法线预测器不仅在EDINA数据集上表现优于基线预测器，而且在其他数据集上也表现优于EPIC-KITCHENS [7]和First Person HandAction（FPHA）[18]。0我们的贡献包括：（1）多模态空间整流器；（2）一个包含重力的自我中心RGBD大数据集，旨在研究自我中心场景理解，通过捕捉存在动态前景对象的多样化日常活动；（3）全面的实验，突出我们的多模态空间整流器和我们的EDINA数据集在自我中心场景的深度和表面法线预测方面的有效性。02. 相关工作0我们的自我中心场景理解位于单视图几何和等变空间整流器之间的交叉点。我们简要回顾相关工作。单视图深度和表面法线单视图场景理解方法通过利用大量数据（如ScanNet[6]）来监督学习从图像到3D场景几何的映射，例如深度[5,9, 10, 14, 20, 22, 24, 25, 29, 30, 32, 40, 42-45, 57, 59,60]或表面法线[1, 4, 8, 9, 23, 31, 40, 52, 53,58]已经取得了巨大的进展。在场景理解任务上表现出色的现有方法主要集中在以下两个方面：（1）设计深度神经网络架构[8, 14,24]；（2）利用有用的2D视觉线索学习3D几何，包括纹理[23]、消失点[53]、平面表面[32,52]和深度-表面法线一致性[40]。然而，它们仅仅依赖于大规模室内RGBD数据集，如ScanNet [6]、NYUv2[36]、Sun3D [56]和Sun RGBD[50]。然而，由于数据收集方法的特性，当将其应用于自我中心图像时，这些数据集上训练的模型在性能上会有明显的下降，原因有两个：（1）该模型没有接触到具有与直立图像显著不同的视觉模式的倾斜图像。（2）该模型在学习自我中心场景中丰富的动态前景对象方面能力有限，例如手、锅、平底锅、吸尘器、扫帚、宠物和人类。为了解决自我中心图像中的这些挑战，我们利用多模态空间整流器，允许将大规模现有数据集与自我中心数据集结合使用。旋转等变性等变性是视觉表示的几何属性：图像中的视觉表示必须根据场景的变换进行变换。在学习场景几何时，强制实现等变性可以得到几何上一致的学习模型。为了实现这一点，可以使用相机姿态[60]和重力方向[8]。例如，等变性被用于通过增加变换来学习场景的几何形状，即空间整流器[8]将倾斜图像矫正为直立（与重力对齐）图像[8, 48,49]。尽管在倾斜图像上有了实质性的改进，但空间整流器在自我中心图像上的性能表现较差。这主要是由于up( )Φ xx( )hΦ xΦΦxFigure 2. A spatial rectifier enforces equivariance property to learna geometrically coherent representation. When a point is trans-formed by W, its feature is expected to transformed accordingly,i.e., ΦpWxq “ hW ˝ Φpxq.by excessive warping of egocentric images due to a largevariation of camera angle, e.g., nearly 90 degree pitch an-gle when engaging eye-hand coordination. Our multimodalspatial rectifier prevents such excessive perspective warp bypredicting multiple reference directions, which significantlyimproves the egocentric scene understanding task.Egocentric Scene Datasets Egocentric scene datasets havebeen used for a wide range of tasks such as actionrecognition [11, 12, 39], action anticipation [2, 46], andmany others [15–17].Notably, Damen et al. [7] pro-posed EPIC-KITCHENS, a large-scale egocentric bench-mark with densely annotated actions and object inter-actions in the kitchen environment.A few egocentricRGBD datasets that exist were designed for activity recog-nition [18, 35, 47, 51]. With a few exception, such datasetsdo not include the 3D gravity direction that is critical forlearning an equivariant representation. Our EDINA datasetprovides synchronized RGBD and gravity directions cap-tured from an egocentric viewpoint with diverse daily activ-ities.3. MethodWe present a multimodal spatial rectifier that stabilizestilted images into multiple transformation modes.Thismethod minimizes the impact of perspective warping whileretaining equivariance property.3.1. Equivariant Spatial RectifierConsider a function Φ : R2 ˆ I Ñ Rn that predictsthe geometry of a pixel x P R2 in an image I P I, whereI “ r0, 1s3ˆHˆW is the image range (H and W are itsheight and width, respectively). We denote the prediction:y “ Φpx, Iq,(1)where y P Rn and n is the dimension of the geometry, e.g.,n “ 1 for depth, and n “ 3 for surface normal.A spatial rectifier [8] is learned to transform a tilted im-age I with the gravity direction g P S2 in the camera co-ordinate system to the upright image Iup with the uprightFigure 3. A unimodal spatial rectifier produces an excessive per-spective warp (middle) to align the image to the gravity direction,which significantly degrade the performance of geometry predic-tion. We use a multimodal spatial rectifier that warps to multiplereference directions that minimizes the impact of the perspectivewarping (right).gravity direction gup by explicitly enforcing an equivariantproperty through 3D rotation (Figure 2):hW ˝ Φpx, Iq “ ΦpWpx; Rupq, Iupq,(2)where W : R2 ˆ SOp3q Ñ R2 is a 2D transformation thatmaps a point in the tilted image to the upright image basedon the 3D gravity direction. That is, the transformation canbe determined by a homography induced by camera pure ro-tation Rup P SOp3q such that gup “ Rupg. Iup is warpedfrom the tilted image by W, i.e., Iup “ IpWpx; Rupqq.hW is the geometry transformation parametrized by W,e.g., (1) for the surface normal prediction, hW is equivalentto rotating the surface normal vector (S2), i.e., hW ˝ Φ “RupΦ; (2) for the depth prediction, hW is defined as:hW ˝ Φ “`RupK´1rx˘z Φ(3)where pvqz denote the 3rd coordinate of a vector v P R3,and K is the camera intrinsic matrix, and rx P P2 is thehomogeneous representation of x.Predicting the geometry of a tilted image can be modeledas a function composition:Φpx, Iq “ h´1W ˝ ΦuppWpx; Rupq, Iupq,(4)28340其中 h ´ 1 W 是空间校正器，Φ up是从正立图像中学习到的几何预测器。这种函数组合的一个关键优势是，Φ up 可以仅通过由正立图像（例如 ScanNet[6] 和 NYUv2[36]）构成的大型训练数据集进行训练，然后用于预测倾斜图像的表面法线。限制尽管空间校正器在倾斜图像上表现出色，但它在自我中心场景理解方面存在一个主要限制，即单模态校正。空间校正器旨在根据单一正立方向对倾斜图像进行变形，适用于滚动和轻微俯仰的相机旋转。相比之下，自我中心图像由于手眼协调而经常具有相当大的头部方向，导致严重的透视变形图像Iup（例如，90度俯仰倾斜图像），这反过来显著降低了几何预测器的性能，如图3（中）所示。Φpx, Iq “1i bibi h´1Wi ˝ ΦipWpx; Riq, Iiq ,(5)minimizetriuKi“1}gj ´ ri}22,(6)LSRpI, g, eq “ cos´1pgTfgpIqq ` cos´1peTfepIqq, (7)i1sptgjuDtrain, Kq;t “ řKi“1řjPCi }gj ´ ri}22;K Ð K ` 1;end28350多模态参考方向聚类0表面法线分布0(ScanNet + EDINA)0数据密度0高0重力方向0低0图4.与依赖于重力方向的单模态表面法线分布的空间校正器[8]不同（左图），我们提出了一种多模态空间校正器，通过学习多个参考方向（右图）来推广空间校正器。因此，场景数据集的表面法线分布可以分解为多个聚类，从而可以最小化图像变形的影响，更重要的是，学习一个几何上连贯的表示。03.2. 多模态空间校正器0我们通过利用一种称为多模态空间校正器的专家模型混合[33]来推广空间校正器模型，其中每个专家模型预测与空间校正模式相对应的几何：0ÿ0其中 b i P R ` 是混合变换的非负权重，R i是将倾斜图像的重力变换到第 i 个参考方向的旋转，即 r i“ R i g。I i 是通过 W i 从倾斜图像变形得到的，即 I i “ Ip W p x ; R i qq。参考方向 r P S 2 是正立重力 g up的推广，它指定了要进行变形的自我中心倾斜图像。Φ i是为第 i个参考方向设计的几何预测器。我们通过对自我中心图像的重力进行聚类来找到一组参考方向 t r i u K i “ 1，其中 K是预定义的参考方向的数量：0K0i “0ÿ0其中 C i 是训练实例的索引集，其重力方向最接近第 i个参考方向 r i。在实践中，我们设计了一个受 K-Medoids算法 [37] 启发的迭代算法，通过增加聚类数 K直到总偏差达到阈值。0低于阈值δ，表示数据拟合良好（参见算法1）。图4显示了每个聚类的重力聚类中心和图像以及它们的表面法线图。与空间校正器[8]类似，我们用两个单位向量表示3D旋转：（g，e）是重力和主方向。e是图像中表面法线分布的一种模式（详见附录）。实践中，我们对 t b i u 使用独热编码，即如果 r i 最接近 g，则 b i“ 1，否则为零。03.3.学习空间校正器0我们通过给定一组真实方向tp I , g , e , y quD来学习一个空间校正器，其中D是训练数据集。y P R n ˆH ˆ W是真实几何（n 为深度时n “ 1，为表面法线时n “ 3）。考虑两个可学习函数f g , f e : I Ñ S2，分别从图像中预测重力和主方向。这两个函数构成了一个空间校正器，可以通过最小化以下损失来学习：0算法1:确定参考方向0输入: δ, t g j u I j P Dtrain 输出: { r i u K i “1 K “ 1 , t “ δ ` ϵ ;while t ą δ do()R1h−ΦfgfeL “ÿtI,g,e,yuPDLGEOpy, Iq ` λLSRpI, g, eq.(8)LGEOpy, Iq “dpy, Φq “28360倾斜图像校正图像校正预测倾斜预测0图5.多模态空间校正器通过预测重力g和主方向e对自我中心图像进行校正，从而学习一个连贯的几何预测器Φ。0我们通过最小化以下损失来联合学习多模态空间校正器和几何预测器：0几何损失L GEO 用于衡量预测值与真实值之间的几何误差：0x d p y x , Φ p x , I qq ,0# | y ´ Φ | 用于深度的cos ´ 1 ` y TΦ ˘ 用于表面法线0其中 Φ p x , I q “ h ´ 1 W ˝ Φ p W p x ; R q , I q ,and R 可以通过 f g p I q 和 f e p I q 的预测计算得到。03.4.网络设计0多模态空间校正器是一个模块化的预测器，可以与几何预测器Φ结合使用，如图5所示。它通过f g和fe从输入的倾斜图像中预测重力和主方向。根据预测的方向，它计算旋转R，用于将图像变形为参考方向W。几何预测器以图像为输入，预测深度和表面法线。这些预测通过h ´ 1W进行反变形。实现细节：我们的网络以尺寸为320×240的RGB图像作为输入，并输出相同尺寸的表面法线或深度。我们使用ResNet-18架构来估计f g和fe，而几何预测器Φ在5.2中指定。所提出的模型使用PyTorch [38]实现，在单个NVIDIA Tesla V100GPU上使用批量大小为32进行训练，并使用Adam[26]优化器和学习率为10 ´4进行优化。我们训练模型20个epochs。04. EDINA数据集0我们提供了一个名为EDINA（Egocentric Depth oneveryday INdoorActivities）的新的RGBD数据集，用于从自我中心图像中学习3D几何。数据集中的每个实例都是一个三元组：RGB图像（1920×1080）、深度和表面法线（960×540）以及3D重力方向。数据是使用Azure Kinect收集的。0该数据集包含提供RGBD图像（深度范围：0.5-5.46m）和惯性信号（旋转速度和线性加速度）的34个摄像头。要求18名参与者在佩戴头戴式摄像头的情况下执行各种日常室内活动，例如清洁、分类、烹饪、进食、洗衣、训练/与宠物玩耍、散步、购物、吸尘、整理床铺、锻炼、扔垃圾、浇花、扫地、擦拭。摄像头朝下约45度，以确保观察手-物体交互。数据实例总数为550K张图像（16小时）。图6(a)展示了EDINA数据集的代表性示例，包括倾斜的自我中心图像，描绘了各种活动。重力方向与活动相关。例如，大多数烹饪和清洁活动是面朝下进行的，而购物和与他人互动是面朝前进行的，如图6(b)所示。图6(c)展示了清洁、烹饪、购物和家庭组织四个主要室内活动的数据量。与现有的场景数据集（如ScanNet）不同，自我中心场景的大部分像素属于前景。我们的数据集可在https://github.com/tien-d/EgoDepthNormal上获得。05. 实验0我们评估了我们的两个主要贡献：多模态空间校正的准确性以及在包括EDINA在内的多个数据集上的有效性。05.1. 评估数据集0HM3D[41]为了进行更多的受控实验，我们使用了HM3D，这是一个包含1000个独特的建筑尺度的真实世界3D重建数据集。数据由具有高视觉保真度的纹理3D网格重建组成，使我们能够从不同视点渲染出具有已知相机方向的逼真场景。我们从每个视点渲染RGB-D帧，并仅保留完整的视图（没有缺失的表面或重建伪影）。ScanNet [6]ScanNet是一个包含1500个序列的大型RGB-D室内数据集，涵盖了各种各样的场景。我们使用FrameNet[23]中使用的标准数据集划分，其中包括199,720帧用于训练和64,319帧用于验证。此外，我们还利用FrameNet的高质量地面真实法线与我们的EDINA数据集进行训练。评估指标我们使用多个标准指标评估预测深度的准确性，包括：(a)平均绝对相对误差（Abs.Rel），(b)平均平方相对误差（Sq.Rel），(c)对数均方根误差（log-RMSE），(f)均方根误差（RMSE），以及(g)估计深度ˆd的百分比，其中max p ˆd0ˆd q ă δ ，其中d˚是地面真实深度，25%50%75%100%10020030028370(a) EDINA图像、深度、表面法线和重力方向0(b) 重力分布0清洁烹饪0购物组织0其他0前景背景0清洁烹饪购物0组织0其他0分钟0(c) 活动0图6.我们提供了EDINA（日常室内活动的自我中心深度）数据集。(a)我们展示了各种活动的自我中心图像，包括深度、表面法线和重力方向（黑色）。(b)重力方向与自我中心活动高度相关。烹饪和清洁活动的图像几乎具有90˝的俯仰角，这与购物活动不同。(c)EDINA包括清洁、烹饪、购物和家庭组织四个主要室内活动。与ScanNet等现有场景数据集不同，自我中心场景的大部分像素属于前景。0δ “ 1 . 25 , 1 . 25 2 , 1 . 25 3 .在表面法线误差度量方面，我们还使用了最初在[1,13]中使用的标准度量方法：(a)误差的平均绝对值（Mean），(b)绝对误差的中位数（Median），(c)均方根误差（RMSE），以及(d)角度误差低于阈值ξ的像素百分比，其中ξ“5˝，7.5˝，11.25˝。EDINA（我们的方法）我们使用EDINA数据集来训练和评估我们的模型在表面法线和深度估计上的性能。该数据集总共包含550K个RGB-D图像和IMU测量数据，我们将其中由15个参与者收集的500K个图像作为训练集，并使用其余三个参与者收集的50K个图像作为测试集。我们还按照[28]的方法从深度图像生成地面真实法线。FPHA[18]我们使用的是FPHA（第18个数据集），它是一个自我中心的RGB-D数据集，包含1175个视频序列，涵盖了几种不同的手部动作类别，共计105,459个RGB-D帧，并遵循其官方的训练/测试划分。0FPHA是一个自我中心的RGB-D数据集，包含1175个视频序列，涵盖了几种不同的手部动作类别，共计105,459个RGB-D帧，并遵循其官方的训练/测试划分。05.2. 基线0我们使用最先进的场景理解方法构建了各种基线算法。(1)PFPN: Panoptic FPN[27]是一种轻量级的网络架构，已经在各种高分辨率预测任务中使用。我们使用ResNet-101[21]作为PFPN的基础网络架构，用于深度和表面法线估计任务。(2)PFPN+SR(e2):我们使用空间校正方法训练PFPN，该方法可以提高其性能。28380测试方法绝对相对误差平方相对误差对数均方根误差均方根误差小于1.25倍小于1.25倍平方小于1.25倍立方0MiDaS（MIX6）：0.194 0.079 0.267 0.247 68.20 83.96 93.140DPT（MIX6）：0.195 0.073 0.256 0.234 66.95 86.07 94.390PFPN（ScanNet）0.536 0.292 0.450 0.410 28.50 63.31 84.60 EDINA PFPN（EDINA）0.173 0.052 0.210 0.181 78.8192.97 97.060PFPN 0.161 0.044 0.197 0.168 81.03 94.16 97.680PFPN+MSR（我们的方法）0.145（-9.7%）0.041（-8.5%）0.182（-7.7%）0.155（-7.9%）84.06 94.54 97.870PFPN（ScanNet）1.252 0.893 0.788 0.580 10.36 28.07 48.87 FPHA PFPN（EDINA）1.229 4.114 0.802 1.483 25.9846.38 62.700PFPN 0.737 0.457 0.549 0.397 32.60 57.61 75.140PFPN+MSR（我们的方法）0.657（-10.8%）0.369（-19.2%）0.508（-7.3%）0.337（-15.2%）37.70 62.50 78.300表1. 我们比较了我们的方法（MSR）与EDINA和FPHA测试数据上的基线方法的深度预测性能。 :表示预测深度存在尺度不确定性，因此需要进行尺度校正步骤。括号中的数字显示了PFPN+MSR（我们的方法）相对于基线PFPN的误差指标减少的百分比，绿色高亮表示改进的百分比。0图7. PFPN、PFPN+SR(e2)和PFPN+MSR在HM3D测试集上的性能。深色和浅色表示分布内（在0°0分别为分布内（在0°和40°处）和分布外（在10°、20°和30°处）。0空间校正器[8]（SR）具有单模态参考方向e2。 (3)0具有单模态参考方向e3的空间校正器。 (4)PFPN+MSR：我们使用第3.2节中描述的多模态空间校正器（MSR）训练PFPN。 (5-8) DORN：DORN[14]是一种高容量的网络架构，最近被用于最先进的表面法线估计方法[8,23]。与PFPN类似，我们还使用单模态空间校正器在两个参考方向e2、e3上训练DORN，分别表示为DORN+SR(e2)、DORN+SR(e3)和DORN+MSR。 (9) MiDaS [44]，(10)DPT [43]：在大规模数据集MIX6[43]上训练的最先进的深度预测模型。由于MiDaS和DPT的深度预测存在尺度不确定性，我们使用最小二乘法[3,55]根据训练集上的地面真实深度来缩放预测的深度图。我们用METHOD(DATASET)表示在数据集上训练的网络，例如PFPN(EDINA)表示在EDINA数据集上训练的PFPN网络。0默认情况下，所有网络都是在ScanNet+EDINA上进行训练的。05.3. 性能基准0深度预测首先，我们通过使用HM3D数据集进行控制实验来展示我们的MSR的有效性。具体而言，我们从HM3D渲染出一个训练集，其中包含82,941个RGB-D帧，分别在直立（倾斜0°）和倾斜40°的方向上，以及一个测试集，其中包含3,944个RGB-D帧，分别在直立和倾斜角度为10°、20°、30°和40°。倾斜图像是围绕直立方向（滚动）的e3轴旋转渲染的。图7展示了PFPN、PFPN+SR(e2)和PFPN+MSR（在两种分布模式0°和40°下）在两种情况下的性能：（i）分布内：0°和40°，以及（ii）分布外：10°、20°和30°。我们可以观察到，在分布内的情况下，基线和MSR的性能相似，而PFPN+SR(e2)由于其过度变形而略微表现不佳。另一方面，在分布外的情况下，尽管基线方法在10°、20°和30°处退化，但SR和MSR都能够合理地推广，当倾斜角度进一步远离其中心模式（直立）时，SR稍微退化。表1展示了我们的多模态空间校正器的性能以及我们的EDINA数据集的有效性。配备我们的空间校正器（PFPN+MSR）的基线网络在所有评估指标上优于其他基线，不仅在我们的EDINA数据集上，而且在FPHA数据集上也是如此。虽然配备和不配备MSR的网络在EDINA上的性能差距很小，但在推广到FPHA时，差距显著。我们推测，EDINA数据集包含了大量的俯仰角变化，可以被PFPN等大容量网络过拟合。相反，FPHA数据集是从肩部安装的相机中获取的，对图像施加了更多的滚动运动，因此对于在EDINA上训练的PFPN来说，它会导致严重的退化。PFPN+SR (e2)20.2713.4128.4725.1034.0044.81PFPN+SR (e3)39.2031.1950.6316.2923.4730.06PFPN+MSR19.3012.5427.3726.0035.4946.74DORN19.5712.9227.0717.4229.0144.66DORN+SR (e2)19.9612.6828.4625.5335.0046.35DORN+SR (e3)21.9914.8330.4621.3329.8340.87DORN+MSR18.5611.5526.8326.5837.0449.1828390图8。EPIC-KITCHENS（左）、FPHA（右上）和EDINA（右下）的定性结果。对于EPIC-KITCHENS和FPHA，从左到右：（1）RGB图像，（2）使用在ScanNet和Edina上训练的PFPN的深度和表面法线，（3）使用在ScanNet和Edina上训练的PFPN+MSR的深度和表面法线。对于EDINA，从左到右：（1）RGB图像，（2）地面真实深度，（3）估计深度（无MSR和有MSR），（4）相应的深度误差（无MSR和有MSR）。0在ScanNet+EDINA数据集上进行了实验。我们得出结论，我们的MSR模块对学习自我中心场景几何有很大的益处。图8展示了我们的方法在EPIC-KITCHENS和FPHA上的定性结果。更多的定性结果可以在补充材料中找到。0此外，不使用自我中心数据的基线方法，即MiDaS（MIX6）、DPT（MIX6）、PFPN（ScanNet），在EDINA和FPHA上表现不佳。另一方面，仅在EDINA上训练的网络在自己的测试集上表现强劲，但在其他数据集（如FPHA）上缺乏泛化能力。这表明学习可以从ScanNet的大量高质量地面真实几何中获得极大的益处，结合我们的EDINA。0表2中，我们在EDINA数据集上将我们的方法与基线方法进行了比较，并展示了我们提出的多模态空间校正器在表面法线预测上的有效性。在中位数和严格阈值（ξ≤5°，7.5°）上，以e2作为参考方向的单模态空间校正器（PFPN+SR ( e 2)）相对于基线PFPN显示了显著的改进，但在RMSE和均值方面不如基线。此外，当只使用e3作为唯一参考方向（PFPN+SR ( e 3)）时，这个问题进一步加剧，这主要是由于在自我中心数据上过度变形非常常见。相反，通过预测多个参考方向，我们的PFPN+MSR可以推广到不同的视角，因此在所有指标上优于其他基线方法。需要注意的是，这也适用于DORN+MSR，表明它非常灵活，可以轻松集成到其他网络中。请参见图8以获取定性结果。0方法平均值 Ó 中位数 Ó RMSE Ó 5° Ò 7.5° Ò 11.25° Ò0表2。我们将我们的方法（MSR）在EDINA测试数据上进行了表面法线预测的性能与包括单模态空间校正器（SR）在内的基线方法进行了比较。06. 总结0在本文中，我们提出了一种新的多模态空间校正器，用于自我中心场景理解，即从单视角自我中心图像预测深度和表面法线。多模态空间校正器识别多个参考方向，从倾斜的自我中心图像中学习几何一致的表示。该校正器能够将图像变形到最接近的模式，以便该模式中的几何预测器能够准确估计校正场景的几何。为了促进我们的多模态空间校正器的学习，我们引入了一个名为EDINA的新数据集，该数据集包含550K个多样化室内活动的同步RGBD和重力数据。我们展示了EDINA与ScanNet互补，使我们能够学习到一个强大的多模态空间校正器。我们在自我中心数据集上评估了我们的方法，包括我们的EDINA、FPHA和EPIC-KITCHENS，结果优于基线方法。0致谢本工作部分得到了NSF CAREER IIS-1846031的支持。28400参考文献0[1] Aayush Bansal, Bryan Russell, and Abhinav Gupta.Marr重新审视：通过表面法线预测进行2D-3D对齐。在CVPR，2016年。2，60[2] Gedas Bertasius, Aaron Chan, and Jianbo Shi.从单个第一人称图像规划视角运动。在CVPR，2018年。30[3] Weifeng Chen, Zhao Fu, Dawei Yang, and Jia Deng.野外的单张图像深度感知。神经信息处理系统进展，29，2016年。70[4] Weifeng Chen, Donglai Xiang, and Jia Deng.野外表面法线。在CVPR，2017年。20[5] Xiaotian Chen, Xuejin Chen, and Zheng-Jun Zha.结构感知残差金字塔网络用于单目深度估计。IJCAI，2019年。20[6] Angela Dai, Angel X. Chang, Manolis Savva, Maciej Hal-ber, Thomas

下载后可阅读完整内容，剩余1页未读，立即下载