基于深度学习的卫星立体匹配及重建

136 浏览量更新于2023-10-15 收藏 2.21MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6148×个基于深度学习的卫星多视点立体匹配高健*刘进*季顺平†武汉大学遥感与信息工程学院{jian gao，liujinwhu，jishunping}@ whu.edu.cn摘要卫星多视点立体（MVS）图像特别适合于大规模的地球表面重建。与近景相机和航空相机常用的透视相机模型（针孔模型）不同，推扫式线阵卫星相机的主流模型然而，在流行的基于学习的MVS方法中使用的单应性扭曲仅适用于针孔相机。为了将基于SOTA学习的MVS技术应用于卫星MVS任务，进行大规模地表重建，应考虑RPC翘曲。在这项工作中，我们提出，第一次，严格的RPC翘曲模块。有理多项式系数被记录为张量，RPC翘曲被公式化为一系列张量变换。基于RPC 翘曲，我们提出了基于深度学习的卫星 MVS（SatMVS）框架，用于大规模和宽深度范围的地球表面重建。我们还介绍了一个大规模的卫星图像数据集consisting 的 519 5120 5120 图像，我们称之为 TLCSatMVS数据集。卫星图像是从三线相机（TLC）获得的，该相机同时捕获三视图图像，形成对现有的具有单扫描线图像的开源WorldView-3数据集的有价值的补充实验表明，与针孔拟合方法和传统的MVS方法相比，本文提出的RPC变形模块和SatMVS框架可以实现更高的重建精度代码和数据可在https://github.com/WHU-GPCV/SatMVS上获得。1. 介绍基于多视点光学图像的三维场景重建是计算机视觉和遥感领域的研究热点。目前*同等捐款。†通讯作者。是两种主流的照相机模型：透视照相机模型（即，针孔模型）和三次有理多项式照相机（RPC）模型。流行的基于深度学习的多视图立体（MVS）方法[4，5，10，20，21，31，32，33]已经被设计和开发用于从针孔相机捕获的多视图图像。迄今为止，基于RPC的图像的基于深度学习的MVS任务，即光学卫星图像，尚未解决。基于RPC模型的推扫式线阵相机获取的多视角卫星影像是大规模三维地球表面重建的主要数据源，因此研究卫星MVS任务具有重要意义。在最近的基于深度学习的MVS方法[32，5，10]中，已经利用单应性扭曲来通过参考相机的一组假设的前平行深度平面将来自不同视点的图像对准到参考视图[32]。类似地，开发用于将多视图卫星图像对准到参考图像空间的特定扭曲方法可以将基于深度学习的MVS方法扩展到卫星图像。这项工作的主要贡献是，我们首次提出了一个严格的RPC翘曲模块。基于RPC翘曲模块，我们提出了SatMVS框架，用于基于深度学习的卫星MVS任务。SatMVS框架利用RPC扭曲来通过世界坐标系中的假设高度平面而不是前平行深度平面来对准多视图卫星图像。该算法采用特征金字塔上的多级粗到精匹配策略SatMVS框架还可以通过用RPC模型替换透视模型并引入多阶段策略来与大多数基于现代深度学习的MVS方法一起使用。另一个贡献是我们引入了一个新的开源卫星MVS数据集（TLC SatMVS数据集）。我们相信这是第一个由推扫三线相机（TLC）收集的图像构建的开源卫星该相机安装在资源三号卫星上。这个数据集将是一个有益的组合-6149×个补充现有的单一线性阵列WorldView-3数据集，如MVS 3D [3]和US 3D [2]。TLC和单扫描线相机之间的区别在于，前者在同一场景同时捕获三个图像总之，我们填补了本文的两个空白：（1）缺乏 RPC翘曲模块的缺陷，阻碍了最新MVS方法在卫星影像中的应用;2）缺乏大型开源TLC卫星MVS数据集，阻碍了卫星MVS和大规模地表重建的发展。2. 相关工作数据集。大多数公共立体数据集已经被创建用于近距离或小尺度场景的重建。双视图立体基准数据集的示例是Middlebury [26]、KITTI[8]和Sceneflow[22]数据集。 MVS 基准数据集包括 Middlebury-MVS[28] 、DTU[1] 、 Tanks and Temples[18] 和 ETH 3D [27] 数据集。作为这些近距离数据集的补充，Liu和Ji[20]创建了WHU MVS/Stereo数据集，这是第一个用于城市级地球表面重建任务的大规模多视图航空图像数据集。多视角卫星影像是地表重建的另一重要数据源。目前，有两个公共的多视图卫星数据集，这两个数据集都由WorldView-3单线阵列图像组成。一个是MVS3D数据集[3]，它提供了47个全色图像，覆盖阿根廷圣费尔南多附近约100km2然而，机载LiDAR地面实况数据仅覆盖约20km2的子区域，这对于基于深度学习的MVS方法是不够的另一个是 US 3D 数据集 [2] ，它由 69 幅WorldView-3图像组成，覆盖了美国两个城市的100平方公里的WorldView-3单线阵相机在不同日期采集因此，MVS3D和US3D数据集中的时间和季节变化导致MVS图像之间存在明显的视觉差异，从而对MVS任务产生负面影响。基于卫星图像的三维表面重建。3D地球从卫星图像重建表面主要通过传统的几何方法来实现，其可以大致分为两种主要类型。第一类方法是基于卫星图像的对极几何。这方面的一个例子是RPC立体声处理器（RSP）[24]。在这种类型中，首先根据RPC模型[30]对立体图像进行校正，然后使用诸如半全局匹配（SGM）立体方法[12]的立体匹配算法来估计视差。最后，视差图被转换成世界坐标系中的3D点另一种类型涉及安装一个COM-将RPC模型在一个小的区域内复用成针孔模型，然后使用立体/MVS流水线进行重建。这种类型的示例是卫星立体声管线（S2P）。[6] 用于双目立体图像，并将COLMAP [34]用于MVS图像。建筑成本量。成本体积构建是基于学习的立体/MVS方法的重要组成部分GC-Net [17]通过沿着视差方向连接左右特征图来生成立体匹配中的3D成本体积[11]通过考虑多补丁相似性，引入了MVS任务的学习成本度量。Sur-faceNet [16]和DeepMVS [13]将多视图图像预扭曲到3D空间中的扫描平面。大多数最近的现有技术方法[4，5，10，20，21，31，32，33]使用可区分的单应性扭曲来构建成本体积或成本图。给定参考相机在不同深度处的一组前平行平面，每个视图的图像（或提取的特征）通过3 × 3单应性矩阵被扭曲到参考相机的视图中然而，单应矩阵是从针孔模型推导出来的，因此它不适用于RPC模型的多视点[34]提出了一种解决方案，通过将RPC模型拟合到卫星图像的小块中的针孔模型中。然而，这种拟合策略打破了成像模型的严格几何关系，引入了不可避免的误差，同时还需要大量的预处理。基于深度学习的MVS方法。基于深度学习的MVS方法可以分为：1）基于3D卷积的方法，诸如MVSNet[32]、MVS-Net ++ [4]和P-MVSNet [21]，其应用一系列3D卷积来正则化成本体积;以及2）基于回流正则化的方法，诸如R-MVSNet [33]，其按深度处理不同深度的成本图。前一种方法是直观的，但需要更多的GPU容量。所有这些方法都是为使用自然图像而开发的。RED-Net [20]扩展了用于航空MVS任务的基于卷积门控递归单元（ConvGRU）的正则化方法[33最近还引入了基于多个阶段的建筑成本量的方法，例如，CasMVSNet [32]、CVP-MVSNet [31]和UCS-Net[5]，其中应用了粗到细的金字塔匹配结构。这些多阶段方法缩小了当前阶段的深度搜索范围，以构建具有较低存储器和较高深度方向采样率的薄成本体积，这有利于大规模场景重建。然而，难以将最先进的基于深度学习的MVS方法应用于具有复杂RPC模型的卫星图像。在本文中，我们试图通过提出一个通用的基于深度学习的卫星图像MVS框架（SatMVS）与一个新的严格的RPC翘曲模块来填补这一空白61502=124ΣΣΣ×个Σ联系我们·≡3(a)(b)（c）第（1）款图1：假设的（a）RPC扭曲中的高度平面，（b）深度平面和（c）重新参数化的深度平面。3. RPC翘曲3.1. 有理多项式相机模型RPC模型是最广泛使用高分辨率卫星图像中的相机模型。它用三次有理多项式系数连接象点和相应的世界坐标点。由方程式(1)中的3D点。表示为（latn，lonn， hein）的世界坐标（纬度，经度，高度）被变换到图像空间以获得归一化的图像坐标（sampn，linen），其对应于沿阵列和沿轨道方向。，分别。当量(2)是相反的版本。P_fwd和P_inv都是三次多项式，如等式（1）所示(3)，其中整数m1、m2和m3之和不大于3。图2：系数张量T。 When i, j, and k are equal, T ijk =aiajak(green blocks); when there are only two of i, j, and kequal, T ijk = aiajak/3 (blue blocks); when none of i, j,and k are equal, T ijk = aiajak/6 (orange blocks).通过单应矩阵和参考视图的一系列假设的前平行平面来确定参考视图。相比之下，RPC模型要复杂得多。sampnP向前（latn，lonn，hein）=1P向前（latn，lonn，hein）P向前（latn，lonn，hein）4（一）cated和它的扭曲不能仅用矩阵来公式化。在本文中，我们提出了一个严格和有效的线n=3P向前（latn，lonn，hein）RPC变形模块，它从根本上是一个高阶张量变换它投影图像（或提取的fea-latnn=Pinv（sampn，linen，hein ） Pinv （ sampn ，linen ， hein ） Pinv（ sampn ， linen ，hein ） Pinv （ sampn ，linen，hein）（二）通过世界坐标系中的一组假想高度平面（而不是参考P（X，Y，Z）=M1 m2m3i=0j =0k=0cijk·Xi·Yi·Zi（3）视图，因为在RPC模型中没有明确的物理参数来定义什么是相机的前面。图1示出了假设高度平面之间的差异我们使用假设的深度平面，并重新参数化显然，RPC模型是一般的几何模型，而不是物理相机模型;然而，已经证明RPC模型可以达到与严格传感器模型（RSM）[29，9]相当的非常高的精度，保证其成功地应用于所有的高分辨率光学卫星图像。3.2. 可微分RPC翘曲在针孔相机模型中，立体图像的对应像素之间的几何变换可以被公式化为给定深度的简单的3 - 3单应性矩阵。几乎所有最先进的MVS方法[4、5、10、20、21、31、32、33]都将源视图扭曲为[Zhang2019LeveragingVR]中使用的深度平面我们开始通过变换方程中的三元三次多项式。(3)四元数三次齐次多项式 f （ x1 ， x2 ， x3 ， x4 ） =（aiajak ）xixixk ，其中 x11和aiaj ak （i，j，k1、2、3、4）。通过设置x2=l〇 nn，x3= lat n，以及x4= hein，f成为RPC正向形式的分子或分母，并且通过设置x2=line n，x3=samp n，x4=hein ，f成为逆形式的分子或分母。请注意，我们在本节的所有公式中使用爱因斯坦求和约定。然后，四个变量x1，x2，x3，x4被表示为秩为1的张量X：X=（x1，x2，x3，x4）T，并且多项式系数被表示为秩为3并且形状为6151× ××--121finv（Xs）图3：SatMVS框架的结构。4 4 4（见图2）。通过张量收缩运算，计算一组张量[23]的重复索引的所有可能值的总和，RPC模型的分母和分母可以用张量形式表示：f（X）=TijkXiXjXk（4）Tijk中元素与aiajak的关系is: when i, j, and k are equal, T ijk = aiajak; when thereare only two of i, j, and k equal, T ijk = aiajak/3; whennone of i, j, and k are equal, T ijk = aiajak/6. 最后，在等式的左侧。(1)（2）可以很容易地通过划分分子和分母以元素的方式。然后，我们可以扩展此计算，以适应批处理操作和RPC转换，其中包含一组点：在反归一化之后，利用可区分的重采样将点（ samp_s ， line_s ）扭曲到对应的点（ samp_r ，line_r），例如双线性插值，以完成RPC变形。4. 基于学习的SatMVS框架我们提出了一个嵌入RPC扭曲的卫星MVS深度学习框架，我们称之为SatMVS框架。除了必要的部分RPC翘曲，我们认为，粗到细的多阶段处理也是必要的，在这样一个框架，以预测大范围的地球表面高程。其他部分，例如特征提取、成本图正则化和回归模块，可以从最先进的方法[10，20，31]中借用。最后得到了完整的SatMVSf（bm）（X）=T（b）X（bm）X（bm）X（bm）（五）框架，如图所示。3 .第三章。Ijk i jk其中X（bm）表示第b批中的第m个点，并且T（b）表示第b批中的系数张量。括号中的通过逐单元划分，可以一次性计算一批中所有点的RPC翘曲。具体来说，对于源图像中的点（samp s，line s）和给定的平面hei，我们根据可用的归一化参数（也是RPC参数的一部分）获得归一化形式（samp s ，n，line s，n，hein），并构造张量Xs=（1，samps，n，lines，n，hein），然后通过以下方式将其扭曲到参考视图上：4.1. 多尺度特征提取当前的多尺度MVS方法利用流行的特征提取器，例如特征金字塔网络[19]或UNet [25]。所有这些都可以在SatMVS框架中使用。对于实验，我们采用了权重共享的多尺度特征提取器[5]，其由具有跳过连接的编码器和解码器组成，以提取特征。该模块输出一个三尺度特征金字塔，其尺寸分别为输入图像尺寸的1/16、1/4、1，通道数分别为32、16、8。4.2. RPC整经sampr，nffwd（X0）ffwd（X）34（六）可能会有几百个巨大的海拔差异二0线r，n=ffwd（X0）ffwd（X0）卫星图像所覆盖的数千公里的景观我们假设最大高差为2公里。如果将高度间隔设置为2.5m（大致为其中X=.1，finv（Xs），finv（Xs），heiΣ，并且（·）表示-=403finv（Xs）n（·）ZY-3图像像素分辨率，800个假设平面可以覆盖整个海拔范围，具有像素级精度发送元素级除法。6152活泼相比之下，近距离数据集的深度搜索范围相对较小（例如，DTU数据集中的128或256个平面）。为了降低对GPU内存的高需求并提高学习速度，应用了来自特征金字塔的多尺度学习。在第一阶段（i=1），搜索范围应覆盖所覆盖区域的最大高度和最小高度之间的范围。此信息可以在可用的RPC参数中找到另外，几个开源的全球数字高程模型（DEM）产品，如航天飞机雷达地形任务（SRTM）DEM [15]或高级星载热发射和反射辐射计（ASTER）全球数字高程模型（GDEM）[7] 可以作为信息来源。假想平面的数量在第一级中是固定的（例如，64）。然后通过将高度差除以假想平面的数量来确定高度间隔对于级i（i2），假想平面的间隔和数量根据经验固定，并且假想平面以最后级的参考高度为中心。通过RPC扭曲将来自源视图的特征图扭曲到参考视图以形成多个特征体积，然后使用基于方差的操作将其融合到成本体积[32]。4.3. 正则化最近的MVS网络使用一系列3D卷积[32]或2D卷积GRU [33]来正则化成本量。两者都可以在SatMVS框架中使用。在实践中，我们使用RED-Net [20]的递归编码器-解码器结构来正则化在每个阶段构建的成本图。与3D卷积相比，RED结构沿着高程方向顺序地正则化成本图，以实现高效率和低存储器成本，这显著有利于处理具有宽高度搜索范围的大容量卫星图像4.4. 身高推断在正则化之后，沿着高度方向应用软argmin操作以用于子像素估计。在训练阶段，金字塔网络以三种分辨率输出高度图。类似于当前的工作[2，10]，总损耗被定义为三个阶段L1损失，其中权重分别为{0.5，1，2}4.5. 管道我们设计了一个完整的流水线，用于基于RPC的网络重建最终的DSM，包括1）图像预处理; 2）MVS推理; 3）DSM生成。在预处理中，将世界坐标系（通常为WGS-84坐标系）中的研究区域划分为规则块，并将每个块投影到图4：资源三号卫星的三线阵相机（TLC）该区块内最大高程平面和最小高程平面的MVS卫星图像计算不同视图中两个投影区域的最小边界矩形此过程确保多个视图的经裁剪图像块之间的充分重叠。此外，伽马校正和线性增强可用于改善对比度。在MVS推断中，裁剪的图像被馈送到所提出的SatMVS框架中。每个视图图像被视为参考图像以依次推断高度图。在DSM生成中，几何一致性[32]用于过滤掉不同视图的推断高度图中的离群值。如果来自第j个视图的重新投影的点与参考视图中的原始点之间的距离小于1个像素，则估计结果被认为是几何上一致且有效的。然后将有效的匹配结果变换到通用横轴墨卡托（UTM）坐标系并重新采样到正则化DSM。我们还提出了单应性扭曲版本的SatMVS管道。对于不能直接用于卫星图像的基于单应性扭曲的网络，在图像预处理部分中，根据[34]将每个裁剪图像的RPC模型拟合到针孔模型。在MVS推理和DSM生成部分，始终使用拟合模型代替严格的RPC模型。5. 卫星MVS数据集5.1. 数据源本节描述我们构建的卫星MVS数据集三视图图像是从安装在资源三号（ZY-3）卫星上的TLC相机收集的。天底点和两幅侧视图的地面分辨率分别为2.1m和2.1m2.5 m，分别（见图4）.资源三号卫星作为测绘三维制图的专业卫星，在我国具有广阔的应用前景。6153×个×个×个×个×个联系我们}{图像大小（像素）七六八二四六零八二小行星92162小行星138242小行星18432 2230402最小拟合误差（像素）0.000150.000100.001810.001520.001060.00257最大拟合误差（像素）0.162041.091682.427143.897245.355146.62046表1：用针孔模型拟合RPC模型的误差随着图像块的大小而增加它几乎在同一时间拍摄同一场景，不受光照和季节变化的影响，这与使用单个线阵相机的WorldView系列RPC参数已经被预先校准，以实现亚像素重投影精度。地面实况DSM是从高精度LiDAR ob-tube和高精度LiDAR ob-tube两个数据源准备的。服务和地面控制点（GCP）支持的摄影测量软件[14]。DSM存储为WGS-84大地坐标系和UTM投影坐标系下的5-m分辨率规则网格。5.2. TLC SatMVS数据集我们构建了两个版本的TLC SatMVS数据集。第一个版本是大尺寸卫星图像的集合，第二个版本是用于训练和测试具有主流GPU容量的学习方法的现成版本在第一个版本（见图）。5），有173组图像（我们称一个三视图图像为一组），其中127组被分开用于训练，其余的用于测试。每一组包含16位全色三视图图像与5120- 5120像素大小，RPC参数，和地面实况DSM，覆盖约125平方公里。三视图图像的重叠率大于95%。第二个版本（现成的版本）包含裁剪补丁的图像（见图）。图6）、每个块的RPC参数和对应的高度图，其通过将DSM投影到具有RPC参数的图像而获得。高度图在理论上等同于近距离MVS数据集中的深度图，但是存储图像中的对应像素的高度而不是深度信息。具体来说，每5120 5120将图像裁剪成具有重叠率768384个块在水平和垂直方向上均为5%那里共培训5011套。我们还提供了一个辅助版本，其中我们根据UTM坐标系下的[34]将深度图是通过将地面实况投影到具有拟合针孔相机参数的贴片来获得的。6. 实验6.1. 用针孔模型拟合RPC模型在这项工作之前，在常规卫星MVS [34]中使用针孔模型拟合复杂RPC模型。拟合误差是不可避免的，并且随着图像块的大小而增加。如表1所示，最大拟合误差在大小为图5：大尺寸卫星图像（（a）、（b）和（c）是后向、前向和最低点视图图像）和来自TLC SatMVS数据集的相应地面实况（d）的集合的示例。图6：用于训练的TLC SatMVS数据集的现成版本。从左到右的图像是向后、向前和最低点视图的图像块，下面是相应的高度图。768 × 768像素，但在23040 × 23040像素的大小下可达到 6 个以上像素，这大约是 ZY-3 TLC 图像或WorldView-3图像的大小。图图7还示出了XY平面中的误差分布。请注意，在严格的RPC模型中没有几何误差。6.2. 模型评估实施详情。我们评估了建议SatMVS框架嵌入RPC扭曲的TLC SatMVS数据集。该框架在PyTorch中实现，并在单个NVIDIA TITAN RTX GPU（24GB）上进行训练不同的MVS架构，包括RED-Net，CasMVSNet和UCS-Net，被集成到所提出的框架中。超参数在所有实验中遵循相同的设置：在训练阶段，批量大小设置为1，并选择RMSprop作为优化器。所有网络都以0.001的初始学习率训练了35个epoch，并在第10个epoch后缩小了2倍。采用三阶段分层匹配来推断由粗到细的高度或深度图。对于TLC图像，输入图像N的视图数固定为3。假设高度平面的数量设置为六十四三十二8，相应的间隔为（dmax dmin）/64，5m，2.5m，UCS-Net实施除外，其中其自身的自适应间隔决定了6154×个方法MAM（m）RMSM（m）<250万（%）<750万（%）Comp.（%）运行时调整COLMAP[34]2.2275.29173.3596.0079.1077min27sRED-Net[20]*2.1714.51474.1395.9181.829分15秒CasMVSNet[10]*2.0314.35177.3996.5382.334min02sUCS-Net[5]*2.0394.08476.4096.6682.083分47秒SatMVS（RED-Net）1.9454.07077.9396.5982.2913分52秒SatMVS（CasMVSNet）2.0203.84176.7996.7381.5412分20秒SatMVS（UCS-Net）2.0263.92177.0196.5482.2113分17秒表2：TLC SatMVS数据集上不同MVS方法的定量结果。建议SatMVS与RPC翘曲实现三种不同的基于学习的MVS方法的高度推断。最近嵌入有拟合单应性扭曲的深度MVS方法用 * 标记。）方法MAE（月）RMSE（m）<250万（%）<750万（%）Comp.（%）运行时RED-Net（2048×1472）2.1714.51574.1395.9181.829分10秒RED-Net（5120×5120）2.517（+0.346）4.873（+0.358）66.42（-7.71）95.53（-0.38）81.44（-0.38）4分17秒SatMVS（RED-Net）（2048×1472）1.9454.07177.9396.5982.2913分钟12秒SatMVS（RED-Net）（5120×5120）1.946（+0.001）4.224（+0.153）77.88（-0.05）96.54（-0.05）82.35（+0.06）5分52秒表3：SatMVS（RED-Net）和RED-Net（具有拟合的针孔模型）在具有不同大小的TLC SatMVS数据集上的定量结果。图7：RPC至针孔模型拟合的误差分布。X和Y坐标表示图像块的列和行坐标，并且Z轴表示拟合误差。应用策略。我们还在MVS流水线上进行了实验，用拟合的单应性扭曲模块代替RPC扭曲模块。请注意，这里使用双精度浮点来摆脱数值精度问题。至于适应的COLMAP[34]，由于它本身是一个完整的常规卫星MVS管道，我们直接使用它自己的框架进行重建。我们采用四个常用的指标来评估最终DSM的质量：1）平均绝对误差（MAE），即，在地面实况和估计的DSM之间的所有网格单元上的L1距离的平均值;2）均方根误差（RMSE），即，地面实况和估计之间的残差3）具有L1距离误差的网格单元的百分比低于2.5m（与地面样本距离（GSD）近似等变）和7.5m（2.5m和7.5m）的阈值。<7.5m）;和4）完整性（Comp. ），即，最终DSM中具有有效高度值的格网单元的年龄百分比。 TLCSatMVS数据集评价。由于目前没有用于卫星图像的基于深度学习的MVS方法，因此我们仅将所提出的SatMVS框架与最近的常规方法进行比较，即，调整了COLMAP [34]，它使用针孔相机模型来拟合RPC模型。此外，我们将最近的基于学习的方法[5，10，20]与拟合的单应性扭曲嵌入到我们的流水线中以生成DSM用于比较。相比之下，我们的SatMVS应用严格的RPC翘曲与不同的MVS正则化方法在管道中的测试集的图像被裁剪成补丁的大小约为2048 - 1472像素的推断。结果列于表2中。从表2中可以得出几个结论。首先，所有基于学习的MVS方法的性能优于传统的自适应COLMAP方法。在RMSE度量中，优势是明显的，这表明学习方法具有较低的推断方差。图8示出了由RED-Net（具有拟合的单应性扭曲）、 SatMVS （ RED-Net ）和适配的COLMAP产生的重构DSM的样本。未能匹配的区域被着色为白色，其中大部分遭受具有挑战性的场景（遮挡、云、阴影和无纹理的水面）。与自适应COLMAP相比，学习方法的DSM结果是6155×个×个×个×个图8：RED-Net（homo）、RED-Net（RPC）和适应性COLMAP的结果[34]。图9：具有RPC变形和单应性变形的CasMVSNet和UCS-Net的定性结果更完整，特别是RPC的翘曲版本。其次，使用严格的RPC模型的性能其原因是拟合模型也可以达到2048 ×1472像素大小的亚像素精度，如表1所示。第三，基于深度学习的方法的推理比传统的自适应COLMAP方法快得多。然而，RPC翘曲的速度低于单应性翘曲，因为后者仅建立在简单的3 - 3矩阵乘法运算上。对较大图像的评估我们处理所有的-在NVIDIA RTX A6000 GPU（48 GB）上使用RED-Net和我们的SatMVS（RED-Net）处理5120和5120像素大小的图像。结果如表3所示。在处理5120 ~ 5120幅图像时，观察到：（1）由于拟合误差的增加，RED-Net的性能严重下降，但我们的RPC变形方法保持稳定;（2）SatMVS算法的性能明显优于RED-Net算法，证明了该算法的有效性和优越性;（3）两种算法的效率都有了明显的提高，达到了相当的水平。除了高效率之外，使用更大容量的图像已经显著地简化了过程，因为当DSM不可用时，将图像裁剪成高度重叠的小块是困难的，并且处理小块将导致重叠区域中的重复和冗余匹配。应该提到的是，在这里我们只使用RED-Net，因为使用CasMVSNet和UCS-Net的内存消耗是负担不起的。7. 讨论我们没有在其他数据集上进行更多的实验。这样做的原因是，有非常少的数据集，适合卫星MVS问题。现有的MVS3D数据集[3]非常小，并且被设计用于测试基于非学习的方法。US3D数据集[2]针对联合重建和分割任务，其中不同视图的立体图像在照明和季节变化方面变化显著。我们未能用这些数据集中的任何一个训练有效的深度学习模型。本文提出的TLC SatMVS数据集极大地缓解了这种情况，将有助于基于深度学习的卫星MVS方法的研究此外，TLC相机比诸如安装在WorldView系列上的单个线阵相机更适合于地球表面重建。8. 结论本文首次提出了卫星MVS任务的严格RPC翘曲模型。通过对模拟数据和TLC SatMVS数据集的测试，验证了翘曲模型的优越性。实验还表明，提出的基于学习的SatMVS框架比传统的方法和SOTA学习为基础的方法处理大容量的卫星图像时，表现得更好此外，我们还提供了高质量的TLC SatMVS数据集。我们相信，我们的工作将促进从MVS卫星图像重建地球表面的发展。6156引用[1] Henrik Aanæs ， Rasmus Ramsbøl Jensen ， GeorgeVogiatzis，Engin Tola，and Anders Bjorholm Dahl.多视点立体视觉的大规模数据 International Journal ofComputer Vision，120（2）：153-168，2016。二个[2] Marc Bosch 、 Kevin Foster 、 Gordon Christie 、 SeanWang、Gregory D Hager和Myron Brown。附带卫星图像的语义立体。2019年IEEE计算机视觉应用冬季会议（WACV），第1524- 1532页IEEE，2019。二、五、八[3] Marc Bosch 、 Zachary Kurtz 、 Shea Hagstrom 和 MyronBrown。卫星图像多视立体基准。2016年IEEE应用图像模式识别研讨会（AIPR），第1-9页。IEEE，2016.二、八[4] 陈博恒、杨孝坚、陈宽文、陈永胜。Mvsnet++：学习基于深度的注意力金字塔功能，用于多视图立体。IEEE Transactions on Image Processing ， 29 ： 7261-7273，2020。一、二、三[5] Shuo Cheng，Zexiang Xu，Shilin Zhu，Zhuwen Li，LiErran Li，Ravi Ramamoorthi，and Hao Su.使用具有不确定性意识的自适应薄体积表示的深度立体声在IEEE/CVF计算机视觉和模式识别会议论文集，第2524-2534页，2020年。一二三四七[6] Carlo De Franchis ， Enric Meinhardt-Llopis ， JulienMichel，Jean-Michel Morel，and Gabriele Facciolo.一个自动和模块化的立体管道推扫图像。ISPRSAnnals of thePhotogrammetry，Remote Sensing and Spatial InformationSciences，2014.二个[7] ASTER GDEM SRTM DTED。Aster全球dem验证总结报告。2009. 五个[8] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。2012年IEEE计算机视觉和模式识别会议，第3354-3361页。IEEE，2012。二个[9] J. Grodecki和G.表盘有理多项式描述的高分辨率卫星影像区域网平差光测工程与遥感，69：59-68，2003. 三个[10] Xiaodong Gu，Zhiwen Fan，Siyu Zhu，Zuozhuo Dai，Feitong Tan，and Ping Tan.级联成本体积高分辨率多视图立体和立体匹配。在IEEE/CVF计算机视觉和模式识别会议论文集，第2495-2504页，2020年。一、二、三、四、五、七[11] W. Hartmann，S. Galliani，M.阿夫莱纳湖范古尔，还有K.辛德勒已学习多面片相似性。在IEEE国际计算机视觉会议（ICCV）中，第1595-1603页，2017年。二个[12] 海科·赫希穆勒基于半全局匹配和互信息的立体图像处理 IEEE Transactions on pattern analysis and machineintelligence，30（2）：328-341，2007. 二个[13] Po-Han Huang ， Kevin Matzen ， Johannes Kopf ，Narendra Ahuja，and Jia-Bin Huang. Deepmvs：学习多视图立体视觉。在IEEE计算机视觉和模式识别会议论文集，第2821-2830页，2018年。二个[14] inpho. 网址： https://geospatial.trimble.com/products- 和 -solutions/inpho。六个[15] Andy Jarvis ， Hannes Isaak Reuter ， Andrew Nelson ，Edward Guevara，et al.用于globe版本4的孔填充srtm 可从 CGIAR-CSISRTM90m 数据库（ http ：//srtm.org/css/SRtm.html）获得。csi cgiar。org），15：25-54，2008. 五个[16] Mengqi Ji，Juergen Gall，Haitian Zheng，Yebin Liu，and Lu Fang. Surfacenet ： An end-to-end 3d neuralnetwork for multi-view stereopsis.在IEEE计算机视觉国际会议论文集，第2307-2315页，2017年。二个[17] Alex Kendall、Hayk Martirosyan、Saumitro Dasgupta、Peter Henry、Ryan Kennedy、Abraham Bachrach和AdamBry。深度立体回归的几何和上下文的端到端学习在IEEE计算机视觉国际会议论文集，第66-75页，2017年。二个[18] Arno Knapitsch ， Jaesik Park ， Qian-Yi Zhou ， andVladlen Koltun.坦克和寺庙：大规模场景重建的基准。ACM Transactions on Graphics（ToG），36（4）：1-13，2017。二个[19] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉特·哈里哈兰和塞尔日·贝隆吉. 用于目标检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集，第2117-2125页，2017年。四个[20] 刘进和季顺平。一种新的循环编码器-解码器结构，用于从开放的航空数据集进行大规模多视图立体重建。在IEEE/CVF计算机视觉和模式识别会议论文集，第6050-6059页一、二、三、四、五、七[21] Keyang Luo，Tao Guan，Lili Ju，Haipeng Huang，andYawei Luo.P-mvsnet：学习多视图立体的逐块匹配置信度聚合。在IEEE/CVF计算机视觉国际会议论文集，第10452-10461页，2019年。一、二、三[22] Nikolaus Mayer ， Eddy Ilg ， Philip Hausser ， PhilippFischer ， Daniel Cremers ， Alexey Dosovitskiy ， andThomas Brox.用于训练卷积网络的大型数据集，用于视差，光流和场景流估计。在Proceedings of the IEEEconference on computer vision and pattern recognition，pages 4040-4048，2016中。二个[23] 我是你的朋友。张量网络的实用介绍：矩阵乘积态和投影纠缠对态。Annals of Physics，349：117-158，2014.四个[2

下载后可阅读完整内容，剩余1页未读，立即下载