没有合适的资源?快使用搜索试试~ 我知道了~
多模态图像对齐通过神经网络的多尺度链与遥感应用Armand Zampieri1、Guillaume Charpiat2、Nicolas Girard1和YuliyaTarabalka11TITANEteam,INRIA,Universit´eCoted2TAUteam,INRIA,LRI,Uiversit´eParis-Sud,Francefirstname. inria.fr抽象。我们在这里解决的问题,多模态图像非刚性配准,这是在遥感和医学成像的首要任务。经典配准方法遇到的困难包括特征设计和梯度下降的缓慢优化。通过分析这些方法,我们注意到规模的概念的意义。我们设计了易于训练的全卷积神经网络,能够学习特定于尺度的特征。一旦适当地链接,它们在线性时间内执行全局配准,通过直接预测变形来摆脱梯度下降方案。我们通过各种测试来遥感多模态图像对齐的任务。特别是,我们能够正确地注册地籍图的建筑物,以及道路折线到RGB图像,并优于目前的关键点匹配方法。关键词:多模态·对准·配准·遥感1介绍图像配准,也称为非刚性配准,是在两幅给定的图像之间找到一个对应场的任务。当应用于第一图像时,将其扭曲为第二图像的变形。这样的翘曲在许多情况下可以证明是有用的:在几个图像之间传递信息(例如,来自具有标记部分的模板图像),比较相似部分的外观(因为像素强度比较只有在对准之后才有意义),或者估计空间变化(例如,在给定同一患者随时间的扫描序列的情况下,监视肿瘤的演变)。因此,图像对准已经成为诸如医学成像或遥感[33,20]等领域中的主要主题。1.1遥感影像配准在遥感中,地球的图像可以通过不同类型的传感器获取,在可见光谱中或不在可见光谱中,从卫星或飞机,具有各种不同的光谱。2A. Zampieri等人Fig. 1. 多模态图像对齐的示例。我们将航空影像与地籍影像进行比对。 对于每个示例:左:带有OpenStreetMap(OSM)地图的原始图像(红色),右:在我们重新调整之后(结果为绿色)。空间精度(从厘米到千米)。对这些图像的分析可以监测生态系统(植物[11],动物[35]......)及其演变(干旱监测、自然灾害和相关帮助规划)、城市发展以及地图的自动创建[21]或更普遍的数字化地球。然而,这些图像中的像素的地理定位受到许多因素的限制,例如定位精度和浮雕对非垂直视点的影响这些图像的变形是显著的:例如,在OpenStreetMap [10]中,对象可能会移动8米(这远远高于自动驾驶所需的地图精度),这意味着对于30 cm/像素分辨率,误差位移超过20像素。这些变形阻止了对这样的数据的适当利用。例如,让我们考虑在遥感图像中找到建筑物和道路的任务虽然地面实况实际上有相当多的可用性,例如在基于地籍信息的OpenStreetMap(OSM)中,它给出了每个建筑物角落的坐标(纬度和经度),但由于人为错误,这种手工制作的地面实况通常是不准确的。因此,不可能从中学习,因为遥感图像没有与它正确对齐,物体甚至可能不重叠。这是大数据和机器学习时代遥感领域面临的严峻问题。许多工作都集中在这个问题上[2],从使用浮雕知识到专门的手工设计的对齐算法。另一种值得一提的方法是在可用的数据集上进行粗略训练,并在较小的更好的手动对齐数据集上进行微调[18]。我们将在这里直接处理非刚性对齐的问题。1.2非刚性配准任务图像配准处理相同模态(相同传感器)或不同模态的图像。当具有相同的模态时,任务通常是对齐不同但相似的对象(例如,面部[4]或不同人的器官[13]),或者对准同一对象但在不同时间拍摄(如在肿瘤监测示例中)。另一方面,多模态配准处理通常相同对象但由不同传感器看到的对准图像,所述不同传感器以可能不同的分辨率捕获不同的物理性质例如在医疗多模态图像对齐3成像、MR和CT扫描分别捕获水和物质的密度,而在遥感RGB和高光谱数据中捕获来自不同光频率(红外线等)的信息。在我们的研究案例中,我们专注于RGB遥感影像与地籍,即对齐。所有建筑物和道路的 多 边 形 表 示 的 矢 量 格 式 图 像 , 由 地 方 当 局 、 地 图 制 作 者 或OpenStreetMap用户手工制作,如图1和图2所示。无论是单模态还是多模态,图像配准都面临两个挑战:首先局部描述图像数据,然后以空间相干的方式匹配具有类似描述的点。从历史上看,出现了两种主要的经典方法:匹配关键点。第一种方法包括从每个图像中采样几个关键点(例如利用Harris角点检测),在局部描述它们(利用SIFT、SURF、HOG描述符...)[32,7],在匹配这些点[27]中,然后内插到图像的其余部分问题是如何设计适当的抽样标准,描述符和匹配算法。在多模态的情况下,还必须设计或学习两个模态的描述符之间的对应关系注意,高精度配准需要密集采样,以及因此更精细的描述符。通过梯度下降估计变形场。 第二种方法,在医学成像中特别流行,包括估计从一个图像到另一个图像的密集变形场[1,9,26,15,13]。其优于第一种方法的优点之一是能够对对象建模,利用形状统计等。扭曲被建模为平滑向量场Φ,将一个图像域映射到另一个图像域。给定两幅图像I1和I2,定义一个准则C(I1φ,I2),以使图像I1φ和目标I2之间的相似性最好,并通过梯度下降法相对于φ选择一个合适的相似性准则C是至关重要的,以及仔细设计梯度下降,我们将在第2节中详细介绍。1.3新范式:神经网络在许多可能性中设计或挑选特定的局部描述符或匹配标准的困难是计算机视觉问题的特征,其中神经网络的引入可以证明是有用的。问题是怎么做。已经探索了机器学习技术来学习不同成像模态之间的相似性度量[42],例如使用内核方法来配准MR和CT脑部扫描[17],或者最近使用神经网络[30,16,39],但没有解决尺度问题我们的目标是设计一个能够学习特定尺度和特定模态特征的系统,并且能够密集和快速地执行多模态图像配准,而不使用任何迭代过程,如梯度下降,这会阻碍经典方法。我们的贡献如下:– 一个快速的系统来密集地注册图像,4A. Zampieri等人L∂φL2x1(φ(x))– 学习特征以配准不同模态的图像,– 学习特定于规模的特征并管理规模,– 设计一个(相对较小的)神经网络来完成端到端的工作,– 将遥感图像与地籍图(建筑物和道路)对齐,– 为建立大规模遥感基准提供了一个期待已久的工具。我们首先分析了图像对齐时与尺度相关的问题,以设计合适的神经网络架构。我们展示了基准测试的结果,并提出了额外的实验,以显示该方法的灵活性。2梯度下降框架为了分析对齐图像时出现的问题,为了简单起见,让我们首先考虑单模态配准的情况保持第1.2节中的符号,我们继续寻求合理的准则C(I1<$φ,I2),以通过梯度下降来优化以估计变形φ。2.1一个基本示例太局部的量,如像素强度差C(I1◦φ,I2)=I1◦φ−I222会产生许多局部最小值,并使梯度下降非常快。实际上,如果作为一个玩具示例,将I1和I2视为分别在不同位置X1和X2处具有唯一黑点的两个白色图像,则将同时基于这两个点来计算具有不同点的C(I1 Φ,I2)的确定值,这防止它们彼此影响:C(I1◦ φ,I2)(x)= 2。我◦φ(x)−I(x)Σ(I)在所有点xi = x1处为0,并且在x1处,变形φ(初始化为恒等式)通过收缩图像而演变为使其从成本C中消失。因此,相似性成本C相对于变形Φ的导数不传达将X1推向X2的任何信息,而是相反地将使下降梯度停留在该(非常差的)局部最小值中。代替强度I(x),人们可能想要考虑其他局部的、更高级别的特征L(I)(x),诸如边缘检测器,以便掌握更有意义的信息,并且因此最小化例如以下形式的准则:C(I1◦ φ,I2)= L(I1◦ φ)− L(I2)22。(一)2.2邻域大小该解决方案包括考虑涉及较大空间邻域的局部描述符,该局部描述符足够宽,使得在计算L(I1◦φ)(x1)和L(I2)(x2)时涉及的图像域对于两个x1和x2都是相同的。1多模态图像对齐5L明显重叠。例如,Canny边缘检测器的计算在截断的高斯邻域上执行,其大小由标准偏差参数〇预定义。另一个示例是局部交叉相关性,其比较在预定义大小的邻域内xl和x2周围的强度的局部变化[13]。另一个著名的例子是具有预定义大小的特定窗口内的强度直方图之间的互信息。2.3调整规模在所有这些情况下,邻域大小特别重要:如果太小,则梯度下降将陷入较差的局部最小值,而如果太大,则图像细节可能丢失,从而妨碍精细配准。实际上需要的是该邻域大小与要找到的位移具有相同的数量级。由于该位移是未知的,所以邻域大小在第一梯度步骤期间需要足够宽(可能覆盖整个图像),并且必须随时间减小,以便配准能够变得更精细并且最终达到像素精度。控制这种降低的速度是困难的,导致缓慢的优化。此外,描述符的性能可以取决于尺度,并且可能需要为粗略初始配准选择与最精细最终配准不同的描述符。除了为每个尺度设计[43,40]或学习[17]相关描述符Ls的困难任务之外,这提出了另一个问题,即要优化的标准CsCs(I1◦φ,I2)=Ls(I1◦φ)−Ls(I2)22(2)现在取决于当前邻域大小s(t),其本身是时间相关的,并且因此当描述符Ls(t)演变时,优化准则Cs(t)可能增加:优化过程然后不再是梯度下降。人们可能会想到尺度不变的描述符,如SIFT,但问题不仅仅是使尺度适应图像中的特定位置,而是使其适应变形的幅度,这仍然需要与其他图像进行匹配。2.4多分辨率视点关于该尺度增加过程的另一观点是考虑描述符和优化过程在所有尺度下保持相同,但是图像的分辨率正在增加。然后,该算法是在连续分辨率上的循环[13,4],从图像的低分辨率版本开始,等待梯度下降的收敛,然后将找到的变形场上采样到图像的更高分辨率版本,并迭代直到达到原始分辨率。然后,限制是必须针对每个分辨率使用相同的描述符,并且如前所述,必须在每个尺度处达到梯度下降的收敛,从而导致缓慢的优化。一种不同的方法是通过考虑同时处理所有尺度6A. Zampieri等人变形的多尺度参数化[31]。然而,如果单纯地实现,则会遇到相同的局部最小值问题;然后需要使用启发式来估计当前要在本地执行的优化的规模。2.5保持变形平滑变形通常被建模为微分同胚[1,9,15,13],即。平滑一对一矢量场,以避免删除图像部分。平滑度由附加标准来控制,以优化、量化变形Φ的规律性,诸如其Sobolev范数(惩罚快速变化)。与任何机器学习技术一样,这个规律性项在可能的函数(这里是变形)的空间上设置先验,防止过拟合(这里是空间噪声)。但同样,所需的平滑度应取决于尺度,例如首先优先考虑全局平移和旋转,同时在收敛时允许非常局部的移动。这可以通过对瞬时变形的适当度量来处理[5,34];但在实践中,这些度量往往会通过在最精细尺度上过度平滑梯度来减缓收敛。3神经网络3.1学习迭代过程由于神经网络最近已被证明可用于替代文献中各种任务的手动设计特征,特别是在计算机视觉中的卷积特征(CNN),因此对于单模态图像对齐,可以考虑在连体网络设置中训练CNN [3,6],以便学习图像块之间的相关距离。其多模态版本将包括训练具有相同输出大小的两个CNN(每个模态一个),计算它们的输出的差异的欧几里德范数作为相异性度量,并且在标准非刚性对准算法内使用该量,诸如作为(1)上的梯度下降。然而,对于训练,这将需要能够区分关于特征的该迭代对准过程的结果。这是不现实的,因为典型的对准任务需要变化的、通常大量的步骤。尽管如此,在[18]中成功使用了类似的方法,用于校正模糊分割图的更简单的任务,锐化它们并依赖于图像边缘。为此,用递归网络模拟偏微分方程(PDE),并且将应用该PDE的步骤的数量预定义为小值(5),足以用于该特定问题。本着同样的精神,对于图像去噪,在[22,37]中,迭代优化过程中使用的邻近算子由神经网络建模并学习。在[25]中,使用了暹罗网络的思想,但仅用于匹配很少的点。还值得注意的是,更早的时候,在[17]中,使用内核方法学习了不同模态之间的相似性标准,但仅用于刚性配准。多模态图像对齐7n图二. 来自数据库的令人满意的对齐图像的多模态对。左:航空RGB影像,右:矢量格式地籍影像(建筑物以白色显示3.2一种更直接的方法如前所述,由于变形φ上的梯度下降而对齐图像具有以下缺点:由于需要确保每个尺度下的收敛,因此它很慢,如果描述符是尺度相关的,则它实际上不是真正的梯度下降,并且当学习描述符时,它会引起长的反向传播为了摆脱这个迭代过程,我们建议直接预测其最终结果的收敛。 也就是说,给定图像I1和I2,为了在I1Φφ和I2处实现最佳的方向,因此,代替以两个步骤进行:首先学习定义(1)中的准则C所需的特征L,然后找到使C最小化的变形Φ,我们提出如在标准机器学习设置中那样直接学习变形,即,从示例中学习变形。给定输入对的训练集P=(I1,I2)以及期望的相关输出φP,我们的目标是学习函数P›→φP。3.3机器学习设置训练装备。我们首先考虑的任务是将地理定位的航空RGB图像与OpenStreetMap的二进制地图对齐,以指示建筑物的位置。如1.1节所述,匹配通常是不完美的。通过手动执行扭曲来创建变形地面实况将过于耗时。相反,我们提取视觉上看起来已经对齐的图像对,如图2所示。通过这种方式,我们获得了由5000 × 5000个分辨率为0的图像对(航空RGB图像,二进制矢量格式的建筑物地图)组成的数据集。3 m/像素,其中待找到的变形Φ是单位元。我们通过对地籍矢量地图施加随机变形来生成人工训练集,相应地移动它包含的多边形的角因此,我们获得了一个训练集的对非注册的图像,与已知的变形。由于现实中的典型变形是平滑的,我们将随机变形族建模为:在一定范围[−r,+r]2内均匀进行的全局平移v0,加上具有随机位移vi、中心xi和协方差矩阵Si的高斯函数的混合:φ(x)= v0 +Σvii=1e−(x−xi)S i(x−x i)(3)8A. Zampieri等人^^^.(I1,I2,φGT)∈D¨¨2¨4x′x¨其 中 vi,Si, xi在合适的预定义范围内是均匀随机的( Si是对称正定的)。这样,我们可以通过对初始对齐良好的图像应用任意多个随机变形来大幅增强数据集优化准则所考虑的损失仅仅是预测误差的欧几里得范数:C(w)=E联系我们x∈Ω(I2)(x)−φ(x)2I.E.在三元组示例(RGB图像I1、地籍图像I2、相关联的变形φGT)的地面实况数据集D上,在图像域中的所有像素x Ω(I2),对于给定模型参数w(即,图像对(I1,I2)),在φGT(x)上的第一个和在φ(W)(I1, I2)(x)上的第一个和第二个之间的差的范数。神经网络权重)。为了确保预测是平滑的,我们还考虑每个像素对变形的(空间)拉普拉斯算子的范数的惩罚¨△φ^(x)¨(四)¨(W)(I1,I2)¨2其惩罚除仿射翘曲之外的所有翘曲。在实践中,在离散设置中,这意味着从超过4个像素的平均值中确定φ(x):2¨φ^(x)−1Σφ^(x′)¨。3.4第一次尝试我们首先通过挑选变形幅度的现实范围r = ±20像素来产生典型的真实变形的训练集。我们考虑全卷积神经网络,其由两个卷积网络(每个输入图像Ii一个)组成,其最终输出被连接并发送到更多的卷积层。最后一层有两个特点,即。每个像素发出两个实值,解释为φ(x)。在我们的实验中,这样的网络不需要确定的参数:它可以让你输入sφ(x)=(0,0)x,这是我们损失的最佳常数,即。当不理解二次损失的输入(I 1,I 2)和输出φ之间的联系时,可以做出的最佳答案是:平均期望解E(I1,I2,φGT)∈D[φ],在我们的例子中为(0,0).我们都是这样。通过预测bin概率p Φx(x)∈每个像素具有2r个实值的向量,但这导致相同的结果。3.5处理单一规模第3.4节中的任务确实太难了:网络需要在所有尺度上开发局部描述符,以捕获所有信息,并且被要求对每个像素x执行具有(2r)2×1700个可能性的精细匹配。2(W)(I1,I2)GT2[a,a+1],p Φy(x)∈[b,b+1]对于每个整数−r≤a,b2个像素的变形设计合适的神经网络架构。我们现在提出更好的架构来解决尺度s= 0时的对齐任务。我们需要一个完全卷积的架构,因为输出是一个与输入大小相同的2通道图像,我们需要跨越几个尺度才能理解图三. 一个规模的网络体系结构。两个输入图像I1和I2分别被馈送到层1a和1b。输出是2维矢量图(具有2个通道的层26)。详见补充资料。10A. Zampieri等人.Σ在尺度s下的任务的解决方案:以因子2s对图像进行下采样;针对这些缩小的图像在尺度0下解决对齐任务,并以相同的因子对结果进行上采样。每个像素在每个模态中属于哪种对象部分。高级特征需要较宽的感受野,并且通常在一个圆形网络中经过几个池化层后获得。然而,输出需要与输入具有相同的分辨率,这导致类似自动编码器的形状。为了将所有低级信息保留到最后,并且不损失精度,我们将相同分辨率的层连接在一起,从而获得一种双U-网网络(U-网[36]被开发用于医学图像分割)。由于2个输入图像未注册,并且为了获得特定于模态的特征,我们构建了2个单独的卷积金字塔,每个模态一个(以类似于立体匹配网络的方式[44]),但是每个尺度连接一次它们的活动以馈送双U网。图3总结了该架构。如前所述,网络被成功训练以解决s = 0任务。3.6一系列特定尺度的神经网络现在我们非常简单地解决一般对齐任务全比对算法:给定宽度为w的图像对(I1,I2),迭代地求解尺度s处的对准任务,从s = log 2w直到s = 0。人们可以选择在所有尺度上使用相同的网络,或者如果我们希望在每个尺度上使用特定的特征,则可以选择不同的网络,如遥感或医学成像。完整的处理链如图4所示。请注意与ResNet [12]的某种全局相似性,因为我们有一个连续的特定于尺度的块链,每个块都细化了先前估计的变形,而不是通过添加而不是通过diffom或phismcomposition:φs−1=φsoId+f(I1oφs,I2oφs)。与ResNet的另一个区别是,我们独立训练每个特定于规模的块,这比一次性训练整个链要容易得多。在[ 28]中也独立开发了用于光流估计的类似想法;它们的体系结构更复杂,因为每个块的输入不仅是下采样的图像,而且是来自先前分辨率的流,并且这些流是相加的而不是合成的。这导致了更高的培训时间(天而不是我们的小时)。此外,显然,[28]不能处理多模态。注意,对准的整体复杂度非常低,在图像大小上是线性的。实际上,对于具有n个像素的给定图像,类似的卷积架构被应用于大小为2-s× 2-sn个像素的所有缩减版本,缩减因子为2s导致总成本为n(1 +1 + 1 +1 + 1)。. . )K<4nK,其中K是4 16 64 3恒定的每像素卷积成本。这是要与古典的未知收敛持续时间的基于梯度下降的方法,以及在每个尺度上具有梯度下降的经典多分辨率方法。还请注意与最近关于光流的工作[14]的一些相似之处,包括3个不同尺度相关块的排列,尽管是单峰的,但不是尺度分析的原则,也没有尺度特定的训练。多模态图像对齐11见图4。完整的架构作为一个特定规模的神经网络链。两个全分辨率输入图像始终位于顶部水平行。全分辨率变形在底部水平线上按每个尺度迭代地 每个尺度特定的块将图像下采样到正确的大小,应用之前估计的变形,并以某种类似于ResNet的方式对其进行细化。我们还将检查以下变量:– “scal_in_vary_t”:使用sam = 2个特定块重新规划scal_s个特定块,以查看特征跨尺度泛化的程度;输出质量略有下降,但仍保持良好。– “SYMM ETRY-IN VARIANT” : 将 该 网 络 应 用 于 输 入 图 像 的 SYMMETRISED和ROT EDV,并对这8个测试的结果求平均。这确保了旋转不变性并改善了结果。4实验我们在不同的数据集上进行了四个实验第一个实验使用Inria航空图像标记数据集[19],其是空间分辨率为30 cm/像素的航空正射彩色(RGB)图像的集合,覆盖美国和奥地利9个城市的810 km2我们的目标是将从OSM下载的建筑物地图与Inria数据集的图像第3.6节中描述的网络使用来自六个不同城市的图像块进行训练,其中准确的建筑地籍数据可用3。然后,我们通过使用在训练期间没有呈现的Kitsap县区域的图像来评估网络图1显示了对齐结果的示例特写在第二个实验中,使用在第一个实验中训练的网络将OSM建筑物地图与具有50 cm/像素的泛锐化分辨率的卫星图像对准,所述泛锐化分辨率由法国的Pl'e iiadesesns或法国的For rre区域获得。为了衡量网络的性能,我们使用正确关键点度量的百分比[29]。我们手动识别两对多模态图像(来自实验1的一个Kitsap图像和来自实验2的一个Forez图像)上的匹配关键点,每个图像具有超过600个关键点。3地籍数据是从OSM中提取的,包含几个像素数量级的小错位。12A. Zampieri等人图五. 关键点匹配。Kitsap和Forez数据集上不同方法的得分。曲线指示其到地面实况的距离小于以像素为单位的阈值的关键点的分数。越高越好。(a)地面实况(b)我们的(正常)(c)Rocco [29](d)Weinzaepfel [38]见图6。不同方法和两个数据集的多模态关键点匹配比较。顶部:Forez数据集(特写);底部:Kitsap数据集(特写)。蓝色:预测,绿色:地面实况。补充材料中的完整解决方案然后,我们通过使用不同的算法和手动指示的算法来测量对准后的关键点的位置之间的像素距离如果该距离小于某个阈值,则关键点被识别为匹配的。我们以像素而不是图像比例来测量距离,因为在遥感中,像素的地面大小以米为单位,而不管它们的大小。最终,我们感兴趣的是以米为单位的对准误差。图5比较了我们的网络 与以下方 法的性能 :Weinzaepfel等人 的DeepFlow。 [38],Rocco等人的几何匹配方法的两个变体。[29],Ye等人的多模态配准方法。 [41],以及Yang等人的深度学习架构。[39]第39话医学影像我们的方法明显优于其他方法。文献[39,16]中的神经网络方法不适用于此任务的原因是它们不打算处理规模。它们仅在大脑配准上得到验证,其典型的偏移是几个像素(而不是这里的20或这与第3.4节中的观察结果一致。我们没有看到一个向量机和一个向量机(ingree,“sym -in v”)在Forez数据集上确实有帮助,并且学习特定于多模态图像对齐13(a)(b)(c)(d)图7.第一次会议。道路定线示例(a)和(c):图像和道路之间的原始对准(Kitsap);(b)和(d):分别在重新对准之后的结果0.100.0300.0250.080.0200.060.0150.040.0100.020.0050.00001020304050600.000510152025303540误差值(像素)误差值(像素)见图8。Kitti数据集上的对齐示例。左:对齐前。中间:对齐后。右:未对准直方图(原始未对准分布在顶部,剩余误差在底部)。略好于与比例无关的功能,但并不总是如此(蓝色与红色,“s c a l e- i nv”)。 图6中示出了校准过程的示例。 Ourappro a ch也比经典方法快得多,如下面针对5000×5000图像的计算时间所示,即使我们计算密集配准,而其他方法仅匹配关键点:方法我们的(正常)[29日][38个][41个]时间80后238秒784 s9550年代CPUOpteron 2Ghz 英特尔2.7GhzInt. 3.5GhzGPUGTX 1080 Ti Q.M2000M GT 960 M在第三个实验中,我们将道路与第一个实验中使用的图像对齐。该任务与以前的实验不同之处在于,只有道路的中心线是已知的,并且以多段线的形式此外,局部边缘不再是用于对准的有用特征,因为道路的中心是均匀的。我们在OSM数据上进行训练,通过扩大道路折线以达到4像素的宽度并将其栅格化。然后,我们在Kitsap图像上测试训练好的网络的性能结果如图7所示。第四个实验检查了我们的方法在更高分辨率数据集上的性能。我们考虑Kitti数据集[8],其中包含高精度航空图像(9 cm/像素)以及完美对齐的多类标记[21]。我们创建一个训练集与人工随机变形,在相同的精神,如前所述,和测试集与随机变形的图像,以及,但遵循不同的分布,为了检查也鲁棒性百分比百分比14A. Zampieri等人我们的训练方法。待配准的图像对由分别指示建筑物、道路和人行道存在的RGB图像和3通道二进制图像结果的示例在图8中示出。我们还分析了配准前后的未对准分布,如图8中的直方图所示。 我们注意到,绝大多数像素成功地非常紧密地匹配到它们的地面实况位置。我们还进行了额外的实验,以表明我们的多尺度方法可以推广到其他应用程序。我们考虑立体视觉的问题,其中输入是从稍微不同的视点拍摄的一对RGB图像,期望输出是深度图,即单通道图像而不是变形场。我们考虑来自[23,24]的数据集,并将损失函数定义为深度误差(平方)加上正则化器(4)。我们保持相同的架构,但将特定于尺度的网络与添加而不是组合联系起来,以便每个块将特定于尺度的细节添加到深度图中有希望的结果(第一次运行,无参数调整)显示在补充材料中,可在https://www.lri.fr/gcharpia/alignment/获得。优化细节。该网络使用Adam优化器进行训练,在16个128× 128像素图像的小批量上进行训练,学习率从0.001开始,每1000次迭代衰减4%权重被初始化为X以下的向量Gl或其他值。我们为60000个项目而努力。补充材料中提供了具体的技术细节。特定于稀疏模式的其他详细信息,如地籍图,但不是必需的。在训练过程中,我们整理出完全或大部分空白的图像(例如没有任何建筑物的地籍而且,在有更多信息要提取的地方训练更多(例如,角和边与宽均匀空间),我们在训练时将像素损失乘以构建边缘上的>1的当矩形建筑与共享墙粘合成一行时,其边和角的位置在OSM地籍的栅格化版本上不再可见通过向地籍图添加通道,提醒OSM拐角位置,我们观察到这样的行的更好对齐。5结论在分析经典配准方法的基础上,设计了一系列尺度相关的神经网络用于非刚性图像配准。通过直接预测每个尺度下的最终配准,我们避免了缓慢的迭代过程,例如梯度下降方案。计算复杂度在图像大小上是线性的,并且远低于甚至关键点匹配方法。我们展示了它在各种遥感任务和分辨率上的性能。经过训练的网络以及训练代码将在线提供。通过这种方式,我们希望有助于创建大型遥感数据集,到目前为止,精度是一个需要手工制作地面实况的问题。鸣谢。这项工作得到了法国国家研究机构(ANR)EPITOMEANR-17-CE 23 -0009多模态图像对齐15引用1. Beg,M. F.、 Miller,M. 一、 A. 你是湖。利用微分同胚的测地流构造度量映射的代数方法. International Journal ofComputeRVi s ison61(2),139- 157(2005)2. 比施克湾Helber,P.,Folz,J.,Borth,D.,Dengel,A.:使用深度神经网络进行建筑物足迹分割的多任务学习。arXiv预印本arXiv:1709.05932(2017)3. 布鲁姆利,J., 古永岛,LeCun,Y., Sa¨ckinger,E., 是的,R。:信号恢复功能将在工作中使用“类似于”时间序列。 In:AvancesinNeur alInpr oc e s i n g S y s i n g Pr o c e s i n g S ysi ngP r o c e s i n gSys i n g S i n gi pp.7374. Charpiat,G.,Keriven河福格拉斯,O.:基于微分同胚变换的图像统计。In:ICCV' 05. vol. 第1页。8525. Charpiat,G.,Maurel,P.,Pons,J.P.,Keriven河福格拉斯,O.:广义成分:最小化流程的前科。国际计算机视觉杂志(2007)6. Chopra,S.,哈德塞尔河LeCun,Y.:有区别地学习相似性度量,其中PP是为了实现有效性。 In:CVPR' 05. vo l. 第1页。5397. Dalal,N.,Triggs,B.:用于人体检测的定向梯度直方图。见:CVPR'05。 vol. 第1页。 886- 89 3. https://doi. org/10。1109/CVPR. 2005年1778. Geiger,A.,Lenz,P.斯蒂勒角乌尔塔松河:视觉与机器人技术的结合:小猫在那儿。TheInternatinalJour nalofRobti csReserch32(11),12319. Glaunes , J.A.你 是 湖 。 : Diffeomorphicmati chingofdistitins :Anewpproachforunlabeledpont-setandsub-manif oldmating.In : CVPR' 04. vol.第2页。 我-我。我是10. Haklay,M.,Weber,P.:Openstreetmap:用户生成的街道地图。IEEEPerva-siveComp uti ng7(4),1211. Hansen,M.C.,Potapov,P.V.,摩尔河Hancher,M. Turubanova,S.A.,Tyukav-ina , A. , Thau , D. , Stehman , S.V. , Goetz , S.J. 洛 夫 兰 T.R.Kommareddy,A. Egorov,A.,奇尼湖贾斯蒂斯狱警汤森,J.R.G.:21st-cenury的高分辨率全局m a p sforretc overchange。Science342(6160),85012. 他,K.,张,X.,Ren,S.,孙杰:用于图像识别的深度残差学习CoRRabs/1512.03385(2015),http://arxiv.org/abs/1512.0338513. 你 好 , G.C. , C . ,Faugeras , O. : Variati onalmethodsformultimagemathing. InternalJour nalofComuterVison50(3),32914. Ilg,E.,Mayer,N. Saikia,T.,Keuper,M.,Dosovitskiy,A.,Brox,T.:Flownet2.0 : 深 度 网 络 的 光 流 估 计 的 演 变 。 arXiv 预 印 本 arXiv :1612.01925(2016)15. 肯德尔,D.G.:形状的统计理论综述。统计科学pp. 8716. Kwitt,R.,Niethammer,M.:快速预测简单测地线回归。在:第三届国际研讨会DLMIA 2017,和第七届国际研讨会,ML-CDS 2017,与MICCAI 2017联合举行卷10553,p.267. 施普林格(2017)17. Lee,D.,Hofmann,M.,Steinke,F.,Altun,Y.卡希尔,北卡罗来纳州,Scholkopf,B.:学习针对多个现代三维图形的简化方法。 In:CVPR' 09. pp.一八六18. Maggiori,E.夏皮亚特G.,塔拉巴尔卡是的,艾丽兹P.:复发性neu-RAL 网 络 来 校 正 卫 星 图 像 分 类 图 。 IEEETransac-tionsonGeoscienceandRemoteSensing55(9),4962- 4971(S ep t 2017)。https://doi.org/10.1109/TGRS.2017.269745316A. Zampieri等人19. Maggiori,E. Tarabalka,Y. Charpiat,G.,Alliez,P.:语义标注方法可以推广到任何城市吗?INRIA航空图像标记基准。In:IGARSS20. Maintz,J.B.A.,范登·埃尔森律师事务所Viergever,M.A.:多模态医学图像 匹 配 中 脊 线 搜 索 算 子 的 评 价 。 IEEETransactions onpaternanalysandmachineintelligence18(4),35321. 我是你,G 王,S., Fidler,S., 你是一个人R :H d m a p s:F i n e-g ra in e d r o a d s e g-m e n t a t i n y p a r i n g r o n d r o a d s e g e d s e g-m a t i n y p a ri n g r o d s e g r o a d s e g-m a t i n y p a r i n g r o d s e g r o d s g-m a t i n y p a r i ng r o n g r o d s e g-m a t i n y p a r i n g r o n d s g r o d s g-m a t i n y p a r i n g r o ng r o n d s g r o d s g-m a t a t i n y p a r i n g r o n g r o n g r o n g r o n d e g r o n d s ar o n g r o n d e g r o d s e g e g e s s e s s s e s s In:CVPR' 16. pp. 三六一一22. 我知道了,T., Mol ¨ller,M., 哈兹拉布, Cremers,D. :Learningingproximalo p e r a l ope l era lopera loper In:ICCV23. M.,M., Geiger,A. :Objectsceneflowforautonomousvehicles. In:CVPR24. Menze,M.,Heipke,C. Geiger,A.:车辆与场景流的联合三维估计。在:ISPRS图像序列分析研讨会(ISA)(2015)25. Merkle,N.罗,W.,Auer,S.,米勒河,乌尔塔松河:利用深度匹配与sar 资 料 提 升 光 学 卫 星 影 像 定 位 精 度 。 遥 感 9 ( 6 ) ( 2017 ) .https://doi.org/10.3390/rs9060586,http:www.mdpi.com/2072-4292/9/6/58626. Michor,P.W.,Mumford,D. Shah,J.,Younes,L.:具有显式测地线的形状空间上的度量。03 The Dog(2007)27. Miko
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功