CVNet:一种基于物理振动的建筑物提取模型

63 浏览量更新于2023-10-25 1 收藏 1.35MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1383CVNet：用于建筑物提取的徐自强1，徐春艳1，郑翠1，郑祥伟2，杨健11南京理工大学计算机科学与工程学院2山东师范大学{徐自强，cyx，zhen.cui，csjyang} @ njust.edu.cn，xwzhengcn@163.com摘要近年来随着深度学习的发展，经典的活动轮廓模型为基于轮廓的目标提取提供了一个很有前途的解决方案。受物理振动理论的启发，我们提出了与以往的等高线模型不同，CVNet的等高线模型源于等高线串的受力和运动原理。通过微元分析和牛顿第二定律，导出了物体形状的时空轮廓振动模型，并将其数学化为二阶微分方程。为了将动态模型具体化，我们将振动模型转换到图像特征空间，并将方程系数重新参数化为特征域的可学习状态最后通过轮廓振动方程的计算，以渐进的方式演化轮廓变化。多边形轮廓演化和模型优化都被调制以形成闭环端到端网络。在三个数据集上的综合实验证明了我们的CVNet相对于其他基线和最先进的方法的有效性和优越性。该代码可在https://github.com/xzq-njust/CVNet 上获得。1. 介绍自动建筑物足迹提取在各种更高级别的地理和环境应用中起着重要作用，例如灾害评估和救援[21]，3D城市建模[13，23]，城市变化检测[27]，地球观测和制图[25]等。大多数先进的对象提取方法[11，26]属于像素-明智的分割，特别是当CNN已经成为像素图像分割的基石时。虽然逐像素建筑物提取方法[11，26]通常表现良好，但其中大多数通常*通讯作者。导致相邻实例大的无意融合或小的分散的岛。此外，建筑物的边界很难描绘出精确的结构，通常需要复杂的后处理来生成平滑的形状。同时，分割结果以栅格数据的形式存储，内存需求大，缺乏变形和缩放的灵活性。而主动轮廓模型具有解决上述问题的能力。给定一个初始化的多边形，蛇[12]在内部和外部能量的驱动下会逐渐收敛到物体边界。为了解决边界凹的初始化和收敛性差的问题，梯度矢量流[29]为活动轮廓引入了一种新的外力，尽管取决于能量泛函，但可以从力平衡的角度对其进行分析。为了提高建筑物轮廓检测的准确性，最近，基于CNN的现代架构也被部署用于提取建筑物的特征表示[7，19]。特别是，DSAC [19]将强大的学习网络与活动轮廓模型集成在一起，与像素分割相比，这在很大程度上改善了边界描绘。虽然可以采用一组先验，如边界连续性和光滑性，但由于能量最小化不能考虑点的序列，因此仍然会为了克服自相交问题，DARNet [7]采用极坐标表示活动轮廓，并将轮廓点变形为边界与射线在一定方向上的交点。在最近的工作[9]中，作者提出了基于水平集模型的TDAC，该模型通过像图像分割一样的逐像素预测来估计轮廓ACDRNet [8]属于一种通用的数据驱动方法，该方法只考虑轮廓匹配的最终目标，直接优化最终目标轮廓及其掩模。与逐像素分割相比，这些基于轮廓的方法通常在检测各种建筑物轮廓方面表现更好，但它们受限于活动轮廓模型本身的能量原理[7，9，19]，而轮廓建模的理论/原理是一个悬而未决的问题。1384从物理振动理论的新视角出发，提出了一种新的轮廓振动网络（CVNet）来处理建筑物边界的自动划分。直观地说，物体轮廓的演化就像一根弹性弦（或橡皮筋）在一定力的作用下的形状振动（从初始状态到最终平衡状态）。形状演化可以用物理运动方程来描述，观察到的纹理（或特征）模式隐含地作用于一个力来推或拉形状点。这种情况很好地符合物理振动理论，因此我们将其引入主动轮廓模型。与以往的基于轮廓的方法[7根据弦振动的力和运动原理，将轮廓的运动与弦的内力和外力联系起来，而这些力是由图像/物体本身的特性驱动的通过对轮廓线进行微元分析，建立了时空轮廓线振动模型，并将其数学化为二阶微分方程。进一步将振动模型具体化到图像特征空间中，并采用了方程系数的重参数化技巧因此，轮廓振动方程是动态的，参数化系数从当前轮廓状态学习。通过对轮廓振动方程的递归计算，轮廓变化最终以渐进方式演化。多边形轮廓演化和模型学习都被封装到一个端到端的闭环网络框架中。为了验证所提出的方法，我们对三个建筑物提取数据集进行了广泛的实验，包括Vaihingen [20]，Bing Huts [19]和我们构建的大规模Inria建筑物数据集。实验验证了利用物理振动理论进行轮廓提取的可行性，实验结果也表明了CVNet对于基于多边形的建筑物轮廓提取是有效的，总之，我们的主要贡献有三个方面：i）受物理学中弦振动理论的启发，提出了一种新的基于参数的ACM，即轮廓振动模型; ii）设计轮廓振动网络以基于机械运动方程动态地演化形状;（3）实验验证了多边形建筑物轮廓提取的可行性和有效性。2. 相关工作基于轮廓的方法：随着深度学习的发展和大量训练数据的可访问性，采用基于轮廓的思想来处理对象分割问题，并优化端到端网络来预测对象实例的轮廓多边形。例如，Castrejon et al.[3]建议Polygon-RNN，用于顺序地产生框内对象的多边形符号。然后提出了Polygon-RNN++ [1]，通过采用强化学习和图神经网络来准确地注释图像中的还提出了一种端到端的Curve-GCN框架[16]，用于使用图卷积网络同时预测所有顶点。上述工作可以归类为数据驱动方法。目前，活动轮廓模型（ACM）通常建立在力或能量上，主要分为两类：基于参数[7，12，19，29]和基于几何[4，9]。1988年首次提出的基于参数的蛇[12]可以通过最小化能量来显式地移动预定义的蛇点，以定位对象的边界。然后提出了一种用于活动轮廓的外力[29]，称为梯度矢量流（GVF），以解决初始化和对对象边界的不良收敛。基于几何的方法[4]提出了一种通过演化隐函数来检测对象的模型。建筑提取：从航空图像中提取目标已逐渐成为遥感和计算机视觉领域的一个重要研究课题[2，7，14，15，28]。例如，提出了一种基于图循环的对象定位算法[24]用于多边形对象检测，其中通过使用圈数定义了一种有效的图分区搜索算法，并且通过保留具有高权重的这些节点和边来提取这些对象轮廓。如[26]，建筑物轮廓提取任务可以用这些经典的语义分割网络来解决[5，6，17]。Kaiser等[11]采用CNN框架对航空图像中的建筑物和道路进行语义分割，这表明弱标记的训练数据显着提高了分割性能。通过采用ACM，DSAC框架[19]集成了先验和约束（例如，连续边界、平滑边缘和尖角）引入到构建实例分割的过程中。而不是参数化的轮廓使用Eu-clidean坐标，程等。[7]采用极坐标来演化基于轮廓的建筑物轮廓，然后提出DARNet以端到端的方式进行自动建筑物分割。为了整合CNN和ACM的优势，Hatamizadeh等人。[9]提出了一种可训练的深度活动轮廓线方法来处理遥感图像中建筑物的自动分割问题。 Gur 等人 [8] 提出了一种ACDRNet，用于基于2通道位移场移动轮廓，该位移场通过采用多边形形状和分割掩模进行优化与以往的活动轮廓不同，本文从物理振动理论出发，驱动物体/建筑物形状的时空轮廓振动模型，这在物体/建筑物边界提取问题中尚属首次。1385→t2.... −.Σ.Σ∆x2x|- 是的|.消除−u：2uT2sinα2−T1sinα1+F<$x=m<$t2，（1）其中，α1、α2是切向量（在弦的两端）与x轴之间的角度，m是弦的质量，并且表示弦振动的加速度。假设弦的密度为 ρ ，则有m=ρ<$x.由于弦振动通常很小，即，α1，α20，我们可以做如下近似，0分 + 1分��sinα1 α1-葡聚糖厄舒=10x。、（二）图1.轮廓振动的微元分析。sinα2 α2-羟色胺厄舒=10x。x+ x .（三）3. 方法在这一部分，写作组织采取了渐进的方式。首先介绍了该方法的基本物理原理，然后建立了建筑物轮廓提取的弦振动模型，最后推导了轮廓演化过程。外力可能来自驱动力或抵抗力。这里我们取阻力来分析弦的振动。显然，当阻力为负时，它可以被视为拉力。根据物理定律，阻力与物体的速度成正比，形式上，.厄舒3.1. 轮廓振动原理在大多数基于学习的轮廓检测算法中，目标轮廓的建模通常是一个渐进的字符串演化过程，最终达到最优/近似稳定状态。作为物理学的一种内在揭示，轮廓演化属于波动方程的理论范畴，与振动弦、水波、声波等许多现实物理现象具有相似性。为了更好地理解和推导轮廓的演化过程，我们利用微元方法分析了小圆弧的弦振动原理，如图1所示。1.一、F（x，t）= −k<$t，（4）其中k是阻尼因子，负号表示相反的方向。附加力的大小取决于弦线的运动情况。速度越高，阻力越大。这意味着我们希望抑制轮廓剧烈振动的情况，这将导致学习平滑。根据Eqns.（2），（3）和（4），我们可以重写Eqn。（1）如下，2uρt2x=T（sinα2−sinα1）+Fx=T（tanα2−tanα1）+Fx在图中，水平x轴表示轮廓线的位置，垂直轴u（x，t）表示从平衡状态（也是真实轮廓）的位移，=T。厄舒x.x+ x厄舒x.X+ Fx时间t由于弦是软的，紧的和均匀的，我们可以我认为任何位置的内部张力在数值上都是相等的。现在我们来分析受力情况-厄舒= Tx+ Fx（五）在位置x处的无穷小量的作用。无限大的-弹簧不仅受到内部张力的影响，而且还受到额外的拉力或阻力F（无论是正值还是负值）。内部张力包含两部分，即左向张力T1和右向张力T2，它们具有相同的大小但不同的方向，即，T1=T2=T.注意两个十-厄舒=Txx+Fx∆x2uT2u=Txkx。200万吨在上面的Eqn.（5）、我们使用的服务器-弦对应于弦的切向量外力来自于额外的驱动力或阻力初始定义，202u|= lim∆x→0乌乌xx+100x∆x实力给定一个总外力F，无穷小在位置x和时间t处的力为F（x，t）<$x。我们可以得到弦的振动方程为根据牛顿2u2−a2ux2+ 2b（（2∆��112XΣ21386√t2--联系我们ΣΣΣΣx2不∈{···}- --..12n.矩阵A∈Rn×n.x2···−其中a=T/ρ，2b=k/ρ。在上面的等式中，a、b是有意义的物理参数。换句话说，如果我们推广方程中的振动方程，则参数取决于具体的物理系统。（6）普遍- 加速速度项w.r.tt：二阶导数项w.r.tt来自等式11中的运动方程。（1），反映了等高线变化的加速度。我们把这个术语具体化为情况下，如下一节所述。3.2. 轮廓振动模型2002年，2=ut+1+ut−1− 2ut。（十）（∆t）2方程中的振动方程。（6）基本描述了形状轮廓的振动规律。关键问题是确定合适的参数a，b，这些参数应从相关系统中导出。使…在替换Eqn的条件之后。（7）利用上述三个离散方程，可以得到最终的轮廓振动模型，为了解决这个问题，我们重新设置了物理参数 a，b的轮廓振动方程为 α（x），β（x）1，其随输入状态x动态变化。因此，在本发明中，ut+1+ut−1−2ut（∆t）2[αp+1put，p+1+αp−1 ut，p−1-2αp u t，p]动态模型可以如下建立，+βput−ut−1∆t= 0，（11）2up2 u<$t2−α（x）<$x2+β（x）<$t = 0。（七）这意味着轮廓振动应符合上述方程规则。目的是学习这些动态参数。一旦它们被解决，我们可以推断轮廓的演变过程。下面我们将上述振动规律具体化为图像的轮廓变化模型。给定图像对象的轮廓边界上的任意顶点p，其位置在3.1节中分析的内力和外力的影响下发生变化。在图像空间中，这些力可以被理解为观察到的特征的作用（例如，卷积特征），其将拉动或抵抗轮廓变化。接下来我们介绍如何具体化方程中的模型的每一项。（7）在离散象空间中：- 内部项w.r.tx：二阶导数项w.r.tx是根据如方程11所述的内部张力定义的。（1）和（5）。也就是说，轮廓点之间存在着内在的张力，从而实现了轮廓点之间的相互约束.前沿系数α（x）控制内部张力的程度。在离散空间中，我们将内部项φ2u定义为：∂u2其中ut ，p表示顶点p在时刻t的轮廓点信息，αp= [α（x）]p，βp= [β（x）]p，缩写为。如果我们从对象轮廓形状中采样n个点，则每个点p1，2，…，n应符合该等式，其中需要学习α（x），β（x）使用3.4节中的3.3. 轮廓演化计算为了检测物体的轮廓，我们需要在上述方程的轮廓振动模型中求解u。（十一）、为此，下面我们推导出沿时间轴的轮廓演变过程。对于n个采样点，我们用n个顶点的向量表示对象轮廓，即，ut=[ut，1，ut，2，...，（12）其中是向量/矩阵的转置。我们可以重写上面的方程组，在Eqn中描述。（11）当p= 1，2，···n时，作为矩阵公式，ut+1+ut−12utAut（t）2+b（utut−1）t= 0，（十三）其中b =[β，β，···，β]T∈Rn，100 x2p其中p是轮廓的一个顶点- 外部项u：关于t t的一阶导数项以Matlab的使用方式为例，−2α1α2···αnα1−2α2···0普雷特来自于方程中描述的外力（四）、A= 0。.. -是的 .，这使得轮廓曲线在时间上振动，空间系数β（x）编码扩展或重新当取正值或负值时的阻力.=up+1 +u p−1 -2个，（8）−1387- --因此，我们定义了离散数值运算作为α1αn−12αn对于等式（13），我们可以推导出递归公式为ut+1= 2utut−1+Aut（t）2b（utut−1）t，（十四）你好t=ut−ut−1∆t.（九）它表示当前时刻t+ 1的轮廓1在下面的部分中，我们经常省略x而直接使用α，β，因为明确的上下文。1388可以递归地计算出的状态，的矩和估计的参数{α，β}。1389--2Σǁ^2^S S--^S S--^S S.--Σ^轮廓线更新日本+1输入CNN（轮廓进化模块输出图2. CVNet的一个例子。我们使用CNN提取特征F，然后导出振动参数 α，β通过两个独立网络分支。根据当前轮廓ut，通过索引α，β图，可以得到动力学方程的参数。通过迭代进化，细化目标轮廓。3.4. 轮廓学习网络网络架构：根据上述分析，我们设计了一个端到端网络来完成轮廓演化ut和参数学习{α，β}，如图所示。二、低点，S^，S）=u^∈S^最小值u∈S-u2+minu − u2. （十五）u^∈S^在CNN强大的代表性的激励下，我们-利用它从输入图像中提取特征。特征提取网络可以从那些传统的卷积网络中选择。在对输入图像进行编码之后，我们可以获得卷积特征F，其用于下游轮廓学习。我们通过将编码特征F馈送到两个单独的网络分支（这里使用一个卷积层）中来导出振动参数α、β，其参数分别表示为θα、θβ换句话说，给定轮廓u上的顶点p，我们可以估计αp=f（Fp，θα），βp=f（Fp，θβ），其中Fp是顶点p的特征，f是要学习的具有参数θ为了简化重复的参数估计过程，我们可以生成α，β的整个参数图。根据目标的当前轮廓ut，利用双线性插值运算，直接对参数α（ut），β（ut）进行为了更好地加速演化，需要良好的初始轮廓。在这里，我们遵循相同的策略[7]来分配初始对象轮廓u0。基于估计的振动参数{α，β}和先前的轮廓（即，ut和ut-1），我们可以推断下一个轮廓ut+1，如公式（14）中所定义的，也命名为图中的轮廓演化模块。二、最后，利用迭代进化算法对目标轮廓进行细化.学习与推理：为了使估计多边形与地面真实多边形匹配，我们使用对称倒角距离作为损失函数。和都是轮廓顶点的坐标集，但我们不清楚轮廓顶点的顺序。以前的方法（如DARNet [7]）需要显式排序，使得任何顶点都沿固定方向移动并对应于目标位置。为了绕过两个顶点集之间的显式匹配过程，我们使用倒角距离损失，其定义为：当采取批量处理时，我们可以累积损失在训练过程中的所有样本。由于不关心轮廓上的点的顺序的优点，倒角距离损失可以尽快将顶点移动到目标边界。此外，对称结构防止多边形上的多个点会聚在同一点上。为了以端到端的方式训练模型并将梯度反向传播到α和β参数，我们将点坐标作为浮点数，并使用双线性插值来获取点处的映射值，如空间Transformer网络[10]中所用。在测试阶段，我们可以按照图中所示的过程进行。其中振动参数α、β依赖于输入，因此以更好的灵活性动态更新。3.5. 理论分析现有的主动轮廓模型只寻求一个合适的轮廓以最小化能量泛函，而没有考虑轮廓在起始点的变化。该方法不仅优化了轮廓演化的平衡状态，而且模拟了轮廓的动态运动它们可以通过Eqn来证明。（7）在我们的文件vs Eqn. (4)在DARNet [7]或Eqn中，(1)在DSAC [19]或Eqn.(3)在TDAC [9]中。在合理的物理运动规律假设下，形状空间可以得到很好的约束，具有一定的灵活性，这自然减少了轮廓演化过程中的形状移动4. 实验4.1. 实验装置数据集：为了评估我们提出的CVNet，我们对两个公共航空数据集（即Vaihingen [20]，Bing Huts [19]）和一个新的u∈S1390××表1. Vaihingen和Bing Huts数据集上的建筑物提取性能比较。法骨干Vaihingen宾小屋构建Inria建筑数据集。Vaihingen建筑数据集[20]主要由德国城市的建筑物组成原始图像为512× 512，分辨率为表2. Inria建筑数据集上建筑物提取性能的比较。Inria构建数据集9厘米/像素。共有168栋建筑，其中包括100/68例用于培训和测试，方法MiouWCovBoundF骰子活泼地所有图像都包含具有高度复杂环境的中心建筑物，这使得任务具有挑战性。Bing huts数据集[19]由位于坦桑尼亚农村地区的小屋组成共有606幅图像，原始尺寸为64 - 64，分辨率为30 cm/像素。我们使用335个样本来训练模型，剩余的271个样本作为测试集。该数据集更具挑战性，因为图像中显示的空间分辨率和对比度较低。由于我们无法获得用于评估CVNet有效性的大规模Toron-tocity数据集，因此我们构建了一个新的大型建筑物提取数据集，名为Inria建筑物，其样本来自Inria航空图像标记数据集[18]。建筑物图像具有广泛的城市聚落外观，来自不同的地理位置。在0.3m的空间分辨率下，共获得建筑物图像18,952幅，像素数为128128我们以6：2：2的比例将数据划分为训练集、验证集和测试集。构建的Inria建筑物数据集具有以下特点：（a）高空间分辨率的大量图像样本，（b）广泛的城市住区，包括5个城市，(c)许多航空图像被树木遮挡，但在地面实况中被标记，（d）建筑物对象的位置是不同的，其中建筑物对象可能不位于图像的中心与其他航空数据集相比，Inria构建数据集具有更多样性、更全面性和挑战性。实施详情：我们使用DRN网络[30]对输入进行编码，然后采用三个转置卷积层来学习振动参数。我们使用随机梯度下降训练CVNet，批量大小为10张图像，动量为0.3，权重衰减为1 e-5。学习率初始化为0.008，然后除以DSACDARNet65.83 60.4533.0477.21我们的77.61 七十五点六三42.2086.73每50个时期2次，总共250个时期。在整个训练过程中，我们还实现了数据增强，包括随机翻转，缩放和旋转。我们用60个点离散我们的建筑物轮廓，并将初始化轮廓的半径值设置为20像素的Vaihingen和12像素的Bing Huts。遵循[9]中相同的评估指标，我们还使用了四种不同的指标，包括 Dice ，联合平均交叉（mIoU），加权覆盖（ WCov） [22]和边界F 得分（BoundF）[7]。我们实验中的所有模型都是基于PyTorch平台在单个NVIDIA 2080Ti GPU上进行训练和测试的。4.2. 与最新技术水平的我们将我们提出的CVNet与Vaihingen和Bing Huts数据集上的几种最先进的建筑物提取方法[7，19]进行了表1报告了我们的CVNet模型的性能以及与这些几何模型的比较/基于参数的ACM和这些像素级分割方法对整体度量的影响。度量BoundF表示预测和地面实况之间的几何形状的相似性。具体而言，我们的CVNet在Vaihingen建筑数据集的BoundF方面可以显著优于这些基线。实验结果表明，该模型的边界质量较其他方法提高了3%相应地，度量mIoU/WCov/Dice测量区域的重叠率，并且我们的方法实现了最先进的性能。在mIoU评分方面，我们在Vaihingen上的表现优于TDAC 1.27%，在BingHuts上的表现优于ACDRNet 4.89%。总之，我们的CVNet不仅在该地区表现良好，而且在MiouWCovBoundF骰子时间（ms）MiouWCovBoundF骰子时间（ms）FCN ResNet75.6077.5038.3084.20–68.4076.1439.1979.90–像素级FCN UNet78.6081.8040.2087.40–64.9075.7041.2777.20–分段FCN DSAC81.0081.4064.60––69.8073.6030.30––FCN DARNet87.2086.8076.80––74.5077.5037.70––ACDRNet90.3390.6278.7594.81–75.5376.1236.8185.44–几何TDAC常数λs83.7982.7073.2191.18–73.0274.2148.2584.53–基于ACM的TDAC89.1690.5478.1294.26–80.3981.0553.5089.12–DSAC71.1070.7636.44–102.9638.7444.6137.16–68.78参数DSAC DARNet60.3761.1224.34––57.2363.0915.98––基于ACM DARNet88.2088.1075.9093.66130.2975.2077.0038.0085.21104.77我们的DARNet90.4390.4681.7694.9133.1280.4282.2646.3788.7431.01391瓦伊欣根宾小屋瓦伊欣根宾小屋mIoU（%）损失--9090808880867060846082504080407830207620102030405060708090等高线点数5 10 20 30 40 50 60 70 80轮廓演变次数0 50 100 150 200 250训练时期的数量图3.与dif的性能比较-图4。性能比较，图5.不同数量轮廓点的数量。轮廓演变的数量。时代的贝尔边界原则上，我们的方法对二阶信息进行建模，而DARNet实际上对一阶函数进行建模。因此，在轮廓演化阶段，我们的方法需要更少的迭代次数比DARNet的良好解决方案。在实验中，我们观察到70步足够我们的CVNet，而DARNet执行200步的进化以获得良好的收敛性。为了更清楚，我们总结了CVNet，DSAC和DARNet在表1中的两个数据集上的速度比较，其中最后一列是指单个图像的推理时间。我们的CVNet在速度和准确性方面都优于这些经典的DSAC和DARNet。表2进一步报告了我们的CVNet模型与我们构建的Inria构建数据集上的其他基线（包括DSAC [19]和DARNet [7]）之间的性能比较我们在所有指标上都取得了最好的表现这表明我们的CVNet方法即使在遥感图像中具有挑战性的大规模建筑物提取数据集上也表现得非常好4.3. 消融研究不同轮廓点的影响：我们探索了不同轮廓点数量的CVNet方法的建筑物提取性能，图。3显示了Vaihingen和Bing Huts数据集上的详细mIoU结果。当轮廓点的数量增加时，我们的CVNet的性能显着提高。当我们在60个轮廓点之后继续增加数量时，建筑物提取结果会略有下降。这是因为，建筑物对象的点数越少，越难以回归到最优轮廓，而建筑物对象的点数越多，则会增加建筑物提取的复杂度，从而削弱模型的性能。不同轮廓演变的影响：建筑轮廓将在我们的CVNet框架中迭代进化/更新。我们在Vaihingen和Bing Huts数据集上报告了不同数量轮廓演变的建筑物提取性能，如图所示。4.第一章性能随着数量的增加而增加而他们的成长，也是一个缓慢的过程。经过70次进化后，CVNet学习过程的气味。结果表明，通过对训练样本的轮廓学习过程进行优化，可以提高CVNet模型的识别能力，并逐步达到轮廓的稳定状态。稳定性分析：为了节省计算量，在轮廓演化的多次迭代后计算损失，然后将梯度反向传播以优化网络参数。图图5显示了Vaihingen和Bing Huts数据集上不同时期的损失曲线从开始到5个epoch，随着epoch数的增加，损失迅速减少，随后缓慢下降经过几个epoch的学习，CVNet会随着α，β两个参数的动态更新而变得更加稳定，从而进一步提高建筑物轮廓提取的性能。定性讨论：我们根据两个最先进的基线（即，DSAC [19]，DARNet [7]）上的Vaihingen，Bing Huts和我们构建的Inria建筑数据集。如示于图如图6（a）-（d）所示，现有的DARNet和DSAC模型难以应对建筑物的拓扑变化，并且无法适当地捕获尖锐边缘，但我们的CVNet在预测航空图像中建筑物对象的轮廓时表现良好，即使在复杂背景下也是如此。这表明CVNet模型有利于预测建筑物目标的有效边界，为了更好地理解轮廓演化的动态过程，我们还显示了振动参数的可视化图（即，图6（e）和图6（e）中的α，β）。6（f）.我们进一步呈现了随着Vaihingen数据集上的演化数量的增加而构建轮廓的预测结果，如图所示。7.第一次会议。它清楚地表明了我们提出的CVNet在处理主动建筑轮廓学习问题方面的有效性。5. 结论本文提出了一种新颖的CVNet架构，首次引入物理振弦，瓦伊欣根宾小屋mIoU（%）1392(a)GT（b）DSAC（c）DARNet（d）Ours（e）图6.标记图像的比较可视化以及DSAC、DARNet和我们的CVNet对Vaihingen（上两行）、Bing Huts（第三行）和Inria建筑（下一行）数据集的预测结果。GT #3 #6 #9 #12 #15图7.可视化Vaihingen数据集不同数量的轮廓演化过程原理转化为我们所知的对象提取/分割任务给定输入图像，我们通过经典的卷积神经网络提取深度特征表示，可以进一步用于迭代地指导构建轮廓的预测过程通过轮廓振动方程的计算，轮廓多边形轮廓演化和模型优化都可以被调制以形成闭环端到端网络。广泛的实验结果清楚地表明，有效的-建议CVNet在自动建筑提取任务中的重要性。致谢。本工作得到了国家自然科学基金项目的资助。62072244、61972204）、中央高校基础研究经费（编号： 30921011104 ）、山东省自然科学基金（ No.ZR2020LZH008），部分与高端服务器存储技术国家重点实验室合作&。1393引用[1] David Acuna，Huan Ling，Amlan Kar，and Sanja Fidler.使用polygon-rnn++对分割数据集进行有效的交互式注释。在CVPR中，第859-868页，2018年。2[2] Rheannon Brooks，Trisalyn Nelson，Krista Amolins和GBrent Hall。从正射影像中半自动提取建筑物足迹。Geomatica，69（2）：231-244，2015. 2[3] Lluis Castrejon，Kaustav Kundu，Raquel Urtasun，andSanja Fidler.使用多边形rnn注释对象实例。在CVPR中，第5230-5238页，2017年。2[4] T.F. 陈和洛杉矶维斯没有边的活动轮廓。 IEEETransactions on Image Processing，10（2）：266-277，2001。2[5] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017. 2[6] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。参见ECCV，第801-818页，2018年。2[7] 郑道明，廖仁杰，菲德勒，尤塔孙.Darnet：用于构建分段的深度活动射线网络。在CVPR中，第7431-7439页，2019年。一、二、五、六、七[8] 希尔·古尔，塔尔·沙哈拉巴尼，还有里奥·沃尔夫。端到端可训练的活动轮廓通过微分渲染。在ICLR，2020年。一、二[9] 阿里·哈塔米扎德，德布勒娜·森古普塔，德米特里·特尔佐普洛斯.用于自动图像分割的端到端可训练深度活动轮廓模型：在空中描绘建筑物。在ECCV，第730-746页，2020年。一、二、五、六[10] Max Jaderberg，Karen Simonyan，Andrew Zisserman，and koray kavukcuoglu. 空间 Transformer 网络。 In C.Cortes ， N. Lawrence ， D. 李， M 。 Sugiyama 和 R.Garnett，编辑，NeurIPS，2015年第28卷。5[11] 还有 Kaiser ， JanDirkWegner ， Aure'lienLucchi ，MartinJaggi，Thomas Hofmann，and Konrad Schindler.从在线地图学习航空图像分割。IEEE Trans-actions onGeoscience and Remote Sensing ， 55 （ 11 ）： 6054-6068，2017。一、二[12] 迈克尔·卡斯安德鲁·维特金和德米特里·特佐普洛斯。Snakes：活动轮廓模型。国际计算机视觉杂志，1（4）：321-331，1988。一、二[13] Florent Lafarge，Xavier Descombes，Josiane Zerubia，and Marc Pierrot-Deseilligny.基于对象方法的dems建筑物自动提取及其在三维城市建模中的应用。ISPRSJournal of Photogrammetry and Remote Sensing ， 63（3）：365-381，2008. 1[14] 李诚正，徐春燕，崔振，等。遥感图像中关注特征的目标检测。在ICIP，第3886-3890页，2019年。2[15] 李成正，徐春燕，崔振，王丹，等。学习对象明智的语义表示检测遥感图像。在CVPRW，2019年6月。2[16] Huan Ling，Jun Gao，Amlan Kar，Wenzheng Chen，and Sanja Fidler.用curve-gcn实现快速交互式对象标注。在CVPR中，第5257-5266页，2019年。21394[17] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在CVPR，第3431-3440页，2015年。2[18] EmmanuelMaggiori 、 YuliyaTarabalka 、Guillaume Charpiat和Pierre Alliez。语义标注方法可以推广到任何城市吗？INRIA航空图像标记基准。 In IEEE International Geoscience andRemote Sensing Sympo- sium, pages 3226–3229,2017. 6[19] DiegoMarcos ， DevisTuia ， BenjaminKellenberger ， Lisa Zhang ， Min Bai ， RenjieLiao，and Raquel Urtasun.端到端学习深度结构化活动轮廓。在CVPR中，第 8877-8885页，2018年。一、二、五、六、七[20] 弗兰兹罗滕施泰纳 Sohn，Jaewook Jung，Markus Gerke，Caroline Baillard，SbastienBnitez，and U Breitkopf.国际摄影测量与遥感学会二维语义标注竞赛。http://www2.isprs.org/commissions/comm3/wg4/semantic-labeling.html。二、五、六[21] Liora Sahar，Subrahmanyam Muthukumar ，andSteven P French.利用航空影像与地理资讯系统自动化建筑物足迹撷取与形状辨识，以进行都市清查之地震风险评估。IEEE Transactions onGeoscience and Remote Sensing ， 48 （ 9 ）：3511-3520，2010. 1[22] 内森·西尔伯曼大卫·桑塔格和罗伯·费格斯使用覆盖损失的室内场景的实例分割。在ECCV中，第616-631页，2014年。6[23] 海琳·斯波特舒，弗洛伦斯·图平，还有莱纳德·丹尼斯.基于高分辨率光学和sar影像的城市建筑物提取与三维重建。联合乌尔班遥感活动，第1-11页，2009年。1[24] 孙晓璐，C Mario Christoudias，Pascal Fua。自由形状多边形目标定位.在ECCV，第317- 332页，2014年。2[25] 穆斯塔法·特克和迪莱克·科克桑结合支持向量机分类、霍夫变换与感知分组的高分辨率光学星载影像建筑物提取。国际应用地球观测和地理信息杂志，34：58-69，2015年。1[26] 王神龙，白敏，盖勒特·马特乌斯，朱航，罗文杰，杨斌，梁杰，乔尔·切维里，桑加·菲德勒和拉奎尔·乌尔塔孙。多伦多市：用一百万只眼睛看世界。arXiv预印本arXiv：1612.00423，2016年。一、二[27] Yanhua Xie，Anthea Weng，and Qihao Weng.基于遥感地貌数据的城市居民点人口估算。IEEEGeoscience and Remote Sensing Letters ， 12（5）：1111-1115，2015。1[28] 徐春燕，李承正，崔振，等。遥感图像中目标检测的层次语义传播。 IEEE Transactions onGeoscience and Remote Sensing ， 58 （ 6 ）：4353-4364，2020。2[29] Chenyang Xu和Jerry L Prince。蛇形、形状和梯度矢量流。IEEE TIP，7（3）：359-369，1998. 一、二[30] Fisher Yu，Vladlen Koltun，and Thomas Funkhouser.扩张的剩余网络。在CVPR，2017年。6

下载后可阅读完整内容，剩余1页未读，立即下载