没有合适的资源?快使用搜索试试~ 我知道了~
V. Sainte Fare Garnot1, L. Landrieu1, S. Giordano1, N. Chehata1,21 LASTIG, Univ Gustave Eiffel, ENSG, IGN, F-94160 Saint-Mande, France2 EA G&E Bordeaux INP, Universit´e Bordeaux Montaigne, France1123250使用像素集编码器和时间自注意力的卫星图像时间序列分类0摘要0卫星图像时间序列,得益于其日益增长的可用性,是国际机构自动地监测地球的广泛努力的前沿。特别是,对农田的大规模控制是一个具有重要政治和经济意义的问题。在这方面,混合卷积-循环神经网络架构已经显示出在卫星图像时间序列的自动分类方面具有良好的结果。我们提出了一种替代方法,其中卷积层被操作在无序像素集合上的编码器所取代,以利用公开可用卫星图像的粗分辨率。我们还提出使用基于自注意力而不是循环网络的专门神经架构来提取时间特征。我们通过实验证明,我们的方法不仅在精度方面优于先前的最先进方法,而且显著减少了处理时间和内存需求。最后,我们发布了一个大型的开放访问的带注释数据集,作为未来卫星图像时间序列研究的基准。01. 引言0高质量卫星数据的不断增加,既有国家[43,10],也有私人机构[37],为机器学习方法提供了许多高影响力的应用。其中,作物类型分类是农业和环境政策制定者面临的主要挑战。在欧盟(EU)中,每年都需要作物分布图来发放共同农业政策的补贴,每年超过500亿欧元[1]。目前,欧洲农民每年手动申报种植物种。因此,欧盟联合研究中心呼吁开发高效的工具来实现自动化监测[2]。这种自动化推动部分是由于Sentinel-2卫星的发射——该卫星于2017年中期开始全面运行——由欧洲航天局[10]发射,其设置对于作物分类非常有价值。事实上,其高光谱分辨率(13个波段)和短重访时间(5天)非常适合分析作物的物候学,即植被的周期性演变[40]。此外,农民每年的手动申报提供了大量的带标签数据(仅在法国每年有1000万个农田标记),可用于训练学习算法。这样的模型在作物监测之外还有广泛的应用,适用于公共和私人实体。实践者主要依赖传统方法,如随机森林(RF)和支持向量机(SVM),这些方法利用手工特征进行自动作物分类[15,47]。最近,深度学习方法(如卷积神经网络(CNN)和循环神经网络(RNN))逐渐被采用,用于学习空间和时间属性,显著提高了分类性能。更具体地说,将卷积和循环单元结合在单一架构中的混合神经网络架构是当前作物类型分类的最新技术[31,34]。在本文中,我们认为这种混合循环卷积架构无法适应所考虑问题的一些关键特征。0欧洲航天局[10]发射的Sentinel-2卫星的设置对于作物分类非常有价值,其高光谱分辨率(13个波段)和短重访时间(5天)非常适合分析作物的物候学,即植被的周期性演变[40]。此外,农民每年的手动申报提供了大量的带标签数据(仅在法国每年有1000万个农田标记),可用于训练学习算法。这样的模型在作物监测之外还有广泛的应用,适用于公共和私人实体。实践者主要依赖传统方法,如随机森林(RF)和支持向量机(SVM),这些方法利用手工特征进行自动作物分类[15,47]。最近,深度学习方法(如卷积神经网络(CNN)和循环神经网络(RNN))逐渐被采用,用于学习空间和时间属性,显著提高了分类性能。更具体地说,将卷积和循环单元结合在单一架构中的混合神经网络架构是当前作物类型分类的最新技术[31,34]。在本文中,我们认为这种混合循环卷积架构无法适应所考虑问题的一些关键特征。0农田的空间编码:用于作物分类的传统传感器(如Sentinel-2卫星)的空间分辨率较粗(每个像素10米),比农田的纹理信息(如沟壑或树行)要粗。然而,卷积神经网络(CNN)在提取空间特征时严重依赖纹理[12]。鉴于这一限制,我们提出将农田的中分辨率图像视为无序像素集合。事实上,近年来,三维点云处理的进展推动了对由无序元素组成的数据的强大编码器的发展[29,45]。本文中,我们展示了基于集合的编码器可以成功提取农田空间范围内光谱分布的学习统计信息。此外,我们还展示了与CNN相比,这种方法可以更有效地处理农田大小的高度可变性。2123260图1:Sentinel-2时间序列示例(显示:RGB波段,每像素10米)对应于冬季谷物和春季谷物类别的两个地块。水平轴上的点表示在感兴趣期间内不均匀分布的获取日期。注意地块的时间演变对于区分类别的重要性。0卫星时间序列的时间编码:早期的作物分类工作已经表明,在分类作物类型时,时间维度的重要性[34]。虽然循环神经网络(RNNs)已经广泛用于分析时间序列,但自然语言处理(NLP)领域的最新工作引入了一种基于注意机制的有希望的新方法[39]。这种方法带来的改进的并行性对于自动化作物监测尤为重要,因为其典型的规模涵盖整个大陆:欧盟农业区域一年的Sentinel-2观测数据量达到25Tb。因此,我们提出了一种适应时间序列分类的改进的基于注意机制的方法。0本文的主要贡献如下:0•受到Qi等人的启发[29],我们引入了像素集编码器作为中分辨率卫星图像的卷积神经网络的高效替代方法。0• 我们将Vaswani等人的工作[39]改编为端到端的序列到嵌入设置,用于时间序列。0•我们为大规模农业地块分类任务建立了新的最先进技术。此外,我们的方法不仅显著提高了分类精度,同时与文献中表现最佳的方法相比,加速了4倍以上,内存占用减少了70%以上。0•我们发布了第一个开放获取的带有地面真实标签的Sentinel-2图像数据集,用于作物分类。02. 相关工作0卫星图像时间序列分类问题可以在像素级或对象级别上解决。基于像素的方法0这些方法不需要先验地知道地块的边界,但不能利用对象范围内类别标签的空间均匀性。相反,在作物分类的情况下,基于对象的方法可以利用地块的形状提取有助于实现更好分类的空间信息[9]。0传统机器学习:直到最近,作物分类的常见方法是使用具有手工特征的传统判别模型[41, 15,42]。例如,归一化差异植被指数(NDVI)结合红外和近红外光谱波段被广泛使用,因为它与作物光合活动相关[38]。某些工作还包括从NDVI的研究中导出的现象学特征以及外部气象信息[48]。尽管这些手工特征具有鲁棒性和易解释性,但与端到端学习的特征相比并不占优势。在这样的工作中,表示时间演变的主要方法是将每个日期的空间和光谱特征连接起来。这对于在大地理区域上应用来说并不适用,其中获取日期因卫星轨道而异,并且云覆盖和气象条件可能是异质的,导致序列长度和时间采样的变化。因此,其他工作将他们的努力转向更好地建模时间,使用隐马尔可夫模型[36]、条件随机场[3]或动态时间规整[4]。0卷积和循环方法:最近,深度学习文献中取得的成功进展为空间和时间特征提取提供了高效工具。尽管一些工作仅将这些工具用作特征提取器[26],或将其与特征工程相结合[46],但大多数当前工作都遵循端到端可训练架构的深度学习范式。3123270特征学习方法:具体而言,Kussul等人[20]提出使用多层感知机(MLP)对原始观测数据进行处理,而不是传统的随机森林(RF)或支持向量机(SVM)。进一步的工作致力于利用卫星图像时间序列的空间和时间结构。卷积神经网络(CNNs)[21]似乎是处理数据空间维度的自然选择[19,32]。类似地,长短期记忆(LSTM)网络[13]成功应用于建模数据的时间维度[30, 25],优于RF和SVM[14]。此外,Rußwurm等人首次提出将混合循环卷积方法应用于地块分类,通过将ConvLSTM架构[44]应用于地块分类。这项工作取得了最先进的结果,并且还表明ConvLSTM能够学习检测和忽略云遮挡。类似的方法也成功应用于Sentinel-2数据的自动变化检测[27]。最后,Garnot等人在[34]中展示了通过为空间和时间特征提取分别实现两个专用模块来获得更高的分类性能:首先,图像序列通过共享的CNN进行嵌入,然后将得到的嵌入序列输入到门控循环单元(GRU)[8]。使用GRU的原因是它所需的参数数量较少,可以实现与LSTM相似的性能,这在[32]中得到了证实。此外,Garnot等人还表明,多时相卫星图像的相对较低的空间分辨率可能会对CNN的相关性提出质疑,因为当与循环单元结合使用时,光谱分布的手工制作描述符几乎可以达到可训练的空间编码器的效果。这是我们在本研究中提出解决的问题之一。0基于注意力的方法:在自然语言处理文献中采用自注意力作为RNN的高效替代方法之后,Rußwurm等人在[33]中提出将Transformer架构[39](一种基于自注意力的网络)应用于基于像素的分类。他们的大量实验证明,Transformer的分类性能与基于RNN的模型相当,并且对云遮挡观测具有相同的鲁棒性。同样,我们提出将自注意力机制扩展到图像的端到端序列嵌入学习,用于目标级别的分类。0纯卷积方法:多篇论文提出使用卷积来处理时间维度。Ji等人在[17]中提出了一种基于空间-时间3D-CNN的地块分类方法,发现光谱-时间卷积在基于像素的时序分割中优于LSTM,并在[19]中优于MLP。在[49]中也得到了类似的结果,其中时间卷积在基于NDVI时序的分类中比LSTM网络表现更好。此外,时间卷积的计算成本明显较低。0与RNN相比,卷积神经网络具有更短的处理时间。然而,考虑长期依赖性需要更深的架构。此外,时序卷积神经网络的固定架构使得同一网络无法用于不同长度或不同获取日期的序列。最后,2D和3D卷积在视频分析中被广泛用于目标分割[5, 35]或动作识别[6,11]。然而,卫星时间序列的特殊性,如不同的时间尺度和分辨率,阻止了这些网络的直接应用。03. 方法0在本节中,我们介绍了我们提出的用于编码中分辨率多光谱图像时间序列的架构的不同组件。我们用大小为T×C×H×W的空间-光谱-时间张量[x(0), ∙ ∙ ∙ ,x(T)]Tt=1来表示给定地块的观测值,其中T是时间观测次数,C是光谱通道数,H和W是包含地块空间范围的紧密边界框的像素尺寸。如图1所示,地块边界之外的所有值都设置为0。03.1. 空间编码器0近年来,CNN已成为从图像中提取空间特征的成熟方法。然而,我们的分析表明,卷积可能不适用于分析农业包裹的中分辨率卫星图像。事实上,如上所述,具有高重访频率的卫星的典型空间分辨率难以捕捉纹理信息。其次,高效训练CNN需要将数据组织成具有相同尺寸的图像批次。包裹的不规则尺寸使得这个过程非常占用内存。事实上,为了减少大包裹的纹理信息损失,这相当于对大多数较小的包裹进行多次过采样。为了解决这两个问题,我们提出了一种名为像素集编码器(PSE)的替代架构,受到点集编码器PointNet[29]和常用于3D点云处理的Deep-Set架构[45]的启发。这个设计的动机是,网络不是计算纹理信息,而是计算包裹观测的光谱分布的学习统计描述符。网络的处理过程如下,用于嵌入输入观测x(t):0i)从包裹中的N个像素中随机抽取一个包含S个像素的集合S,如公式1所述。当图像中的像素总数小于S时,将重复一个任意像素以匹配这个固定大小。同一个集合S用于采样给定包裹的所有T次获取。iii) The resulting set of values is pooled along the pixelaxis—of dimension S—to obtain a vector capturingthe statistics of the whole parcel and which is invari-ant by permutation of the pixels’ indices. We concate-nate to this learned feature a vector of pre-computedgeometric features f: perimeter, pixel count N, coverratio (N divided by the number of pixels in the bound-ing box) and the ratio between perimeter and surfaceof the parcel.4123280图2:我们时空编码器的示意图。粗体变量是沿时间维度连接的张量,例如e=[e(0),∙∙∙,e(T)]。0ii)对结果值集合沿像素轴(维度为S)进行池化,得到一个向量,捕捉整个包裹的统计信息,并且不受像素索引排列的影响。我们将学习到的特征与预先计算的几何特征f进行连接:周长、像素计数N、覆盖率(N除以包围盒中的像素数)以及包裹的周长和表面积之比。0ii) 每个采样像素s经过共享的多层感知器MLP 1处理,如公式2所示,由一系列全连接层、批归一化[16]和修正线性单元[24]组成。0iv) 这个向量经过另一个感知器MLP 2处理,如公式3所示,得到时间t时包裹的空间-光谱嵌入e(t)。0PSE架构如图2所示,并可以用以下方程总结:0S = sample(S, N) (1)0^e(t)s = MLP 1 ∙ x(t)s∙, �s∈S (2)0e(t) = MLP 2 ∙ pooling {^e(t)s}s∈S∙, f∙. (3)0在可能的池化操作中,我们发现对于沿采样像素维度S的均值和标准差进行串联得到的结果最好。对于小于S的包裹,应在池化之前删除重复的像素,以获得无偏估计。0尽管此编码器每个包裹只使用了有限的信息,但每个训练步骤中的采样不同确保了对所有可用信息的学习,从而获得稳健的嵌入。03.2. 时间注意力编码器0RNN已经证明在编码序列信息方面非常高效[23]。然而,由于RNN逐个处理序列元素,导致无法并行化且训练时间较长。在[39]中,Vaswani等人引入了Transformer架构,这是一种基于注意力机制的网络,在文本翻译任务上实现了与RNN相当或更好的性能,同时完全可并行化,因此更快。我们建议将他们的想法应用于卫星图像时间序列的编码。0Transformer网络:在原始的Transformer模型中,通过三个全连接层同时计算输入序列的每个元素的查询-键-值三元组q(t), k(t),v(t)。对于给定序列的元素,键k(t)传达其内容的性质,而值v(t)编码内容本身。给定元素的输出定义为先前元素的值加权和,权重由注意力掩码定义。该掩码定义为先前元素的键与查询q(t)的兼容性(点积),通过修改后的softmax层进行重新缩放。换句话说,每个元素通过其查询指示它需要哪种信息,通过其键指示它包含哪种信息。由于三元组q(t),k(t),v(t)的计算和乘法可以并行进行,Transformer充分利用了现代GPU架构,并且与递归架构相比,速度显著提高。该过程可以并行计算多次。15123290多头注意力:这种方法称为多头注意力,可以并行处理具有不同独立参数或头的多个时间。这种方法允许不同的查询-键兼容性集合进行专门化。0位置编码:在他们关于文本翻译的论文中,Vaswani等人通过为输入序列的每个元素添加位置编码张量来添加元素的顺序信息。方程4描述了观测t的位置编码,其中de是输入的维度,i是位置编码的坐标。由于我们考虑的序列通常比NLP中考虑的序列短,我们选择τ=1000,而不是10000。此外,day(t)是观测t自第一个观测以来的天数,而不是其索引。这有助于解决不一致的时间采样问题(见图1)。0[ p ( t ) ] d e i =1 =sin(2πday(t)/τ2i)02 mod (i, 2)0端到端编码:原始的Transformer网络将预训练的词嵌入作为输入。然而,在我们的设置中,生成输入的网络的参数与注意力参数同时学习。因此,我们建议每个头只从空间嵌入(5)中计算键-查询对,因为这些嵌入可以直接用作值:v(t) = e(t) +p(t)。这样可以减少不必要的计算,并避免在计算值时出现潜在的信息瓶颈。0序列到嵌入的注意力:原始的Transformer为序列的每个元素产生一个输出,而我们的目标是将整个时间序列编码为单个嵌入。因此,我们只保留Transformer的编码器部分,并为每个头定义一个单独的主查询ˆqh。这样的查询结合序列元素的键确定哪些日期包含最有用的信息。一个最初的方法是选择给定日期的查询,例如最后一个日期。然而,所选序列的元素可能不包含足够的信息来产生有意义的查询。相反,我们建议将主查询构造为所有日期的查询的时间平均值,并通过一个单独的全连接层进行处理(6)。如公式7所示,然后将该查询与序列的所有元素的键相乘,以确定单个注意力掩码a(h)∈[0,1]T,进而加权输入嵌入序列(8)。0多头自注意力:我们将每个头的输出o_h连接起来,对H个不同的头进行处理,然后使用MLP3对得到的张量进行处理,得到时间注意力编码器(TAE)的最终输出ˆo,如公式9所示。需要注意的是,与Transformer网络不同的是,我们直接使用ˆo作为时空嵌入,而不是作为注意力机制的输出。0(a) 春季谷物0(b) 夏季谷物0图3:TAE头部的平均注意力掩码,由128个春季(a)和夏季(b)谷物样本获得。0使用残差连接的好处。我们在图3中展示了头部特化的示意图,绘制了在第4节描述的数据集上训练TAE后两个谷物类别的平均注意力掩码。我们可以看到每个头部都专门处理时间序列的特定部分。此外,注意力掩码对输入的依赖性在头部4中特别明显,头部4专注于春季谷物样本的晚春季和夏季谷物样本的晚夏季。0时序注意力编码器:对于每个头部h,我们用FC(h)1表示生成键-查询对的全连接层,用FC(h)2表示生成主查询的全连接层,dk表示键和查询的共享维度。我们的注意力机制可以用以下方程总结,其中t∈[1,...,T],h∈[1,...,H]:0k(t)h, q(t)h = FC(h)1(e(t) + p(t)) (5)0ˆ q h = FC(h)2(mean(q(t)h)) (6)0a h = softmax(1/√d k)0ˆ q h ∙ k(t)h / T0(7)0o h =0t =1 a h [ t ] = e ( t ) + p ( t ) (8)0ˆ o = MLP 3([o1,...,oH]) (9)03.3. 时空分类器0我们的时空分类器架构将前面两个部分的组件结合在一起:时间序列的所有输入图像都通过共享的PSE并行嵌入,如图2所示。最后,生成的嵌入通过MLP解码器进行处理,以产生类别logits:y = MLP 4(ˆ o)。All the architectures presented here are implemented inPyTorch, and released on GitHub upon publication1. Wetrained all models on a machine with a single GPU (Nvidia1080Ti) and an 8-core Intel i7 CPU for data loading froman SSD hard drive. The exact configuration of our networkis displayed in Table 1. We chose the hyperparameters ofeach architecture presented in the numerical experimentssuch that they all have approximately 160k trainable param-eters (see appendix). We use the Adam optimizer [18] withits default values (lr = 10−3,β = (0.9, 0.999)) and abatch size of 128 parcels. We train the models with focalloss [22] (γ = 1) and implement a 5-fold cross-validationscheme: for each fold the dataset is split into train, valida-tion, and test set with a 3:1:1 ratio. The networks are trainedfor 100 epochs, which is sufficient for all models to achieveconvergence. We use the validation step to select the best-performing epoch, and evaluate it on the test set. For aug-(t)1github.com/VSainteuf/pytorch-psetaethe atmospheric bands (bands 1, 9, and 10), keeping C = 10spectral bands. The six 20m-resolution bands are resampledto the maximum spatial resolution of 10m.The area of interest (AOI) corresponds to a single tileof the Sentinel-2 tiling grid (T31TFM) in southern France.This tile provides a challenging use case with a high di-versity of crop types and different terrain conditions. TheAOI spans a surface of 12 100 km2 and contains 191 703individual parcels, all observed on 24 dates from Januaryto October 2017. The values of cloudy pixels are linearlyinterpolated from the first previous and next available pixelusing Orfeo Toolbox [7].We retrieve the geo-referenced polygon and class labelof each parcel from the French Land Parcel IdentificationSystem records2. We crop the satellite images using thispolygon to constitute the image time series.2http://professionnels.ign.fr/rpg6123300模块 超参数 参数数量0PSE 19 9360S 64 MLP 1 10 → 32 → 64MLP 2 132 → 1280TAE 136 1920d e,d k,H 128,32,4 FC 1128 → (32 × 2) FC 2 32 → 32MLP 3 512 → 128 → 1280解码器 11 1880MLP 4 128 → 64 → 32 → 200总计 164 1160表1:我们选择的模型配置用于数值实验。给出了MLP和全连接层的每个连续特征空间的维度。0所有这里介绍的架构都是使用PyTorch实现的,并在发表后在GitHub上发布1。我们在一台配备单个GPU(Nvidia1080Ti)和一个8核Intel i7CPU的机器上训练所有模型,用于从SSD硬盘加载数据。我们的网络的确切配置显示在表1中。我们选择了数值实验中每个架构的超参数,使得它们的可训练参数数量约为160k(见附录)。我们使用Adam优化器[18]的默认值(lr = 10^-3,β = (0.9,0.999))和批量大小为128个包裹。我们使用焦点损失[22](γ =1)进行模型训练,并实施了5折交叉验证方案:对于每一折,将数据集按3:1:1的比例划分为训练集、验证集和测试集。网络训练100个epochs足以使所有模型达到收敛。我们使用验证步骤选择表现最佳的epoch,并在测试集上进行评估。为了进行数据增强,我们向x(t)添加随机高斯噪声。03.4. 实现细节0标准差为10^-2,像素值被剪裁到5∙10^-2。最后,图像时间序列按通道和每个日期分别进行归一化。04. 数值实验04.1. 数据集0数据准备:为了评估我们的方法和基于卷积的方法,我们将地块组织成两种不同的格式:补丁和像素集。在补丁格式中,我们将每个地块调整大小为大小为 T × C × 32 × 32的张量,通过分别插值每个光谱通道和时间采集到固定大小的补丁 32 ×32。我们使用最近邻插值,水平和垂直轴都被重新缩放,以改变地块的整体形状。我们在地块的范围之外使用零填充(参见图1)。[34]中使用了相同的32像素大小,而[31]中使用了更大的48 ×48补丁大小,但用于像素级分类任务。对于像素集格式,每个地块的像素以任意顺序存储在大小为 T × C × N的张量中,其中 N是给定地块中像素的总数。请注意,无论地块大小如何,该格式既不会丢失也不会创建信息。因此,与补丁格式相比,这种设置可以节省高达70%的磁盘空间(28.6 Gb vs. 98.1Gb)。请注意,在准备数据集之前必须计算和保存几何特征f,因为所有空间结构从此时起都会丢失。根据法国补贴分配机构设计的20类命名法,定义了分类标签。数据集非常不平衡:四个类别占样本的90%(请参见附录中的图3)。这促使我们使用焦点损失来训练我们的模型。这两个数据集将在发表后发布。据我们所知,目前还没有针对基于对象的农业地块分类的基准数据集。我们的数据集是该领域更具再现性和可比性的方法学工作的第一步。CNN+GRU [34]93.8 ±0.348.1 ±0.665663398.1CNN+TempCNN [28]93.3 ±0.247.5 ±1.063560898.1Transformer [33]92.2 ±0.342.8 ±1.113420 + 4328.6 / 0.2247123310OA mIoU 训练 推断 磁盘大小0(每个epoch的秒数) (每个数据集的秒数) Gb0PSE+TAE (我们的方法) 94.2 ± 0.1 50.9 ± 0.8 158 149 28.6 / 12.3 10ConvLSTM [31] 92.5 ± 0.5 42.1 ± 1.2 1 283 666 98.1 随机森林 [3] 91.6 ± 1.7 32.5 ± 1.4 293 2 420 + 4 3 28.6 / 0.44 40表2:不同架构的分类指标和时间基准。OA和mIoU的交叉折叠标准差以较小的字体给出。第三列和第四列分别给出了训练一个epoch所需的总时间以及对完整数据集进行推断所需的时间。1 训练和纯推断所需的磁盘空间,2 整个训练步骤的时间,3 预处理和推断时间,4预处理前后的数据集。04.2. 与最先进方法的比较0竞争方法:我们将我们的方法与在类似数据集上操作的最新算法进行比较,并对其进行了重新实现。每个模型选择的不同超参数在附录中显示。所有模型共享相同的解码层配置MLP 4。0CNN+GRU在[34]中,Garnot等人提出了一种与我们类似的方法,但使用CNN代替PSE,并使用GRU代替我们提出的时间编码器。循环单元的最后一个隐藏状态被用作MLP4的输入进行分类。0CNN+TempCNN在[28]中,Pelletier等人提出使用一维时间卷积来处理观测数据的时序性质。虽然他们的方法是应用于逐像素分类任务的,因此不能进行比较,但我们已经实现了CNN+GRU的变体,其中将GRU替换为一维卷积,以最接近他们的思想。0Transformer在[33]中,Rußwurm等人使用Transformer网络的编码器部分进行基于对象的分类。他们没有使用空间编码器,并计算每个地块上不同光谱波段的平均值。此外,他们通过输出序列的时间维度进行全局最大池化,为整个序列生成单个嵌入。我们重新实现了相同的流程,并简单地修改了超参数以满足150k参数的限制。0ConvLSTM在[31]中,Rußwurm等人使用ConvLSTM网络[44]对补丁图像的时间序列进行像素级分类。我们通过使用ConvLSTM单元的空间平均最后隐藏状态来将该架构适应于基于地块的设置,然后由MLP 4进行处理。0随机森林最后,我们使用一个由100棵树组成的随机森林分类器作为非深度学习基准。该分类器基于每个地块内每个波段的均值和标准差构建的手工特征,并沿时间轴进行拼接,如[3]所述。0我们在表2中呈现了实验结果。我们提出的架构在整体准确率(OA)上优于其他深度学习模型0.4个百分点,并在每类交集联合(mIoU)上优于3到9个百分点。它还提供了卷积方法的四倍加速,并且在训练时的磁盘使用量减少了70%以上,在仅考虑推理任务时(即仅保留每个地块的S个像素),磁盘使用量减少了近90%。这种加速是由于像素集数据集较小而导致的加载时间改进,以及推理和反向传播时间,如附录的表2中详细说明。虽然TempCNN的时间卷积训练速度更快,但其性能较差,并且存在第2节讨论的限制。Transformer方法处理预计算的地块均值,训练速度也更快,但只能达到42.8的mIoU分数。RF分类器除了精度较差外,还具有显著的速度和内存优势。这可以解释其在实践中的持续受欢迎。然而,我们的方法在一定程度上弥合了这种性能差距,并提供了更高的分类率,使其成为大规模基于对象的作物类型映射的引人注目的策略。04.3. 消融研究0为了独立评估我们提出的架构的空间和时间组成部分的贡献,我们在表3中呈现了当分别用CNN(CNN+TAE)替换PSE或用GRU(PSE+GRU)替换TAE时的结果。0PSE的贡献:如表3所示,与基于CNN的模型(CNN+TAE)相比,PSE使mIoU增加了1.7个百分点。这同时支持了8123320O.A. mIoU0PSE+TAE(我们的方法)94.2 ± 0.1 50.9 ± 0.80ˆ q = q(T) 94.2 ± 0.1 50.7 ± 0.5 S = 16 94.3 ± 0.250.5 ± 0.8 ˆ q = max t q(t) 94.2 ± 0.2 50.3 ± 0.7 S= 32 94.2 ± 0.1 50.1 ± 0.5 无几何特征 93.9 ± 0.150.0 ± 0.70PSE+Transformer +ˆ q 94.1 ± 0.2 49.5 ± 0.7CNN+TAE 94.0 ± 0.1 49.2 ± 1.1 MS+TAE 93.7 ±0.1 48.9 ± 0.9 PSE+GRU + p 93.6 ± 0.2 48.7 ±0.3 PSE+GRU 93.6 ± 0.2 47.3 ± 0.3PSE+Transformer 93.4 ± 0.2 46.6 ± 0.90表3:按mIoU降序排列的我们不同设计选择的削减研究。0CNN在中分辨率图像上只有部分相关性的假设,以及将图像视为无序像素集的有效替代方案。这种方法不仅能够产生更好的分类性能,而且可以避免图像批处理问题,从而加快数据加载速度。此外,我们训练了一个在分块上预计算的光谱通道的均值和标准差上的TAE(MS+TAE),其获得了48.9的mIoU得分。因此,我们可以得出结论,PSE学习到的光谱获取的统计描述符比简单的均值、方差或卷积特征更有意义。0PSE的设计:我们在表3中展示了没有几何特征f的情况下我们架构的性能。mIoU降低了0.9个百分点,证实了几何信息在分类过程中的作用。我们注意到,即使没有这些特征,我们提出的方法也优于基于卷积的模型(CNN+TAE)。我们尝试用一个在分块的二进制掩码上操作的CNN替换手工设计的几何特征f。然而,收益微乎其微,我们为简单起见删除了这一额外步骤。最后,我们尝试使用减少的采样像素数量(S = 16和S =32)来训练我们的架构。该模型在mIoU超过50个百分点的情况下保持良好性能。这表明在牺牲一点精度的情况下,可以进一步提高处理时间和内存的降低。0TAE的贡献:用GRU替换时间注意力编码器(PSE+GRU)将mIoU性能降低了3.6个百分点(表3)。TAE不仅产生了更好的分类,而且由于并行化而训练速度更快。与[33]中Transformer和RNN架构的比较不同,我们修改后的自注意机制提取的特征比基于RNN的方法更具表现力。0我们还通过将位置编码p添加到GRU单元的输入张量中(PSE+GRU + p)来评估Transformer的位置编码p的影响。这将与我们的方法之间的差距减小到2.2个mIoU点。这表明TAE的改进既归功于其结构,也归功于位置编码的使用。0TAE的设计:为了评估我们在Transformer上的不同贡献的好处,我们将[33]中提出的架构改为使用PSE网络而不是谱均值来嵌入分块(PSE+Transformer),性能比我们的TAE低4.3个百分点。通过用我们的主查询形成方案(PSE+Transformer+ˆ q)替换所提出的时间最大池化,我们观察到mIoU增加了2.9个百分点。这个实现与我们的实现之间剩下的1.4个mIoU点可以归因于我们直接使用输入来计算TAE的输出,而不是一个较小的中间值张量。最后,我们将我们的均值池化策略与最大池化(ˆ q = max tq(t))和从序列的最后一个元素计算主查询(ˆ q =q(T))进行比较。虽然均值查询方法产生了最佳性能,但数据集中序列的最后一个元素也产生了有意义的查询。然而,对于其他地区或采集年份可能不是这种情况。05. 结论0在本文中,我们考虑了从卫星图像时间序列进行基于对象的分类的问题。我们提出将这样的图像视为无序的像素集,以反映其空间分辨率的典型粗糙度,并引入了一个合适的编码器。为了利用这些序列的时间维度,我们改进了Transformer架构[39]以嵌入时间序列。我们引入了一个主查询形成策略,并利用我们的网络学习端到端来简化一些操作。在我们的新的开放访问的农业地块注释基准上进行评估,我们的方法产生了比所有其他重新实现的方法更好的分类结果。此外,我们的网络比其他最先进的方法(如卷积-循环混合网络)在处理时间和内存方面快几倍,并且更加简洁。我们希望通过减轻深度学习方法的一些限制,如处理时间和内存需求,我们的方法能够加速它们在现实生活中大规模地球观测应用中的应用。我们的结果表明,基于注意力的模型是探索分析卫星时间序列的时间特征以及其他类似视觉任务(如视频动作识别)的有趣途径。同样,基于集合的编码器是处理遥感应用中较粗分辨率的有前途但被忽视的范例。9123330参考文献0[1]一览欧洲共同农业政策,访问于2019年11月。https://ec.europa.eu/info/food- farming-fisheries/key-policies/common-agricultural-policy/cap-glance_en,2017年。[2]概念说明:支持农业的未来Copernicus服务组件,访问于2019年11月。https://www.copernicus.eu/sites/default/files/2018-10/AGRI_Conceptnote.pdf,2018年。[3] SimonBailly,Sebastien Giordano,Loic Landrieu和Nes- rineChehata。利用多源Sentinel图像和lpis进行作物轮作结构化分类的作物类型映射。IGARSS,2018年。[4] Mariana Belgiu和Ovid
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功