变形金刚：变压器在头顶图像识别中的实证比较

4 浏览量更新于2023-10-15 收藏 1.54MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3778用于头顶图像识别的变形金刚：现实检验杜克大学francesco. duke.edu杜克大学aneeshgupta8@gmail.com莱斯利柯林斯杜克大学leslie. duke.edu杜克大学kyle. duke.edu蒙大拿大学jordan. umontana.edu摘要有证据表明，变压器提供了最先进的识别性能的任务，涉及架空图像（例如，卫星图像）。然而，很难在竞争性的深度学习模型之间进行无偏见的实证比较，因此不清楚基于transformer的模型是否以及在多大程度上是有益的。在本文中，我们系统地比较了将Transformer结构添加到最先进的分段模型中对头顶图像的影响。每个模型都有一个类似的自由参数预算，它们的超参数使用贝叶斯优化进行优化，具有固定的数据量和计算时间。我们使用一个大型且多样化的数据集进行实验，该数据集包括两个大型公共基准：Inria和DeepGlobe。我们进行了额外的消融研究，以探索特定的基于变压器的建模选择的影响。我们的研究结果表明，变压器提供一致的，但适度的，性能改善。然而，我们仅在结合卷积和基于变换器的结构的混合模型中观察到这种优势，而完全基于变换器的模型实现相对较差的性能。1. 介绍基于transformer的模型在计算机视觉任务中已经变得普遍，并且在分类[12，31]，对象检测[10，48]和分割[7，3]方面实现了最先进的性能。这一成功可能有力地表明，transformer优于其他现有模型，例如基于卷积结构的模型，然而，由于在比较不同视觉模型时缺乏实验对照，因此难以基于现有研究文献得出结论。现代视觉模型的性能-所有这些都基于深度神经网络-受到许多因素的影响，数据集区域国家面积（平方公里）奥斯汀美国81芝加哥美国81INRIA基萨普县美国81西蒂罗尔奥地利81维也纳奥地利81拉斯维加斯美国150.2DeepGlobe巴黎法国41.88上海中国173.32喀土穆苏丹32.88表1.组成Inria和Deep-Globe数据集的城市及其规模在公共基准和研究文献中使用的竞争模型之间差异很大的参数这包括诸如训练数据的数量和质量、训练算法（例如，优化器）、分配的训练时间，以及模型的大小（即，自由模型参数的数量）。另一个更微妙但具有高度影响力的因素是设计师在超参数优化上投入的计算时间和精力，这可能导致误导性的性能比较[34]。如果上述因素中的一个或多个在竞争的视觉模型之间变化，则不清楚其中哪些因素是造成任何性能差异的原因[38，24，20，34]。因此，目前还不清楚最近成功的变压器为基础的模型applied到开销图像已被驱动的使用变压器，或各种其他因素之间的视觉研究的一个主要目标是揭示潜在的因果因素和视觉系统的设计原则;这不仅促进了我们对视觉系统的理解，而且常常导致此类系统的实质性性能改进。因此，视觉文献中的一个重要问题是，转换器是否以及在多大程度上通常有利于视觉模型。变压器的受控研究已经用自然图像进行[37]，提供了一些3779图1. (a)、（b）和（c）分别显示了Unet、TransUnet和SwinUnet的体系结构。这些数字直接受到[40，7，3]的启发，分别在这种情况下的证据。然而，目前还不清楚他们的成功是否延伸到独特的统计数据和条件，目前在架空图像，视觉研究的一个主要领域。变压器擅长于对长距离依赖性进行建模，这虽然在大多数视觉任务中通常是有益的，但在建筑物信息紧凑、高度本地化并且多次与其他结构隔离的高架图像分割中可能不那么重要据我们所知，还没有系统的研究，这个问题的开销图像的任务。在这项工作中，我们进行了一个仔细控制的empiri-cal比较三个国家的最先进的分割模型，使用开销图像，其中每个模型利用逐步更多的变压器为基础的结构。具体而言，我们考虑以下三种模型：[21]，[22]，[23]，[24]。这是TransUnet和SwinUnet首次应用于大规模的高空影像数据集1。除了模型变量之外，我们还仔细控制了所有其他实验因素，例如模型的大小，训练数据的数量和训练程序。我们使用一个大型的和多样化的数据集的开销图像，包括两个公开的基准，以最大限度地提高我们的结果的一般性和相关性。为了提供透明且无偏的超参数优化过程，我们使用具有固定迭代预算的贝叶斯优化（BO）来选择每个模型的超参数。我们为每个模型提供了大约330小时的优化时间，以便为每个模型确定有效的超参数。这些实验控制使我们能够研究是否，以及在何种程度上，变压器是有益的背景下，开销图像。使用我们的优化模型，我们还进行了几项额外的消融研究，以评估基于变压器的模型中特定设计选择的影响。我们可以将我们的贡献总结如下：• 第一次调查了两种最新的用于处理开销图像的最先进的分割模型：[7]和[3]。[1]最近的工作[43]独立和同时研究了这些模型，在一个互补的设置• 第一个控制评估是否，以及在何种程度上，变压器是有益的视觉模型在架空图像。2. 相关工作在架空图像分割。航拍图像的分割需要复杂的特征来描述广阔的领域以及像素级的精度。Unet [40]最初是为医学图像开发的，已被证明是开销图像分割[18，16]和更广泛的分割社区中的强大模型，该模型有许多变体，如 Dense-Unet [29] ， Res-Unet [44] ， Unet++[50]，V-Net[33]和Unet 3 + [19]。这归功于类似自动编码器的结构，在该结构中，它接收其其他模型，如DeepLabv 3 [9]和Mask-RCNN[14]已经成功地用于头顶图像的分割[27，4]。虽然这些模型的性能也很好，但我们选择评估基于Unet的架构，因为它具有高性能和大量的变体模型。如此多的变量使我们能够更容易地比较模型架构中的小变化。变压器分段。最近变压器已经开始用于头顶图像的分割[17，42]，实现了良好的性能。在医学图像分割中，Trans-former已经开始在其他领域变得常见，例如TransUnet [7]、ViT-V-Net [6]、TransClaw变压器的评估。变压器在计算机视觉中是相当新的，直到最近才成为最先进的。因此，在许多领域和应用中，包括我们自己的领域和应用中，它们对性能的影响尚未得到彻底分析。虽然已经在评估其关于离散移位的泛化能力[47]以及其学习的表示的可转移性[49]方面做了工作对于高架图像的分割，据我们所知，3780还没有进行彻底评估和隔离现有技术模型中变压器的影响的工作。3. 基准数据集我们在两个大型公开的高空图像数据集上训练和评估我们的数据：DeepGlobe（DG）竞赛数据集[11]和Inria Building La-beling竞赛数据集[32，18]。这两个数据集都包含高分辨率（0.3米地面采样密度）彩色图像，像素标签指示建筑物的存在（值为1）或不存在（值为0）。总体而言，这些数据集包括横跨北美、欧洲和亚洲的9个不同城市，如表1所示。4. 基准细分模型我们的目的是比较类似的最先进的模型，如图1所示，并确定哪些因素有助于整体性能。具体来说，我们的目标是回答Transformer层是否有价值的开销分割。为此，我们选择了Unet [40]、TransUnet [7]和SwinUnet [3]模型，因为它们都使用相同的基本Unet结构，它们都是最先进的分割模型，并且它们包含不同水平的变换器集成。SwinUnet是完全基于Transformer的，Unet是完全卷积的，而TransUnet是Transformer和卷积神经网络的混合。对于我们的大多数比较，我们限制了每个模型的参数数量，以便可以公平地进行比较。Unet和TransUnet本身有大约1.05亿的参数计数，因此我们选择这个作为我们的基线模型。每个模型及其重要性的简要描述如下，更详细的描述可以可以在补充材料中找到。Unet 对于我们的基线卷积模型，我们使用了基于Unet的架构，具有ResNet101 [15]骨干，如图1（a）所示。该模型使用在ImageNet [28]上预训练的ResNet101权重，具有本文中描述的标准Unet结构。我们选择使用Unet由于其在分割任务中的流行性和性能其简单直观的设计允许许多变体，包括我们考虑的基于Transformer的变体。TransUnet。对于我们的大多数实验，我们使用标准的 TransUnet 和在 ImageNet 上预训练的 VisualTransformer（ViT）块[12]，如图1（b）所示。正式的实现用于模型，所有的模型更改都是从该代码库派生的。由于其简单的修改，trans-sunet被证明是卷积-Transformer混合模型的一个很好的选择。TransUnet与标准 Unet 非常相似，但在编码器的最深处有Transformer层。这参数范围学习率10µ，µ∈U（−4，−1）权重衰减10µ，µ∈U（−7，−3）窗口大小[2、4、8]表2.这里我们在第一列中列出了BO中使用的参数 μ取自均匀分布。在所有模型中使用贝叶斯优化发现学习率和权重衰减，并且窗口大小仅用于SwinUnet的贝叶斯优化。允许在模型的不同方面上烧蚀而不影响其余层。SwinUnet。我们的完全基于transformer的模型是一个修改后的SwinUnet，如图1（c）所示，权重从SwinBase模型加载[31]。我们在所有工作中使用了原始代码库中的实现。我们修改了原始的SwinUnet架构，以实现与其他模型等效的参数计数我们还训练了一个SwinUnet与SwinUnet论文中所描述的SwinTiny骨干架构，并将其与具有等效参数的Unet进行比较，以验证我们修改后的SwinUnet代表了模型我们使用SwinUnet来表示完全基于Transformer的模型，因为它在医疗分割方面具有最先进的性能，并且Swin transformer在其他基于计算机视觉的任务（如分类和对象检测）中占据主导地位[31，10]。5. 实验设计我们研究的主要目标是比较最近基于transformer的模型与最先进的卷积模型的有效性，同时控制可训练模型参数的数量。5.1. 数据处理虽然DG数据集包含多个类别的标签（例如，道路、建筑物等），我们只使用建筑标签，这样我们就可以在两个数据集上一起训练。我们的组合数据集分别涉及三分之二，六分之一和六分之一对于Inria，我们使用官方测试集作为我们的测试集（前六个图块），对于DG，我们随机选择六分之一的数据作为测试集。每个城市在训练集、验证集和测试集中所占的比例相同。5.2. 模型超参数优化为了最大限度地减少对特定模型的偏见，我们使用BO优化了所有竞争模型[41]，这是一个系统的，可复制的和透明的过程，通过实验搜索最佳超参数。此外，每个模型允许30次BO迭代，确保为每个模型提供可比的计算资源根据我们对Unet的实验，我们选择使用30次迭代。我们发现30个试验探索了378110模型Inria DG复合材料参数（M）图2.使用贝叶斯优化搜索的参数空间的热图。采样点显示为块点，最终参数选择由红点表示，高斯过程用于对中间的点进行建模以填充空间。学习率在X轴上绘制，权重衰减在Y轴上绘制。学习率和权重衰减都是按指数采样的（−3给出的值为10−3或1e−3），因此在对数尺度上，参数值具有相等的权重。Unet3476.5878.7177.7426.71SwinUnet Tiny75.6777.8576.8727.13表3.还对较小版本的Unet和SwinUnet进行了训练，以验证原始Swin-Unet架构图3.输入图像和掩码输出的示例。每一行都是来自不同城市的测试图像，第一行来自DG，第二行来自Inria。第一列包含输入图像，接下来的三列分别包含来自Unet、SwinUnet和TransUnet的预测突出显示与地面实况的差异，绿色表示错过的建筑物像素，红色表示误报建筑物像素。超参数空间彻底，任何更多的试验将几乎没有性能改进。在BO的大约第20次迭代后，模型收敛到局部最小值，并且随着持续搜索时间的增加，有微小的改善甚至没有改善。图2显示了参数搜索空间的预测热图以及在BO期间采样的点。在补充工作中，我们包括显示模型性能收敛、每次BO迭代的训练验证以及与所选单个参数对应的模型性能的图。我们的计算资源也有限，30次试验大约需要两周时间才能完成，总共需要六周时间来优化三种模型。对于BO，我们使用BO库提供的python实现[36]。我们用2个随机点初始化BO，使用预期的改进[25]采集函数，并将开发-探索权衡参数（“xi”）设置所有其他参数均保持其默认值。对于我们的三个模型类中的每一个，我们确定了一小部分（2-3个）最有影响力的超参数，以包含在BO中，如表2所示这包括学习速率和重量衰减，增加了SwinUnet模型的窗口大小。我们的目标是选择最有影响力的超参数，这些超参数不会改变模型可用的参数数量。在每种情况下，我们都使用随机选择的超参数设置进行训练和测试，以初始化BO中的高斯过程。这些模型使用五分之一的训练数据集进行训练，以加快这一过程。请注意，这仍然导致相对较大的训练数据集，包括跨越9个区域的107km2卫星图像，并且每个模型训练需要12小时。验证集上的最后一个历元性能被用作BO中优化的目标参数。然后采用具有最高验证率的超参数在完整的训练数据集上训练模型，然后在保留的测试集上对其进行评估，作为模型性能的最终无偏估计量。基于transformer的模型具有额外的影响力超参数，例如头部数量，嵌入维度和层数，但是如上所述，这些可以改变模型中可训练参数的数量，因此我们提前固定了这些参数。我们保持这些参数与预训练模型中使用的参数一致，我们使用预训练模型的权重来初始化模型。为了避免破坏任何模型，我们没有在BO中包括这些参数。然而，在执行BO之后，我们通过在设置网格上搜索来研究模型中的Transformer层数的影响。我们不为其他架构参数探索这些参数，因为它会删除使用预训练权重的能力。3782××模型INRIA奥斯汀芝加哥KitsapDeepGlobe西蒂罗尔郡维也纳拉斯维加斯P亚里斯上海喀土穆复合参数（男）Unet [40]81.9271.5869.0080.4482.5385.5072.2677.1373.6479.53104.89SwinUnet [3]80.2169.6268.7080.3381.8584.8770.5776.2572.3678.48102.64TransUnet [7]81.9473.2169.1981.4682.9485.4572.9277.3173.7979.96105.91表4.我们测试的三种模型架构的性能比较，按城市划分，通过交叉点对联合点（IoU）进行测量。Unet表示仅卷积方法，SwinUnet表示仅Transformer方法，而TransUnet是两者的组合。选择模型架构，以便模型具有大致相似的参数计数。每个城市的最佳表现以粗体显示。5.3. 培训除非另有说明，否则所有模型都使用从基础模型上的BO中找到的超参数进行训练。例如，具有6个Transformer层的TransUnet使用的参数与使用具有12个层的TransUnet时发现的参数相同。这种方法用于减少搜索时间，我们观察到类似架构之间共享的超参数由于在数据子集上进行训练是为了节省时间，因此我们使用了自适应的学习时间表和训练时间。这避免了选择可能不公平地将一个模型与另一个模型相比较的学习时间表的问题，以及使从利用训练数据集的子集到利用完整数据集的过渡我们允许模型进行训练，直到验证曲线变平，然后将学习率降低2倍。学习率下降了三次，然后训练停止了。为了确定验证是否已经变平，我们维护了验证性能的运行平均值，并将当前值与10个epoch之前获得的运行平均值进行一旦两者之间的差异为在学习率第三次下降后，继续训练，直到验证曲线再次变平，然后停止训练，最后一次epoch验证用于对参数选择进行评分。所有模型都在Inria还有DG。650从每个卫星上取650个贴片，在训练期间，将通过数据集统计标准化并随机裁剪的图像简化为512 512。在训练过程中还使用了90度这些模型是根据像素交叉熵损失和软交集（IoU）[39]损失进行评估的，权重相等。5.4. 性能度量我们使用交集（IoU）报告性能，因为它广泛用于头顶图像的分割，并且是Inria和DG数据集的官方性能指标IoU测量所有预测的建筑物像素和地面实况标签在所有预测的建筑物像素和地面实况标签的联合上的相交。IoU由以下人员提供，这一结果是一个在0和1之间归一化的度量，直观地封装了模型预测地面真实标签的效果。图3中的三个右列图像展示了预测与地面实况，其中交集由白色像素示出，并且并集是所有非黑色像素。6. 模型性能比较我们进行了大量的实验，以隔离特定的变化和影响的模型和参数选择过程。我们评估了不同数量的Transformer层、预训练、参数搜索和Transformer层对模型性能的影响。图3展示了每个模型标准尺寸的模型。我们的标准尺寸模型的结果报告在表4中，其中TransUnet实现了最高的总体IoU，其次是Unet和SwinUnet。这些排名对于两个基准数据集中的每一个都是持续的这些结果与Inria的当前最新结果相当 [8 ， 26 ， 51] 。结果初步表明，包括一些Transformer模块（例如，TransUnet）是有益的，然而包括太多可能是有害的（例如， SwinUnet ）。TransUnet的性能始终优于Unet，这反映了TransUnet和SwinUnet论文[7，3]中的发现，但Swi-nUnet结果似乎表现不佳。先前的研究发现，基于transformer的模型比卷积模型更难训练，并且随着训练数据量的增加，往往会提高得更快[30，12]。因此，随着高空影像数据集的持续增长，SwinUnet可能会表现得相对更好。考虑到样本的复杂性和我们训练数据的大小，它并没有。SwinUnet在此设置中的较低性能为以下概念提供了支持：长距离依赖性在俯拍图像分割的早期阶段并不有益，并且本地化信息在俯拍图像中很重要。小型模型。为了公平地比较SwinUnet模型并增加其参数计数，我们添加了trans-Unnet。IoU=预测标签预测标签（一）以前的块，并从预训练的Swin Base检查点加载模型，而不是使用基础架构3783(e.g.头数、隐藏层尺寸）。这可能不利于模型，因为我们没有对最佳的大型Swi-nUnet进行广泛的架构搜索，而Unet和TransUnet是以其原始形式进行测试的，因此可能更优化。为了验证在扩展SwinUnet架构时，我们我们以与上述相同的方式对这两个模型执行BO，并以完全相同的方式训练表3显示了测试集的结果，并且结果与表4中报告的使用较大模型发现的结果一致。6.1. 变形金刚有好处吗在公平的条件下，transUnet，一个Transformer-卷积混合，在一个大型和多样化的测试集上表现优于替代虽然这给了变压器改进的概念以可信度，模型我们发现，虽然从TransUnet中删除所有Transformer层会降低性能，如表6所示，但该模型的性能仍优于小型Unet，并且与大型Unet的性能相似。由于TransUnet没有Transformer层，模型大小大大减小（通过参数计数），因此其性能与 Unet相似，因此很明显，在TransUnet架构中还有其他因素可以提高性能。为了解决这种不明确性，我们通过用其他层类型替换TransUnet中的Transformer层来进行消融，如表7所示我们发现，虽然benefit很小，但添加transformers可以提高模型的性能。7. 其他分析和消融7.1. 窗口大小效应在BO搜索中用于SwinUnet的参数之一是窗口大小。我们在搜索中发现，窗口大小为4是性能的理想选择，但希望验证搜索的准确性和该参数的重要性。在表5中，我们提供了3个模型的性能，这些模型在窗口大小为2、4和8的情况下进行了训练。结果表明，选定的窗口大小性能最好，增加窗口大小的影响可以忽略不计，而减少它会导致性能大幅下降。7.2. 分层消融我们考虑了使用的Transformer层数对性能的影响。表6显示了具有0、6、8、10和12个Transformer层的TransUnet的包括Unet以供比较。我们发现模型窗口大小INRIADG复合材料参数（M）276.9078.9578.02102.62SwinUnet477.1879.5578.48102.64877.1279.1078.21102.73表5.我们用不同的窗口大小训练SwinUnet，以确定窗口大小对模型的影响，并验证BO正确地选择了性能最高的参数。每一行提供了使用不同窗口大小训练的SwinUnet模型的测试集上的性能所有其他训练参数保持不变。Unet34076.58 78.7177.7426.71Unet101078.41 80.4679.53104.89078.65 80.2079.5120.86680.02 80.8380.4763.38TransUnet880.12 81.0480.6377.561079.90 80.9480.4791.741279.22 80.5679.96105.911479.98 81.0780.58120.09表6.我们对使用的Transformer层进行了消融包括Unet和具有0层的TransUnet，以显示Transformer层提供的好处。平均而言，具有8个Transformer层的TransUnet表现最好，但是对于除0层TransUnet之外的任何模型，性能没有显著变化我们还发现，12层TransUnet在所有具有Transformer层的TransUnet模型中表现最差。这使我们相信BO搜索发现了一般良好的超参数，这些超参数在TransUnet的不同变体中都能很好地工作另一个有趣的发现是，具有0个Transformer层的TransUnet的性能几乎与具有Transformer层的TransUnet一样好;它的性能优于基于RestNet 34的U-Net，尽管它具有更多的参数，并且它的性能等同于Unet基线模型，尽管它具有更多的参数。这意味着，TransUnet的Transformer部分只是其性能优于Unet架构的一个因素，还有其他因素促成了TransUnetUnet和TransUnet之间的一个显著差异是，Unet在其许多卷积层中不使用填充，导致更小的特征张量，并导致编码器和解码器之间的维度差异。这种尺寸上的差异不允许所有的编码器特征经由跳过连接被传递到解码器，并且减少了提供给解码器的高分辨率信息的量。虽然我们没有测试这一假设，这将需要大的架构变化，无论是TransUnet或Unet，有几个其他因素，我们认为可能会导致如此大的差异，在性能。模型Transformer层Inria DG复合参数（男）3784模型使用的超参数INRIADG复合材料模型建筑类型使用的预培训INRIADG复合参数（M）TransUnet完全连接没有76.0777.7576.99103.76TransUnet卷积没有77.4279.4878.55105.82TransUnetTransformer没有77.8879.6678.86105.91TransUnetTransformer是的79.2280.5679.96105.91表7.我们探讨了在编码器的最后阶段使用Transformer层的效果在这里，我们将标准的TransUnet模型与用全连接层或3个卷积块替换Transformer层的变体进行比较。请注意，除了Transformer层及其替换层之外，所有层都使用预训练的权重。TransUnetTransUnet79.2280.5679.96Unet79.6580.9180.35UnetTransUnet78.5780.3679.55Unet78.4180.4679.53表8.我们测试了在一个模型上使用BO搜索发现的超参数应用于另一个模型时的效果例如，我们使用了在Unet上通过BO过程找到的超参数，并用这些参数训练了一个TransUnet。该表显示，性能对于用于训练的超级参数具有一定的鲁棒性。“使用的曼斯。7.3. 预训练和参数效应众所周知，预训练对于良好的模型性能很重要，这对于transformer模型尤其重要[12]。我们通过训练一个仅为Transformer层分配随机权重的模型来评估预训练的影响。表7显示了transUnet在Transformer层进行预训练和未进行预训练的情况下的性能。请注意，预训练的权重仍然用于模型的所有其他层。随机化的TransUnet甚至不如没有Transformer层的TransUnet，这表明随机化权重比不包括层对性能更有害。我们还研究了对每个模型架构使用BO的重要性优化模型中的每个架构更改非常耗时，如果性能存在很大的差异（取决于如何获得超级参数），则跨架构比较将变得毫无意义为了测试这一点，我们使用从Unet BO搜索中找到的超参数来训练TransUnet，反之亦然。表8显示了在这种情况下性能是一致的，并且实际上两种模型都有所提高。7.4. Transformer效应在发现Transformer层不需要在基线Unet上进行改进时，我们通过用其他层类型替换Transformer层来探索基线TransUnet模型的一些变体由于这些修改是非标准的，我们没有预先训练图4.针对所有三个基线贝叶斯优化显示最大IoU试验与当前迭代。每个模型在开始时都有很大的改进，但随后在第20次迭代前后收敛，之后的性能只有很小的改进或没有改进。图5.这里显示的是贝叶斯优化每次迭代的每个时期的训练验证。每个模型允许30次贝叶斯优化迭代，以找到最佳的超参数。较暗的线表示较晚的试验，较亮的线表示较早的试验。由于我们使用了自适应的停止标准，如果他们的表现停滞或在训练阶段非常差，一些试验会提前结束。这些层的权重，从而随机初始化它们。为了解释这一点，我们将修改后的模型与具有预训练和随机权重的TransUnet 进行了这不是一个完美的比较，因为Transformer模型似乎对预训练更敏感。首先，我们简单地将Transformer层替换为全连接层。这些全连接层的输入是用于变换器层的相同补丁嵌入。Unet的作者鼓励使用trans-former层来帮助在编码过程中收集全局上下文。完全连接的层还应该能够对图像中的全局关系进行建模。添加的全连接层具有与输入嵌入相同的输入和输出尺寸。我们使用ReLU激活[35]在每个完全连接的层之间进行层归一化[2]。添加了足够的层，使得总参数计数与我们的标准TransUnet模型相似。3785×我们还评估了用更多卷积层替换Transformer层的效果为了保留特征的空间维度，我们去掉了线性嵌入我们没有探索卷积替换的许多不同配置，只是使用简单的3 × 3卷积滤波器，其信道大小与transformer层和层之间的残余连接相同我们在每个卷积层之后使用ReLU激活和批量归一化[23]。为了保持比较尽可能公平，我们添加了足够的层，以增加参数计数，使其等于标准的TransUnet。表7所示的结果表明，使用变压器层比单纯使用其他层类型具有更大的影响。虽然在没有对架构空间进行详尽搜索的情况下，不可能说与使用卷积或全连接层相比，transformers对性能的影响有多大，但我们发现，使用transformers以合理的方式提供了比使用卷积或全连接层略微的性能改进。7.5. 贝叶斯优化这项工作的结论在很大程度上取决于一个前提，即BO为我们的每个竞争模型找到了良好的超参数，反映了它们在实践中的性能在本节中，我们提供了证据，证明我们的BO的三个关键步骤是有效的，提供了强有力的证据，BO过程作为一个整体是有效的。首先，我们提出的证据表明，BO在其搜索范围内找到了接近最优的参数。为此，对于我们的三个BO中的每一个（在我们的实验中，每个竞争模型一个），我们报告由高斯过程模型估计的模型这些估计是在一个密集的网格上进行的，并在图中以图像的形式报告。2，其中我们还覆盖了在BO采样的超参数设置下通过实验获得的IoU。从这些结果中，我们看到三个模型中的每一个都有一个明显的局部最优值，这表明我们为每个模型选择了足够大的搜索范围来找到好的超参数。此外，BO对接近这些局部最优值的一个（或多个）点进行采样，这表明为每个模型获得了接近局部最优的超参数。这些结论得到了图1所示结果的证实。4，其中我们还报告了作为每个模型运行的BO迭代次数的函数获得的最大IoU。我们看到，对于每个模型，最初发现的IoU相对较低，然后（通常稳定地）增加，直到达到某个饱和点，在多次迭代后没有发现更大的IoU。从图2中也可以清楚地看出，BO模型并不是简单地对类似的设置进行采样（这在BO hyperpa较差的BO中是可能的参数设置），但相反，他们在搜索空间中采样了一组不同的超参数。这些结果表明，BO有效地改善了超参数设置，直到找到一个强大的最佳设置。总的来说，这些结果表明BO是有效的，只要从各个实验获得的IoU（即，训练和验证具有单个超参数的模型）是有效的。这是不能保证的，因为我们需要仔细设计一个自动停止标准来训练模型，这允许模型训练，直到它们一直没有改善，并且在任何过拟合降低它们的性能之前。在图5中，我们报告了在BO过程中训练的所有模型的验证IOU作为历元的函数，其中大多数模型在训练期间表现出预期的验证误差，并且在训练结束时或之前似乎8. 结论在这项工作中，我们研究了是否，以及在何种程度上，变压器是有益的分割任务，在头上的图像。为了解决这个问题，我们对三种最先进的分割模型进行了大规模系统的经验比较，其中每个模型都利用了越来越多的基于变换器的结构。我们考虑了以下三种模型：[21]，[22]，[23]，[24]。根据我们的研究结果，我们得出以下结论：• 变压器提供一致但适度的性能-改进的mance。这种性能优势仅在混合架构中观察到（例如，transUnet），包括一个卷积编码器，后面跟着变换器，在所有模型中表现最好。完全基于变压器的模型（例如，Swi- nUnet）取得了相对较差的业绩。• 我们发现，在Trans-U-Net中使用的U-Net结构（例如，在没有任何Transformer层的情况下运行时）的性能优于其他类似尺寸的U型网络结构我们无法找出这种优势的确切原因。据我们所知，这代表了最系统的com-迄今为止，遥感文献中变压器的数量我们注意到在解释我们的结果时应考虑的实验的几个局限性：（i）我们专注于细分任务;（ii）我们只采用建筑目标类别;（iii）与彩色图像应用相比，我们使用相对较小的训练集。确认我们感谢杜克大学能源倡议的支持。这项工作得到了阿尔弗雷德P. 斯隆基金会。内容完全是作者的责任，并不一定代表阿尔弗雷德P。斯隆基金会。3786引用[1] Abdelilah Adiba，Hicham Hajji和Mustapha Maatouk。迁移学习和u-网络在建筑物分割中的应用。在数据科学新挑战会议上：摩洛哥分类学会第二次会议的法案，第1-6页，2019年。[2] 吉米·雷·巴，杰米·瑞安·基罗斯，杰弗里·E·辛顿.层归一化。arXiv预印本arXiv：1607.06450，2016。[3] 曹虎、王悦悦、陈悦、姜东升、张晓鹏、田奇、王曼宁.Swin-unet：用于医学图像分割的Unet类纯Transformer。arXiv预印本arXiv：2105.05537，2021。[4] Osmar Luiz Ferreira de Carvalho ， Osmar Abilio deCarvalho Junior ， Anesmar OlinodeAlbuquerque ，Pablo Pozzobon de Bem ， Cristiano Rosa Silva ， PedroHenrique Guimaraes Ferreira ， Albuqua dos Santos deAlbuqua ， Roberto Arnaldo Trancoso Gomes ， RenatoFontes Guimaraes，and Dibio Leandro Borges.使用mask-rcnn和镶嵌方法的大型多通道遥感图像实例分割。遥感，13（1）：39，2020.[5] 姚畅，胡梦涵，翟光涛，张晓萍。Transclaw u-net：带变换器的爪形u-网在医学图像分割中的应用。arXiv预印本arXiv：2107.05188，2021。[6] Junyu Chen，Yufan He，Eric C Frey，Ye Li，and YongDu.Vit- v-net：用于无监督体积医学图像配准的视觉Transformer。arXiv预印本arXiv：2104.06468，2021。[7] Jieneng Chen，Yongyi Lu，Qihang Yu，Xiangde Luo，Ehsan Adeli，Yan Wang，Le Lu，Alan L Yuille，andYuyin Zhou. Transunet：Transformers为医学图像分割提供了强大的编码器。arXiv预印本arXiv：2102.04306，2021。[8] 陈可燕，邹正霞，施振伟。基于稀疏令牌变换的遥感图像建筑物提取遥感，13（21）：4441，2021.[9] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议（ECCV）的会议记录中，第801-818页[10] Xiyang Dai ， Yinpeng Chen ， Bin Xiao ， DongdongChen，Mengchen Liu，Lu Yuan，and Lei Zhang.动压头：将物体探测头与注意力统一起来。在IEEE/CVF计算机视觉和模式识别会议论文集，第7373-7382页，2021年[11] Ilke Demir、Krzysztof Koperski、David Lindenbaum、Guan Pang、Jing Huang、Saikat Basu、Forest Hughes、Devis Tuia和Ramesh Raskar。Deepglobe 2018：通过卫星图像解析地球的挑战。在IEEE计算机视觉和模式识别研讨会会议论文集，第172-181页[12] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner，Mostafa Dehghani，Matthias Minderer，Georg Heigold，Syl-vain Gelly，et al.一张图片相当于16 x16个单词：用于大规模图像识别的变换器 . arXiv 预印本 arXiv ：2010.11929，2020。[13] Yunhe Gao，Mu Zhou，and Dimitris N Metaxas. UTnet：一种用于医学图像分割的混合Transformer架构。医学图像计算和计算机辅助干预国际会议，第61-71页。斯普林格，2021年。[14] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vi

下载后可阅读完整内容，剩余1页未读，立即下载