大图像的内存有效分类方法及其应用

96 浏览量更新于2023-10-25 收藏 719KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

2384（ROI）（ROI）评分评分手动注释ROI掩模×××包含微小物体的超大图像的有效分类Fanjie Kong，Ricardo Henao电气与计算机工程杜克大学{fanjie.kong，ricardo.henao}@ duke.edu摘要在计算机视觉中，特别是在医学成像和遥感领域，越来越多的应用要求对含有微小信息的大图像进行具体而言，这些分类任务面临两个关键挑战：i）输入图像的大小通常为百万像素或千兆像素的量级，然而，由于内存限制，现有的深度架构不容易对这样的大图像进行操作，因此，我们寻求一种内存有效的方法来处理这些图像;ii）只有非常小的一部分输入图像提供了感兴趣标签的信息，导致低WSI靶材牌目标子图块感兴趣区域（ROI）与图像的比率。然而，当前大多数卷积神经网络（CNN）都是针对具有相对较大ROI和较小图像尺寸（亚百万像素）的图像分类数据集而设计的现有的方法已经孤立地解决了这两个挑战。我们提出了一个称为放大网络的端到端CNN模型，该模型利用分层注意力采样，使用单个GPU对具有微小对象的大图像进行分类。我们评估我们的方法上的四个大图像组织病理学，道路场景和卫星成像数据集，和一个千兆像素的病理数据集。实验结果表明，我们的模型实现了更高的精度比现有的方法，而需要更少的内存资源。1. 介绍神经网络已经在许多图像分类任务中实现了最先进的性能[24]。然而，仍然有许多情况下，神经网络仍然可以改进。由于缩放模型架构的挑战，在非常高分辨率的图像输入上使用现代深度神经网络是一个不平凡的问题[44]。这样的图像例如在卫星或医学成像中是常见的。此外，由于计算和存储可用性的快速增长以及相机传感器技术的进步，特别具有挑战性的是，图1.使用我们的放大策略处理一个典型的WSI的插图我们看到，i）存在具有很少信息（主要是背景）的大区域，以及ii）小信息区域具有高分辨率细节。利用WSI的上述特性，我们推导出一种逐渐放大到ROI的方法。所提出的方法首先处理下采样的WSI以对目标瓦片进行采样，然后重复该过程以对目标子瓦片进行采样。采样的副标题包含用于分类的细粒度信息。底部的图像显示，手动注释的ROI被所提出的方法捕获，而不需要像素级注释。微小物体图像分类任务，其目标是在存在与标签不相关或无信息的更大且丰富（非平凡）的背景的情况下，基于非常小的物体或感兴趣区域（ROI）因此，构成具有非常低的ROI-图像比的输入图像。最近的工作[37]表明，对于有限大小的数据集，卷积神经网络（CNN）在非常低的ROI-图像比问题上性能较差在这些设置中，输入分辨率从典型的图像尺寸增加，例如，、224 224像素，到大小从45，056 35，840到217，088111，104像素的千兆像素图像[30]，这不仅需要更多的计算过程-在给定固定深度架构的情况下，每个图像的功耗比典型图像更低，但在某些情况下，对于当前的GPU内存标准来说，这是令人望而却步的2385∈ [[]·∈--××∈[]- −}×Σ| |Σ∈||·图1显示了一个十亿像素病理图像的示例，从中我们可以看到，手动注释的ROI（具有癌症转移）通常不可用于模型训练，仅占整个载玻片图像（WSI）的一小部分。此外，卫星图像[5]和医学图像分析[30]中的许多任务仍然具有挑战性，因为这种大图像的方法很少。最近的其他工作已经通过提出诸如流神经网络[38]和梯度检查点[33]等方法解决了与超大图像模型相关的计算然而，这些方法在微小目标图像分类任务中没有利用非常大的图像的特性，即，其中只有一小部分图像输入对于感兴趣的分类标签是有用的。或者，其他方法使用视觉注意力模型来利用这些特征，并表明区分信息可能是稀疏的，并且分散在各种图像尺度上[12，20，36]，这表明在某些场景中，处理整个输入图像是不必要的，2. 放大网络下面，我们将介绍所提出的放大网络模型的构造，该模型旨在有效地处理千兆像素图像，以便对具有微小对象的超大图像进行分类我们首先简要地描述了在[20]中提出的一阶段注意抽样方法，我们在我们的公式中利用了该方法。然后，我们介绍我们的策略，包括将基于注意力的采样分解为两个阶段，如图2所示。当用于具有非常大的图像和小的ROI图像比的应用时，这种两阶段分层采样方法实现了计算效率，而不需要由于分辨率损失而牺牲性能在实验中，我们将证明放大网络在几个微小对象图像分类数据集上相对于现有方法提高了性能，重要的是，不需要任何像素级注释。2.1. 注意力抽样令Ts（x，c）表示提取大小特别是在微小物体图像分类任务中。为例如，[20]利用注意力来构建图像分类器1h1×w1，来自输入，全分辨率，图像x∈R高×宽使用从由注意力网络生成的注意力权重矩阵采样的小块（图像块）集合。不幸的是，尽管不断努力，对应于较低分辨率视图V（x， s1）中的位置（坐标）c = i，jx的rh×w，尺度为s1（0，1），所以h=s1H和w=s1W，其中是这是一个很好的操作员。更具体地说，Ts（x，c）将c映射到a现有的方法要么是禁止的，要么需要严格的最终影响分类的分辨率权衡，位置1x通过{[1+（i−1）（W−1）/（w−1）}，[1+（j− 1）对于涉及非常大（千兆像素）图像的任务这项工作的目的是同时解决这些限制。具体来说，我们提出了一种称为放大网络的神经网络架构，正如我们将展示的那样，它在各种微小对象图像分类数据集上产生了优于记忆效率和分类准确性的结果我们在[20]的基础上提出了一种两阶段的分层注意力采样方法，该方法能够有效地处理千兆像素的图像，同时还利用对比学习作为提高采样所用注意力机制质量的手段这是通过在从注意力机制中选择的一小部分高分辨率内容（子图块）上构建聚合表示来实现的，该注意力机制本身利用原始图像的较低分辨率视图通过这种方式，模型1）（H1）/（h）第一章，并返回大小为h1的图块w1. 注意，i）V（x，s1）和x之间的位置的映射仅取决于x（Hw）和s1的大小，而不取决于图块大小（h1w1）;ii）h1，w1>1/s1，以保证x的完全覆盖; iii）该策略需要相应地通过h1/2和w1/2像素在所有侧上对x 进行零填充 ;以及iv）为了符号简单，我们省略了x和V（x，s1）中的（颜色）通道维度，然而，我们在我们的实验中考虑了彩色图像（具有附加维度）。然后，设θ（x）=gΘ（fΘ（Ts1（x，c）是由Θ参数化的神经网络，其中间表示zRK通过特征提取函数z = fΘ（Ts 1（x，c））获得，例如，卷积神经网络（CNN）。此外，gΘ（z）是一个分类函数，也被指定为神经网络，并由Θ参数化。我们可以提供一个注意力机制如下所示可以大大减少数据采集和存储的重复，现实世界的部署。有可能是-α=aΘ （V（x，s1））：Rh×w→Rh×w（1）因为低分辨率视图可用于指示应在较高分辨率下采集（关注）图像的哪些区域以进行分类，而无需θ（x）=gΘ.α cfΘc∈C（附表1）（x，c））以全分辨率获取整个图像。此外，我们表明，所提出的方法可以很容易地扩展到将像素级注释时，可用于广告的性能增益。五个具有挑战性的数据集的结果证明了放大网络在准确性和记忆效率方面的能力。其中α是注意力权重矩阵，c Cα c=1，aΘ（V（x，s1））是注意力函数，也被指定为神经网络，C（长度C = h w）是视图V（x，s1）的所有索引对的集合。为了避免从视图V（x，s1）实现的所有C图块计算特征z，这可能是一个非常大的数字2386聚集特征一阶段第二采样瓷砖采样子瓷砖输入图像ࢻ样品图ࢼ样品图对比样本图对比样本图ࢨሺ ȉሻࢨሺ ȉሻࢨሺ ȉሻࢨሺ ȉሻ····| |××||Σ∈ΣΣ||·n=1Σβf翻转大小为h2w2而不是h1w1的瓦片，并且使得h21/s2。此外，我们看到c∈Cc'∈C'aΘ（V（x，s1））bΘ（V（x，s2，c））=1+{|}cCαc=1c'C'C1并且对V（x，s2，c）中的位置c′={i′，j′}的注意0000784010689004001011000001011111图2.放大网络的插图。在阶段I中，注意力网络a0（）生成用于缩小了si的输入图像的注意力图，从该注意力图中，N个区块被替换地采样（参见样本图）。在阶段II中，注意力网络b0（）为每个选择的瓦片生成注意力图并选择子瓦片，因此选择N个子瓦片（没有替换）。然后，所有子区块被馈送到特征提取器fΘ（），特征图使用其对应的注意力权重聚合，并且预测使用分类模块g Θ（）从聚合的特征获得。此外，这两个注意力地图也用于以最小的计算开销（在训练期间）绘制对比样本。如果x很大，如在我们的病理学和遥感场景中，[20]建议通过仅考虑来自经由注意力函数采样的原始输入图像的一小组瓦片来利用蒙特卡罗估计。该策略利用α定义了C瓦片集合上的离散分布。具体地说，[20]通过从（1）中采样来近似（2），在处理非常大的千兆像素图像时减少内存需求，而不会严重影响分辨率。具体地说，设V（x，s2，c）∈Ru×v是Ts1（x，c ）在尺度 s2∈ （ 0 ， 1 ）上的一个视图，所以u=[s2h]=[s1s2H ]且v=[s2w]=[s1s2W]。此外，我们定义了一个函数Ts2（Ts1（x，c），c′），它从Ts1（x，c）中提取V（x，s 2）中位置c ′ = { i ′，j ′ }处大小为h 2 × w 2的子瓦片，在V（x，s 1）中的最小位置c={i，j}。映射函数ΘΘNΘS1（x）T_（10）（x，c））Ts2（附表1）（x，c），c′）的定义类似于Ts1 （x，c），但重新-其中Q是视图V（x，s1）的N个C索引对的集合，这些索引对从由注意力权重定义的分布独立地且同分布（iid）地绘制，即，Q=（i，j）aΘ（V（x，s1））i=1，2，.，N.在[20]中，考虑大小为h1=w1=2 7，s1=0的瓦片。2和对于结肠癌数据集，N=10更多细节请参见下面的实验使用（3）中的近似，注意力机制使用原始图像x的较低分辨率视图V（x，s1）来计算注意力分布并输出通过对特征求平均来获得聚合特征向量{zn}N也可以定义V（x，s2，c）的注意力机制，如（1）如下βc=bΘ（V（x，s2，c））：Ru×v→Ru×v，（4）其中β是V（x，s1）的位置c处的图块的注意力权重矩阵，使得c'C'βc'=1，bΘ（V（x，s2，c））是注意力函数，也被指定为神经网络，并且C'（长度C'=u v）是Ts 1（x，c）的视图V（x，s2，c）的所有索引对的集合。假设在（1）中β′= 1，在（4）中，∈ ∈这种方法对于千兆像素图像仍然是禁止的，因为h1、w1和s的可行组合导致不切实际的相对于整个图像x是αc βc'。因此我们可以将（2）改写为目前GPU内存标准的内存需求。下面，我们介绍了建议的两阶段分层抽样，以提高注意抽样的记忆效率。2.2. 两阶段分层注意抽样θ（x）=gΘ.cΣ∈Cαcc'∈C'Cc'Θ （Ts2（附表1）（x，c），c′））、（五）多阶段和分层抽样策略在实践中往往是例如，如果这些人在地理上或组织上分组，那么面试或测试的成本就会大大降低，因此抽样是在组（集群）内进行的这种抽样设计有许多实际应用，如家庭和死亡率调查，以及高分辨率遥感应用[6，13，50]。基于这一思想，我们设计了一个两阶段分层抽样方法，c∈Q少量的N个瓦片。可惜这2387×⎛1Σ⎝⎠现在，聚合表示是大小为h2的所有瓦片的加权平均，w2的x，以及（3）中的li k e，我们可以近似为<$Θ（x）<$gΘNfΘ（Ts2（Ts1（x，c），c′））<$，（6）c∈Q其中c′<$bΘ（V（x，ss，c））由分布bΘ（V（x，ss，c））对于每个位置c∈Q。2388c=1--|−−−c=1我1j−111 2C'21我OOC'−'C请注意，（6）中的近似使用来自x的全分辨率子图块，这些子图块是从α和{β c}暗示的两级离散分布分层绘制的。|C|、从低分辨率图像中获得并且c′j通过以下方式采样：.βc如果i∈/{c′， . ，c′ }V（x，s1）和V（x，s2，c）|C|-是的重要的是，在实践中我们不需要实例化瓦片Ts 1（x，c），而只需要实例化Ts2（Ts1（x，c），c′），并且可以根据需要（在矩阵y上）获得（4）中的第二级注意力矩阵。然而，如果选择来自相同位置c的多个样本用于（6）中的二级采样，则这可能导致计算效率低下。由于这种过程将需要多次初始化视图V（x，s2，c）以在单个模型更新（迭代）上获得βc，然后当获得fΘ（Ts2（Ts1（x，c），c′）时对子图块进行多次采样时，会发生不效率。我们可以通过对Q中的样本进行排序来避免重新计算βc来减轻效率低下，并且我们可以根据需要对给定的c和c′重用特征fΘ（Ts2（Ts1（x，c），c′）或者，我们可以通过对（6）中的位置c ′进行采样而不进行替换来避免重用子图块。然而，这样的采样策略将不是iid，因此，它将导致（6）中的蒙特卡罗近似的偏差。幸运的是，使用类似于[ 20 ]的公式，我们仍然可以通过利用Gumbel-Top- k技巧[ 23 ]从非iid样本中获得（6）中平均值（期望值）的无偏估计值，而无需替换，Gumbel-Top-k技巧[23]是从加权油藏采样的Gumbel-Max技巧[11]扩展而来的。具体地，从（5）我们可以写0否则其中p（c′c′1， . ，c′j1）表示没有替换的采样位置c′j，通过已经采样的位置c′1， . . ，c′j−1.内存需求在实践中，注意力采样模型的内存需求由模型参数、特征图、梯度图和工作空间变量确定[41]。对于基于神经网络的图像模型，存储器分配主要由输入图像的大小支配，即，，H和W.具体来说，对于一阶段[ 20 ]和提出的两阶段分层模型，N个样本的推理峰值内存使用量与（s2HW +Nh2w2）和（s2HW +N′s2s2HW +Nh2w2）成比例。在这里，我们使用N'来表示Q中的唯一瓦片的数量，并且使用s来表示一阶段方法的视图的规模。事实上，我们可以通过选择s 1 s和s 2 = s来证明我们的模型需要的GPU计算量比单阶段注意力采样<少得多。请注意，随着注意力图的优化，第一阶段中选定的图块数量会急剧减少我们用峰值记忆这个术语来指最坏的情况。根据经验，我们观察到，埃奇布（V（x，s，c））[fΘ（Ts（Ts（x，c），c′））]=（7）1选择的瓦片的平均数量是N′<$N/2。详细Θ 22<$βc fΘ（Ts（Ts（x，c），c′）），内存需求分析在SM中给出。c'2 1c'∈C'从中我们可以看到右边的和是左边期望值的无偏估计。或者，我们可以写Ec'<$bΘ（V（x，s2，c））[fΘ（Ts2（Ts1（x，c），c'））]=（8）2.3. 基于注意抽样的有效对比学习受[22]的启发，我们为提出的放大网络引入了一个对比学习目标，鼓励模型对案例（y=1）进行预测，例如。，具有癌症转移的图像（参见实验α-βcCi（βcf（T（T（x，c），c′）细节），但是使用具有低注意力权重的子图块，→c'∈C'i/=c'c'1 −βcc'Θs2s1反转图像标签（y =10）。为了方便，我们可以生成这些（阴性）对比样本，+（1−βc）fΘ（Ts（Ts（x，c），i）），其中β c/（1β c）是第i个子图块的注意力权重，该第i个子图块被重新加权以排除子图块c′，这相当于已经对其进行了采样。然后，我们可以像（6）中那样近似（5），但不使用替换进行采样，具体来说，我们利用了（1）和（4）中现有的注意力功能。为了生成图像x的对比特征向量，使得y =1，我们首先通过类似于（1）的1 aΘ（V（x，s1））对图块位置进行采样（具有替换）。然后，我们经由1bΘ（V（x，s2，c））对N个子区块进行采样，而不进行类似于（4）的替换。采样的对比子图块通过N i−11美元ci（x）f（T（T（x，c），c′））特征网络，然后由分类器进行处理，|Θ ΘNi=1j=1c'jΘs2s1ij使用（9）预测θ（x y=1），其中条件-使用y=1来强调我们使用的图像x为βc′j p（c′|c′1， . ，c′j−1）、需要额外的模块或模型参数。2389CJ+1000−i−1j=1βc'i（Ts2（附表1）（x，ci），c′j），（九）类y= 1作为对比示例。总的来说，数字-对比示例的BER（每个训练批次）是相等的样本的数量，使得y=1。为这些Σ2390ΣL|--L|−−|对比样本，我们优化了以下目标， con （ θ（xy=1））=n日志（1（x n y n=1））。注意，con（x Θ（xy=1））鼓励将标签y = 1的图像x的对比样本预测为y = 0。在多类场景中，这种对比学习方法可以通过让类中的一个作为参考来容易地扩展，或者通常通过使用完整的基于交叉熵的对比损失，其中针对两个类生成对比样本，即，，y =0，1，而不是像我们的情况那样只有一个类（交叉熵损失的一半）。3. 相关工作下面，我们讨论现有的研究工作的分类非常大的图像与微小的对象，最相关的身体的工作是基于注意力的模型，以及一般的努力，计算效率的图像分类模型。最近的工作研究了不同噪声场景下的CNN，无论是通过执行人工引入标签噪声的实验[1，52]，还是直接使用噪声标签和注释[14，32]。虽然已经证明大量的标签噪声阻碍了CNN的泛化能力[1，52]，但已经进一步证明CNN可以通过增加用于训练的数据大小[32]，调整优化过程的参数[19]或重新加权输入训练样本[14]来消除这种标签破坏噪声。然而，所有这些工作都集中在标签损坏上，但没有考虑无噪声标签或具有低噪声的标签分配的情况，其中替代地，与标签相关联的感兴趣区域（ROI）相对于图像的大小是[37]有目的地分析了CNN在这种情况下的能力，即，即微小物体图像分类任务。他们的结果表明，通过使用大小有限的训练数据集，随着输入的ROI与图像的比率降低，CNN无法很好地泛化通常，与标签相关联的对象占据图像的主要部分。然而，在一些现实世界的应用中，如医学成像，遥感或交通标志识别，只有非常小的一部分图像通知他们的标签，导致低ROI图像比。注意这种技术在神经网络文献中有很长的历史[17]。在深度学习的现代时代，它已经非常成功地用于各种问题[9，12，49，53]。注意力机制的两个主要类别包括：软注意力，它估计整个输入的每个位置的（连续）权重[16]，以及硬注意力，它选择数据的一部分，例如。，图像中的ROI，用于处理[36]，这是一个更难的问题，类似于对象检测，但没有地面实况对象边界。注意，[3，16，20]中的注意力被定义为图像中一袋特征的权重。我们的公式-也可以以相同的方式解释lation，因为α是对图块的特征包的关注，βc是对子图块的特征包的关注。有多种方法可以控制深度神经网络的计算成本。我们将它们分为四组：i）旨在从已经训练的模型中去除冗余的压缩方法[51];ii）用于用计算量更轻的计数器替换网络组件的轻量级设计策略[18];iii）部分计算方法选择性地使用网络的单元，从而创建具有不同计算成本的前向传播路径[26];以及iv）重新增强学习和注意力机制，可用于选择性地处理输入的子集，基于它们对感兴趣任务的重要性[7，20，28，40，47]。后者是我们在建议的放大架构中考虑的策略。传统的深度神经网络对分布外数据或自然发生的损坏（如图像噪声、模糊、压缩和标签损坏）缺乏鲁棒性。对比学习[22]已经证明了在嘈杂的场景中学习的巨大成功，例如。ImageNet [21].在这里，我们的目标是利用对比学习来减轻由低ROI图像比图像引起的性能损失。因此，内置的注意力机制有助于样本内对比学习，因为可以使用相同的注意力机制来获得对比样本，而不需要额外的模型组件或参数。最近的研究表明，深度学习算法有能力预测患者级别的属性，例如：，数字病理学应用中的全载玻片图像（WSI）的癌症分期[27]。由于这些图像非常大，并且没有关于图像的哪些子集（图块）与标签相关联的先验知识，因此这种任务被称为弱监督学习[4，31]。具体来说，模型必须估计图像中哪些区域与标签相关，因此可以仅使用这些区域的信息进行预测，而不是整个图像。重要的是，对于当前的硬件架构，WSI太大而无法容纳在GPU内存中，因此一种常用的技术是构建一个模型来从图像中选择补丁的子集[35，54]。另一种方法是使用整个WSI，但以压缩的，更小的表示形式，代价是丢失可能重要的细粒度细节[45]。从选定的图像区域（图块或补丁）聚合特征的构建表示也是替代方法[4，8]。我们认为这些方法的性能相对于建议放大网络的实验。2391××××4. 实验我们评估所提出的方法在精度和GPU内存要求。在结果中，放大网络是指使用轻量级LeNet主干的方法，放大网络（Res）是指使用ResNet16主干的方法。模型结构的细节在SM中给出。此外，我们强调了该模型能够处理图像输入的少量全分辨率子图块（ROI），这导致了GPU内存使用峰值的显著降低和相对于竞争方法的卓越测试精度我们考虑可以处理大图像作为输入的方法，例如。注意力采样模型（ATS）[20]，可区分补丁选择（Top-K）[7]，BagNet[37]，EfficientNet [44]和流式CNN [38]。同时，我们还比较了我们的模型与应用类似于放大的策略的方法，例如。[47]和RA-CNN [12]。对于峰值内存使用，我们报告每个样本的推理内存（Mb），即，对于大小为1的批次。我们还报告了推断单个图像时的浮动点操作（FLOPs）和运行时间SM中提供了模型架构和每个实验中未指定的一些超参数的详细信息，以及检查N、λ对性能的影响并使用对比学习的消融研究样本内对比学习在没有它的情况下训练10个epoch后应用，熵正则化参数（对于我们的模型和ATS）设置为λ=1e−5。数据集我们专注于具有相对较大图像大小和特征微小的ROI对象分散在大背景中，不像自然图像，其中对象（通常）在图像的中间，因为摄影师倾向于将图像集中在感兴趣的对象（目标）周围[46]。因此，在实验中，我们不考虑ImageNet、iNaturalist和COCO等数据集，因为在这些数据集中，ROI与图像的比率接近1，而且图像大小相对于下面考虑和描述的其他数据集相对较小我们在五个数据集上进行了实验：i）[42]中介绍的结肠癌数据集旨在检测苏木精和伊红（HE）染色图像中是否存在上皮细胞。该数据集包含100幅尺寸为500 × 500的图像图像来源于恶性组织和正常组织，包含约22，000个标记细胞。在[16，20]之后，我们将该问题视为二元分类任务，其中阳性图像是包含至少一个属于上皮细胞类的细胞的图像。ii）NeedleCamelyon数据集[37]是从原始Camelyon16数据集的裁剪图像中构建的，具有指定的ROI与图像比率。具体来说，我们生成ROI与图像比率在[0. 1，1]%，我们裁剪每个图像的大小为1，024 1，024像素。通过随机选取50种作物，表1.结肠癌、NeedleCamelyon和fMoW数据的测试集结果。内存表示推理时每个样本使用的平均峰值内存。结肠癌方法精度（%）FLOPs（B）存储器（兆字节）时间（毫秒）[47]第四十七话81.075.29520.4412.33美国有线电视新闻网[12]86.4135.884432.4638.74美国有线电视新闻网[20][第20话]放大网络（我们的）90.8±1.290.7±1.495.0±2.61.830.240.24235.6815.832.557.622.813.20针卡梅利翁方法精度（%）FLOPs（B）存储器（兆字节）时间（毫秒）BagNet [3]70.0222.723914.8112.90[第20话]72.51.6637.979.27放大网络（我们的）76.00.5211.7810.20放大网络（Res）（我们的）78.10.8414.2211.42交通标志识别方法精度（%）FLOPs（B）存储器（兆字节）时间（毫秒）[44]第44话65.94.82673.3927.06[44]第四十四话79.119.262229.5934.88ATS-10 [20]90.51.4354.5110.3TopK-10 [7]91.71.61125.169.8放大网络（我们的）91.20.7912.6512.28放大网络（Res）（我们的）92.61.1815.8313.16世界功能地图方法精度（%）FLOPs（B）存储器（兆字节）时间（毫秒）[44]第四十四话70.28.221404.0922.72ATS-30 [20]71.12.5253.4210.73TopK-30 [7]71.62.3073.4910.12放大网络（我们的）72.91.8510.8111.47放大网络（Res）（我们的）74.32.2413.5312.25如果ROI与图像的比率落在范围[0. 1，1]%。通过随机裁剪正常的整张幻灯片图像并过滤掉主要包含背景的图像裁剪来获取负面示例。此外，我们通过对等量的正作物和负作物进行采样来确保类平衡。iii）交通标志识别数据集[25]由超过20，000张道路场景图像组成，大小为960 1280。在这里，我们使用与[7，20]相同的子集。任务是对道路场景图像是否包含限速标志（50、70或80km/h）进行分类。[7，20]和我们的实验中使用的子集包括747张用于训练的图像和684张用于测试的图像。（四）世界功能地图（fMoW）数据集[5]旨在从高分辨率卫星图像中对建筑物和基础设施以及土地使用的功能目的进行分类。此数据集中图像大小的近似范围为500500到9000九千像素。在我们的实验中，我们从用于进一步说明所提出的方法的原始fMoW数据集适用于数字病理学图像之外。我们构造的子集由15000张训练图像和9571张测试图像组成，它们来自10个类。SM中提供了构造子集的更多细节v）最后，我们利用Camelyon16数据集进一步展示了我们的模型在千兆像素图像上的实用性该数据集包含4002392··××××××WSI，270个带有像素级注释的WSI，以及130个未标记的WSI作为测试集。我们将270张幻灯片分成训练集和验证集;用于超参数调优。一般只有下采样图像第一阶段注意力提取的瓷砖第二阶段注意力GroundTruth ROI载玻片的一小部分包含感兴趣的生物组织，背景和脂肪包围剩余区域，例如，，参见图1中的典型WSI（带有像素级注释）。结肠癌我们使用与[16，20]相同的实验设置，即10倍交叉验证，每个实验重复5次。与我们最密切相关的方法是[20]中的一阶段注意抽样模型。我们将这种方法称为ATS-N，其中N = 10表示从注意力权重中提取的瓦片的数量，并且我们在所有实验中设置s =s2。选择N值以最大化性能。为了展示我们的模型与传统CNN方法相比的优势，我们还包括一个ResNet[15]，它具有8个卷积层和32个通道作为朴素基线。对于我们的模型，我们设置s1= 0。1， s2=0。2，N=10，h2=w2=27。结果总结在表1中。所提出的两阶段注意力采样模型的测试准确度比（一阶段）ATS-10高约4.3%;这大概是由于其能够通过分层注意力机制更好地关注图像的信息区域（子区块）。此外，基线（CNN）和ATS- 10至少需要90和6相对于放大网络，分别。或者，Patch- Drop [47]和RA-CNN [12]不仅表现不佳，而且具有更高的内存要求。所提出的方法的存储效率是通过将图像处理为子图块的小集合的方式来证明的，从而导致相对于CNN和ATS-10模型大幅降低的前向传递成本。ATS和放大网络的FLOP是可比较的，因为在结肠癌实验中，特征提取器fΘ（）支配FLOP计数。由于ATS和放大网络将相同数量的补丁馈送到fΘ（）中，因此它们在该步骤中得到的FLOP相同。事实上，这一步贡献了0。235B FLOPs（96%）。此外，我们的模型在提取图块和子图块时由于实现效率而需要稍微多一点的运行时间。NeedleCamelyon注意，与[ 37 ]中使用的图像（高达512 512）相比，NeedleCamelyon数据集使用更大的图像（1，024 1，024），以更好地展示所考虑模型的能力。在[37]之后，我们将NeedleCamelyon数据集分为训练集，验证集，测试集，比例为60：20：20。每组图像的数量分别为6，000、2，000和2，000在每组中平衡阳性和阴性样本我们将我们的模型与 ATS-30 和 [37] 中用于类似NeedleCamelyon数据集的现有CNN架构进行了比较。BagNet [3]是一种CNN模型，在图块级别提取特征，在NeedleCamelyon提取子平铺图3.使用放大网络的交通标志数据集的中间结果图示我们显示具有最高的第一阶段和第二阶段注意力的瓦片和子瓦片。SM中包含更多中间结果实验[37]。在我们的实验中，我们使用BagNet作为CNN 的对于我们的模型，我们设置 s1=0 。 25 ，s2=0。5，N=30，h2=w2=32。由于NeedleCamelyon相对于结肠癌数据集的ROI-图像比小得多，我们设置了较大的s1和s2，以确保下采样不会洗掉判别信息。我们还增加了N，因为在这种情况下，具有大值的注意力权重的数量更大表1显示了拟议模型和基线的性能。我们观察到，对于较大的图像，放大网络在推理时具有更好的GPU内存使用，因为更少的尺度s2的子图块倾向于被安装。在测试精度方面，所提出的模型的结果约为3。测试精度比单级ATS-30和6. 0%高于BagNet基线。此外，与所提出的方法相比，BagNet和一阶段注意力采样分别需要至少500和7个以上的分类在这里，我们可以看到我们的放大网络消耗的FLOPs比ATS少得多这是因为放大网络需要原始输入图像的较少像素来选择用于相对于ATS的预测的相当数量的高分辨率ROI块交通标志识别我们将放大网络与传统的 CNN（EfficientNet-B 0 [44]）和最近发布的一步放大方法（ ATS [20] ， TopK [7] ）进行了比较。对于EfficientNet-B 0，我们使用原始分辨率图像和下采样一半的图像（表示为s0.5）作为输入，以显示传统CNN的局限性。对于ATS和TopK，我们使用与[7，20]相同的超级参数设置。对于我们的放大网络，我们尝试了两种类型的主干（ LeNet 和ResNet16），并设置s1=0。125，s2=0。3，N=1 0，h2=w2=10 0。SM中显示了网络架构的详细信息。在表1中，我们可以看到我们的放大模型在所有测试方法中实现了最高的准确性和最低的GPU内存此外，我们的模型通过使用比ATS和Top-K更少的输入像素数来要求更少的FLOP。我们的模型的优点来自于通过注意力机制和对比学习实现的精确目标对象定位交通标志数据集的注意力地图示例与图3中的示例相似，如SM所示。2393××××××表2. Camelyon16数据。内存表示推断时每个样本的平均峰值内存。像素级精度记忆方法注释（%）（Mb）[31]第31话[4]第79.9 140.68号[29]第29话放大网络否81.3 71.76放大网络（Res）否82.6 71.76放大网络是88. 271. 76放大网络（分辨率）是90. 871. 76获奖车型[2]是92. 2 395. 77FunctionalMap of theWorld（fMoW）由大量高分辨率的RGB图像组成，大小从500 500到9，0009，000不等。在[36]之后，我们选择EfficientNet-B0 [44]作为基线模型。EfficientNet-B 0有效地扩展了大图像，并已被证明是fMoW数据集上的良好基线模型[36]。我们还尽最大努力为fMoW数据集实现 ATS 和 TopK 。我们设 s1=0 。 25 ， s2=0 。 5 ，N=30，h2=w2=50。表1中的结果表明，Zoom-In Network在推理时的准确性和内存消耗方面超过了EfficientNet-B 0。与图3相似的fMoW注意力地图示例如SM所示。Camelyon 16这是一个千兆像素的数据集，由大小范围从45，056 35，840到217，088 111，104的全载玻片图像（WSI）组成。这里的目的是预测WSI是否包含癌症转移。正如我们在相关工作部分中所描述的，现有的工作试图在只有图像级标签的非常大的图像上训练CNN，即通过对千兆像素图像的弱监督训练。我们考虑流CNN [38]，CLAM [31]，MIL [4]和MRMIL [29]，我们简要地描述了它们。这些基线的详细信息见SM。此外，我们还评估了像素级注释（ROI）可用的情况下的模型。在这里，我们将我们的结果与Camelyon16挑战赛的获胜模型进行比较[2] 。对于我们的模型，我们设置 s1=0 。03125，s2=0。125，N=100，h2=w2=50。在表2中，我们可以看到，当像素级注释不可用时，我们的放大网络达到了最高的测试精度。即使有像素级注释，我们的模型也能产生接近Camelyon 16挑战赛获胜模型的测试准确度，而不需要全面的调整和手工制作的功能（即最小周围凸区域、平均预测值和病变区域的最长轴）。对于内存比较，所有方法都需要更多的内存，理论上比所提出的方法，值得注意的是8比MR-MIL具有相当的性能。此外，我们还考虑了像素级的anno，站是可用的。SM中描述了利用像素级注释的扩展。所提出的模型的性能相对接近获胜模型[2]，这表明当我们具有手动注释的ROI时，所提出的方法是灵活的并且也是准确的。SM中提供了其他细节，包括与图3中类似的注意力图。我们还分析了由放大网络生成的注意力权重与从像素注释获得的地面实况图像与瓦片比率的相关性Speci cally，大小为h2的每个子图块的比例w2被癌转移所覆盖。具有像素级注释的所有图块的斯皮尔曼相关系数为ρ = 0。#35750;，这是一个很好的协议。注意，这些注意力权重是从没有像素级注释信息的模型中获得的在SM中，我们以散点图的形式直观地呈现这些相关性（注意力权重与瓷砖比例）。从上面的所有结果中，我们看到放大网络显著降低了GPU内存使用量。我们追求低GPU内存消耗的原因是：i) 具有高存储器的GPU是昂贵的，并且在实践中不能广泛用于应用。在推理时使用较少GPU的模型可以以较少的费用部署;ii) 高内存效率的模型允许训练和推断可能大于千兆像素的图像;iii）随着移动/边缘设备上神经网络的使用越来越多，开发内存轻的GPU模型以允许在移动/边缘设备上本地运行深度学习服务5. 讨论我们提出了放大网络，它可以有效地将非常大的图像与微小的对象进行分类。通过利用两阶段分层采样策略和对比学习目标，我们在准确性和峰值GPU内存使用方面都优于现有的基于CNN的基线我们还考虑了在训练过程中像素级注释（分割图）可用的情况。在实验中，我们证明了所提出的模型在五个具有挑战性的分类任务上的优势。我们注意到Camelyon16数据集中的图像都是十亿像素大小的，我们可能是第一个为它们训练端到端深度学习模型的人。当像素级注释不可用时，我们的模型实现了最佳精度，同时还使用少量GPU内存，这允许使用单个GPU对全分辨率千兆像素图像进行训练和推理。所提出的模型的一个限制是需要指定子瓦片样本的数量N，其可以从数据潜在地估计。致谢本工作得到了 NIH （ R44-HL 140794 ）、DARPA（FA 8650 -18-2-7832-P00009- 12）和ONR（N00014 -18-1-2871-P00002-3）的支持。[38]第三十八话没有70.63,256.292394引用[1] DevanshArpit，StanislavawJastrzeJubbski，NicolasBallas ， Da vidKrueger ， Em

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

大图像的内存有效分类方法及其应用

Delphi数字图像处理及高级应用

Delphi数字图像处理及高级应用 光盘

图像缩放算法的研究及其在fpga上的实现.pdf

什么是图像？什么是图像处理？简述一般数字图像处理系统的组成及数字图像处理的一般步骤。

python算法的缺陷和不足_机器学习算法优缺点及其应用领域

matlab图像处理系统的需求分析方式及内容

怎么对图像数据使用pytorch进行预处理

tiff文件大导致的发布问题

常用的图像无损压缩算法

如何用yolov5进行图像目标检测 阐述yolov5的特点及其优越性

opencv怎么通过c++绘制图像轮廓实现荧光效果

openmv如何让图像反转180度

计算机应用基础 2013修订版 pdf

yolov8 训练模型 怎么适配所有图像

EfficientFormerv2可以用在目标检测提升精度吗

android 相册最佳实践

基于fpga的一维cnn-lstm加速平台及实现方法

稀疏卷积 matlab

SWIN Transformer相较于其他Transformer模型的优势是什么？

卷积神经网络matlab程序故障诊断

最新资源

Delphi数字图像处理及高级应用光盘

如何用yolov5进行图像目标检测阐述yolov5的特点及其优越性

yolov8 训练模型怎么适配所有图像