基于独占交叉熵的稀疏样本学习在极多定位中的应用

141 浏览量更新于2023-10-14 收藏 23.04MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

tated. This is a reasonable assumption for regular imageslike in PASCAL VOC 2007 [18] or MSCOCO [19], con-taining on average 512 × 512 -or sometimes up to 1’000 ×1’000- images with no more than a dozen objects per classper image. Outside the realm of regular images, however,we are often confronted with a different situation: digi-tised tissue sections are typically very large images, of filesize around 1-10 GB, whose dimensions can quickly ex-ceed 250’000 × 250’000 px, where relevant objects, suchas tumour cells or lymphocytes can quickly number in themillions. Annotating them all, even relying on regions-of-interest, can be hard and in practice only sparse annotationsare feasible. In this paper we focus on learning from sparseannotations, coined sparse-shot learning, especially whenthe objective is localising an extreme numbers of objects.Learning from sparse annotations clashes with super-vised learning, especially in the context of object locali-sation. In the absence of any other knowledge, the typ-ical assumption is to assign a negative label to all loca-tions in the image that are not annotated as (true) positives.This is a suboptimal choice on two grounds. For one, it is28130基于独占交叉熵的稀疏样本学习用于极多定位0Andreas Panteli 1, 2, Jonas Teuwen 1, 2, 3, Hugo Horlings 1和Efstratios Gavves 2, 401 荷兰癌症研究所，2 阿姆斯特丹大学，3Radboud大学医学中心，4 Ellogon.AI0{a.panteli, j.teuwen, h.horlings}@nki.nl, egavves@uva.nl0摘要0在常规图像的背景下，对象定位通常描绘人或汽车等对象。在这些图像中，每个类别通常只有相对较少的对象，通常可以进行标注。然而，在常规图像之外的设置中，我们经常面临不同的情况。在计算病理学中，数字化组织切片是非常大的图像，其尺寸很快超过250,000×250,000像素，其中相关对象（如肿瘤细胞或淋巴细胞）的数量很快就会达到数百万个。标注所有这些对象几乎是不可能的，而只能稀疏标注其中的一部分。不幸的是，从稀疏标注中学习，或称为稀疏样本学习，与标准的监督学习相冲突，因为未标注的内容被视为负样本。然而，将真正的正样本分配为负标签会导致梯度混乱和偏向学习。为此，我们提出了独占交叉熵，通过检查二阶损失导数来减少与可能的偏向项对应的损失项，从而减缓偏向学习。在九个数据集和两个不同的定位任务（使用YOLLO进行检测和使用Unet进行分割）上的实验证明，与交叉熵或焦点损失相比，我们在只有10-40%的标注的模型上通常获得了相当大的改进。01. 引言0随着深度学习和大型数据集的出现，对象定位（无论是边界框检测[1, 2, 3, 4, 5, 6]、语义分割[7, 8,9]还是实例分割[10, 11, 12, 13]）自从可变形部件模型[14, 15]和选择性搜索[16,17]以来取得了长足的进步。所有上述定位方法的基本假设是图像中的所有相关对象都被标注。对于像PASCAL VOC 2007 [18]或MSCOCO[19]中的常规图像来说，这是一个合理的假设，这些图像平均包含512×512或有时高达1,000×1,000像素的图像，每个类别每个图像中的对象不超过十几个。然而，在常规图像之外的领域，我们经常面临不同的情况：数字化组织切片通常是非常大的图像，文件大小约为1-10GB，其尺寸很快就会超过250,000×250,000像素，其中相关对象（如肿瘤细胞或淋巴细胞）的数量很快就会达到数百万个。即使依靠感兴趣区域，标注所有这些对象也可能很困难，实际上只有稀疏标注是可行的。在本文中，我们专注于从稀疏标注中学习，特别是当目标是定位大量对象时。从稀疏标注中学习与监督学习相冲突，特别是在对象定位的背景下。在没有其他知识的情况下，典型的假设是将负标签分配给未标注为（真正的）正样本的图像中的所有位置。这是一个不太理想的选择，有两个原因。首先，它是0图1：左图：包含数百万个细胞的数字化组织切片。图像通常只对应整个切片中较小部分的染色区域。只有少数标注可用，并经过大量努力（我们的数据中约有6,000个标注）。右图：在组织切片图像的1,000×1,000区域中，红色表示非穷尽标注的对象，大约占总对象数的30%（右图中的绿色）。28140很可能是由于注释者无法注释所有相关对象，或者他们只是错过了其中许多对象。例如，在数字化组织切片中，当盲目地将所有未注释区域假设为负面时，未注释的对象往往占总对象数的90%以上[20, 21,22]。然而，更重要的是，将真实阳性标签分配为负面标签会导致冲突的梯度[23]，从而引导模型收敛和泛化能力较差。稀疏样本学习描述了一种标准监督方法在实践和方法论上都不适用的情况[24]。在过去的研究中，已经探索了在缺失或少量注释的情况下进行学习，尽管这些情况与稀疏样本学习不同。在弱监督学习[25,26]中，提供了一个图像级别的标签，没有定位信息。然后，模型被要求同时推断可能的对象位置，并学习一个准确的分类模型。然而，在许多目标检测数据集中不存在图像级别标签的情况下，这种类型的弱学习无法推断任何定位标签。一些弱监督学习方法包括基于自信预测为对象创建弱伪标签[27,28]。稀疏样本学习类似于这种方法，它假设所有未注释区域都有可能是负面的，因此在某种程度上它们对应于弱负面标签。一个关键的区别是，稀疏样本学习专注于拒绝这些弱负面标签的特定子集，这些标签可能会引入偏差，并且它不会为目标检测创建新的正面标签。在半监督学习中，重点是整个图像而不是图像中的位置，目标是从注释和未注释的图像中学习。因此，未注释的图像被利用来学习更好、更通用的图像级分类器。类似地，少样本学习[30]利用少量全面注释的图像。然而，稀疏样本学习描述了一种在实践中经常遇到的截然不同的情况：从大图像中学习定位模型，在训练过程中只有极小部分的相关位置被注释。在这项工作中，我们的贡献如下：01.我们提出了稀疏样本设置的问题，这在医学成像的几个情景中非常普遍，因为获取高质量的全面注释往往是不可能的。02.我们提供了一项分析，显示稀疏样本学习优化不良的罪魁祸首很可能是由于有偏差的注释导致的学习速度过快，而不是注释本身的有偏差。为此，我们引入了一种新的学习目标，称为独占交叉熵（ECE），它通过一个简单的截断阈值来丢弃对损失产生大二阶导数贡献的样本。0是加速有偏学习的主要原因。03. 通过对九个数据集和两种最先进的架构YOLLO[4]和Unet[7]进行广泛实验，我们展示了独占交叉熵在检测和分割中的普遍性。有趣的是，在只提供10-40%的注释的数据中训练的学习模型通常能够达到与使用全面注释训练的相同模型的性能，特别是在分割任务中。02. 相关工作0弱监督学习一直是研究的热门领域。在[26]的工作中，提出了一种弱监督学习方法，以调节部分标注定位的效果。他们依赖于一个混合数据集，包含图像级和实例级标签，因此可以应用于只有实例级标签的数据。最近，[23]提出使用类别（器官）之间的相似性将它们合并在一起，并在一个更简单、更通用的任务上进行训练。与我们的工作不同，他们依赖于多个相似的类别，而忽略了背景，而背景在定义上是不相似的。在[31]的工作中，探索了带有噪声标签的学习，通过在训练的早期阶段集中关注损失正则化。与弱监督学习类似，对于仅有低信息损失的情况，采用了迁移学习。然而，在我们的稀疏样本学习中，我们的情况极端，只有10%的对象被注释。这导致了噪声标签学习，产生了噪声伪标签，累积了有偏差的梯度更新。此外，早期学习正则化[31]根据它迭代创建的弱标签对损失函数进行惩罚，这可能导致错误预测的连续循环，因为错误会越来越多。学习给出的异常值和不平衡数据也得到了探索。在[32]的工作中，使用Huber损失来处理异常样本的密集目标检测。Huber损失旨在对生成较大误差的困难示例的异常情况施加较小的权重。然而，非全面的注释提供了一个不同的挑战，因为缺失的注释很多，并且它们不是异常值；降低它们的权重会导致在学习过程中丢弃可能重要的数据。最近，focal loss[2]通过使用模型预测来加权更不频繁的类别，对调节意外数据不平衡的影响提供了重要的进展。然而，对于非全面的注释，模型的预测不可避免地存在偏差，因为伪标签被错误地分配给未注释的数据点。因此，在没有全面注释的情况下，focal loss很敏感。(2)(3)r,t281503. 稀疏样本学习0首先介绍稀疏样本学习的问题设置。然后讨论文献中的现有方法，并提出独占交叉熵（ECE）。03.1. 问题设置0设I = (I m) M m=1为包含M个图像的数据集，每个图像I m= {x i, y i}，其中i∈[1,N]表示最多有N个相关对象，并且图像中的每个对象xi都被分配一个类别y i∈{1, ...,C}，其中C表示类别的数量。为了简化符号，当上下文可以推断出下标m时，我们省略它。xi可以是像素或与图像中的对象相关的边界框。为了清楚起见，我们首先关注二元情况，即y i∈{0,1}。在标准的全监督设置中，一种常见的选择是交叉熵损失函数。0损失函= -∑logi)0对于每个i∈I，计算xi的负对数似然：log(p(y i | x i))0为简洁起见，我们将正预测记为p i = p(y i | xi)，将负预测记为1-p i = 1-p(y i | xi)。在稀疏样本学习中，我们在训练时没有所有相关标签；也就是说，我们对于所有x i∈I没有详尽的yi知识。相反，我们只有一些位置xi∈F的注释，其中F�I是我们的前景知识。其余未注释的图像区域F = I - F既包含不相关的背景（集合B）F B，其中y i =0，�x i∈F B，也包含属于相关类别之一的位置F U，其中y i= 1，..，C。将方程（1）扩展以包含这些子集，我们有：0损失函数：L= -∑logi)0对于每个i∈F，计算x0-∑log(1-p i)0对于每0损失函数：L = -∑[y i log(p i) +(1-y i)log(1-p i)]0= L F + L F0在没有对F中的注释有任何知识的情况下，根据文献中存在两种计算方程（2）中损失的选项。0未注释区域作为背景。遵循标准目标定位的范例[33, 34, 35,2]，所有未包含在注释集中的内容都被视为背景。也就是说，F ≡B。这种方法的缺点是它将真正的正样本包含在真负样本集中，导致偏差，增加了损失。0偏差 =-∑log(1-0对于每个i∈¯F U，计算xi的负对数似然：log(1-pi)0因此，在优化神经网络的参数时，模型会因为被要求区分在外观上几乎相同但标签相反的样本而感到困惑。这将导致模型参数陷入较差的局部最小值，并产生冲突的预测。0弱监督。在类似的设置中，图像的注释部分缺失时，主要的范例是弱监督学习。在这个背景下，已经探索了许多弱监督学习的变体[36, 26, 37,38]。它们之间的共同思想是，模型f进行R轮训练。使用上一轮模型t来预测未知样本的标签，y i = argmax p(y i | x i;θt)，通常称为伪标签。然后将伪标签与真实标签一起使用，通过最小化方程（2）中的交叉熵来获得更新的模型参数θ t+1。然而，这些新的伪标签会引入由于将原本与背景集F相关联的对象错误地归为正样本而引起的偏差，这些错误会增加损失。0偏差 =-∑log(1-p i)0r ∈ R0无0log(1-p i) +0对于每个i∈Fr,t，计算xi的负对数似然：log(1-p i)0其中F U r,t � F U，Fr,t对应于模型t在第r轮的弱注释标签。在这方面，弱监督可能会造成更多的伤害，因为它会使最终的分类器不仅在一个标签方面（y i = 0）产生偏差，而是在所有标签方面。03.2. 独占交叉熵的动机0在背景中缺乏详尽的真实知识的情况下，任何学习算法都不可避免地会引入模型参数的偏差。在稀疏样本学习中，理想情况下，我们希望一种算法能够利用背景，而不会使模型参数倾向于伪正或伪负标签。为此，我们不是固守如何最佳地推断缺失的注释yi：�xi∈F，而是专注于分类器的学习动态以及如何在稀疏样本学习环境中对这些动态进行最佳影响。目标是发现可能会给学习增加显著偏差的背景样本（正样本或负样本），并跳过它们。具体而言，在没有任何背景注释知识的情况下，我们暂时将背景中的所有样本都视为负样本，以至少不会给训练集中的正样本添加偏差，如方程（3）所示。xdtdLFdLdtdtdLFd2 LFdt2≪ d2 LFdt2(5)d2 LFdt2∝ pm(1 − p)n,(6)L = −xi∈Flog pi −xi∈Fδ(pi < ρβ) log�1 − pi�(7)28160有偏的陨石坑0无偏的陨石坑0图2：当注释缺失时，未标注的数据会导致学习模型接近有偏的陨石坑，因为信息不正确。改进的一种方法是消除所有包含偏差的实例，但这意味着在非穷尽注释集中消除所有背景示例。相反，我们建议简单地减慢学习的速度，由d 2 L0dt 2，来自未标注的数据，同时保持从确定的注释数据的学习速度。这样，模型将更快地移向无偏的陨石坑，并最终达到期望的解决方案，尽管无法避免的偏差。03.2.1 稀疏样本学习的独占交叉熵0尽管在训练开始时，任何预测很可能都是高度不准确的，但模型仍然容易为F和F中的样本返回高度自信的预测。当使用softmax和sigmoid激活函数进行分类时，这被称为神经网络预测的过度自信[39, 40,41]。这种效应是由方程（1）中的交叉熵的性质引起的，当模型的预测logp最高时（正样本和负样本分别为p=1或1−p=1），交叉熵得到最低分数。在缺失注释的情况下，这尤其是个问题，因为模型会被鼓励对训练中的样本进行过度自信的预测，这些样本的注释没有给出，而是推断出来的，因此经常是错误的。为了激发如何利用学习动态来摆脱这个悖论，我们在图2中展示了梯度下降中的一个假设优化景观。图2突出了偏差和学习动态可能对最终解决方案产生不利影响的情况。为了解释的目的，我们假设我们有一个无偏的最小值，位于一个无偏的陨石坑中，如果我们对背景中的所有相关注释有完美的知识，我们将获得这个无偏的最小值。在我们的无偏陨石坑旁边，存在多个由于添加有偏注释而引起的有偏陨石坑。实际上，神经网络具有多个等效的最小值，然而，这不影响动机。我们的假设是，当从不正确的注释中学习时，模型会收敛到有偏陨石坑中的最小值；即其性能不如在所有正确注释上训练的模型好。0理想情况下，我们希望模型进入无偏的陨石坑，因为在这种情况下，它几乎肯定会通过标准梯度下降收敛到最优参数。不幸的是，有偏的梯度必然会将模型推向有偏的陨石坑之一。限制这种情况的一种方法是确保模型从未标注的背景样本中的学习速度比从确定的前景样本中的学习速度慢。由于学习是通过损失相对于时间的一阶导数d Ldt（相对于参数的导数对应于最优模型步骤）来捕捉的，学习速度由相对于时间的二阶导数d 2 L0dt 2。换句话说，我们希望背景损失的二阶导数相对于前景损失的二阶导数很小，甚至为零，即0如果方程(5)成立，那意味着模型从正样本中学习得更快，相比之下，从负样本中学习得更慢，从而增加了在陷入有偏见的局部最小值之前到达无偏的陨石坑的机会。将详细的计算移至补充材料，导数方程可以表示为0具有多项式根 p = 0 和 1 − p = 0的方程。为了确保二阶导数为零或接近零，我们应该排除在未标注区域 F中具有高置信度预测的训练样本。由于所有未标注样本都被分配了一个弱负标签，我们在方程(2)中的交叉熵损失中引入了一个独占阈值项 ρ ，仅针对未标注区域 F 。0其中 β 是一个退火超参数，δ(∙)是Kroneckerdelta函数。随着学习的进行和模型的改进，预测会变得越来越准确且置信度越高，因此可以通过更宽松的 β来放宽阈值要求。注意，方程(7)可以通过相应地修改对数概率 log � 1 − p i �来支持多类别。我们将方程(2)中的损失称为独占交叉熵(ECE)。03.2.2 直观动机和讨论0使用独占交叉熵的目的是在模型准确性还不够高时，不让模型过于自信。与交叉熵相比，独占交叉熵试图忽略高置信度但风险较大的预测，并且不鼓励模型分配高置信度。L = −�xi∈Flog pi −�xi∈Fδ(pi < ρβ)u�1 − pi�(8)̸28170尽可能将高置信度的预测分配给尽可能多的样本。在没有足够训练的情况下，高置信度的预测存在误报的风险，会错误地推动模型朝错误的方向发展。另一方面，低置信度的未标注数据对应于假阴性（即未标记的对象），由于其低分数，其梯度幅度较小，但随着学习的进行，它们的方向有望趋向正确的方向。为了避免过快地收敛到虚假的局部最小值，目标是减慢从高风险未标注数据中的学习速度，并首先到达无偏的陨石坑。具体来说，在标准训练的开始阶段，分类器实际上是不准确的。因此，对于错过手动注释的训练样本，其预测的任何置信度很可能是错误的。鉴于我们的背景训练样本都被视为暂定的负样本（ y i = 0 ，� x i ∈ F），让我们考虑一个高置信度的正预测， p ( y i = 1 | x i )> ρ，对于一个真正的正样本。第一种可能的推理是，模型已经能够正确地识别对象作为正预测， y i = 1。这意味着模型已经准确无误，没有理由通过反向传播来更新模型。第二种可能性是，伪负标注是错误的。反向传播会将模型更新到错误的方向。因此，不仅没有必要更新模型，而且可能会因为不正确的伪标注而引入偏差。鉴于我们实际上并不知道真实标签，因此更好地将此训练样本在此轮的梯度中的贡献排除在外。对于高置信度的负预测， p ( y i = 0| x i ) > ρ，可以构建类似的论证。重要的是要注意，所采用的退火和独占阈值与改变学习率或完全忽略未标注对象不同。独占交叉熵类似于动态可切换的学习率；当训练样本未标注时，学习率动态设置为零。0计算成本。由于独占交叉熵是使用已计算的 p ( y i | x i )计算的，因此计算成本与标准交叉熵几乎相同。不需要重新训练，与弱监督学习相比，也不需要其他昂贵的过程。0退火 ρ。当满足方程（5）时，我们的主要目标是模型首先达到无偏的陨石坑。一旦进入无偏的陨石坑，模型最终将达到所需的最小值。通过将阈值 ρ 通过参数 β退火，我们确保学习在早期阶段受到的偏倚损失项影响较小，并在后期阶段考虑更多样本。在实验中，我们发现0学习算法对 ρ 和 β鲁棒性很强，因此我们对所有数据集使用相同的 ρ 和β，并获得了一致的良好性能。0类别不平衡。在目标定位中，类别不平衡可能对学习产生强烈影响[3,4]。特别是在像组织切片这样的大图像中，与少数由注释者提供的阳性注释相比，无关或背景对象实例的数量相对较小。为了解决严重的类别不平衡问题，我们可以将独占交叉熵与焦点损失重新加权方案相结合， u ( p i ) = − α (1 − p i) γ log( p i )，正如[2]最初提出的那样。在这种情况下，焦点独占交叉熵计算公式为04. 实验04.1. 实验设置0数据。我们在以下九个数据集上进行评估：CoN- SeP[13]，CPM15 [36]，CPM17 [36]，CRCHisto [6]，Kumar[42]，MoNuSeg [42]，WBC-NuClick [43]，TNBC[44]以及我们自己的肿瘤浸润淋巴细胞（TIL）定位基准，其中包含16个血红蛋白和嗪（H&E）染色的数字生物切片的全幅图像（WSIs）。最大的数据集是TIL，包含440,734个图像和45,127个细胞注释，其中包括6,631个淋巴细胞。第二大的数据集是WBC-NuClick，包含1,463个图像，而注释最多的数据集是CRCHisto数据集，包含29,748个细胞。我们在补充材料中提供所有细节和视觉示例。0评估。除了TIL之外，所有数据集都只包含数字化组织切片的小部分图像，因此可以进行详尽的注释。我们创建了非详尽注释集的变体，其中包含10％，...，90％的注释（100％是完整集）。为了确保不同的变体是可比较的，我们在每个较小的变体中都包含所有注释（80％变体的注释也包含在90％变体中，依此类推）。我们使用DICE评估分割，使用F1分数评估目标检测。TIL数据集仅包含所有细胞的一小部分，因此我们不能使用与精确度相关的指标，因为未知的真阳性将被计为真阴性。相反，鉴于在TIL数据集中我们对其他与淋巴细胞相似且最有可能是假阳性的细胞类型进行了注释，我们提出了独占召回，计算公式为Rec exc ( y ) = Rec (y ) ∙ (1 − Rec ( � = y))。虽然仍然没有考虑到漏掉的真阳性，但是独占召回在预测对应错误细胞类型时降低了分数，并且可以定量评估方法之间的相对性能。28180架构。独占交叉熵对于特定的分割或检测模型和架构是不可知的。我们尝试了两种最先进的方法：YOLLO[4]用于目标检测，Unet[7]用于分割，使用标准的开源实现进行训练。我们针对每个非详尽集（每个数据集10个集合）从头开始训练模型，并且没有预训练。对于分割的超参数调整，我们仅依赖于TNBC数据集，并在所有其他数据集、实验和任务中重复使用相同的参数（无论是分割还是检测）。对于独占交叉熵，我们不使用任何特定于任务或数据集的参数。在所有161个使用YOLLO和Unet进行独占交叉熵的实验中，使用相同的超参数值，以展示其普适性和鲁棒性。我们在补充材料中包含所有模型和训练参数。04.2.消融研究0交叉熵变体和弱监督学习。我们报告了使用独占交叉熵以及TNBC数据集的30％和60％非穷尽变体的弱监督学习的结果。我们首先使用标准交叉熵进行训练。然后，我们使用训练好的模型更新相应的非穷尽注释训练集中的标签。如果未注释样本的预测概率pi>τ，则样本变为伪阳性，我们重新训练并重复该过程。在附录材料中进一步展示的早期学习正则化的噪声标签学习与标准弱监督学习表现相似。我们在表1中呈现结果。我们观察到，弱监督学习并没有提高标准交叉熵训练的性能。一个可能的原因是，与常规的弱监督使用[45]相反，医学图像中的对象很容易混淆。当预期的混淆不高时，弱监督学习效果更好。对于标准交叉熵，聚焦重新加权没有好处，可能是因为过度降低了实际真阳性的权重。在独占交叉熵中，对未注释的F组进行聚焦重新加权是有益的，因此我们在所有后续的独占交叉熵实验中使用聚焦重新加权。0独占阈值和退火计划。接下来，我们对不同的独占阈值和退火计划进行了实验。我们在固定的ρ为0.5和0.75（ρ=1为标准交叉熵）的情况下进行了两个实验。我们还使用线性和sigmoid调度进行了两个实验，其中sigmoid调度表现最佳。我们在表2中汇总了结果。我们观察到，无论阈值和调度的类型如何，性能始终良好，sigmoid调度表现最佳。在接下来的实验中，我们将使用sigmoid调度。0表1：TNBC检测任务上30％和60％注释的独占交叉熵与弱监督学习的对比。0τ F1@30％ F1@60％0交叉熵0.65 0.7 +弱监督学习0.75 0.64 0.68+弱监督学习0.50 0.62 0.64 +聚焦损失0.36 0.490独占交叉熵0.70 0.75 +聚焦损失0.74 0.800表2：TNBC检测任务上30％和60％数据集的退火计划研究。0F1@30％ F1@60％0固定ρ=0.75 0.68 0.70 固定ρ=0.50 0.66 0.71线性ρ=0.75∙ρt，ρt: 0→1 0.71 0.73 Sigmoidρ=σ(ρLinear) 0.74 0.800表3：使用独占召回度量对TIL定位数据集的定量结果。0交叉熵聚焦损失 Huber损失 ECE0Rec exc（↑）0.85 0.81 0.69 0.8804.3.稀疏分割0我们使用标准的交叉熵（CE）（假设未标注的部分是负样本），聚焦损失（FL）[2]，Huber损失[32]和独占交叉熵（ECE）来呈现图4中的分割结果。独占交叉熵在大多数数据集和设置中都达到了最佳性能。重要的是，独占交叉熵在只有40%的注释的情况下就能始终达到接近最大的性能，无论数据集如何。与标准的交叉熵相比，独占交叉熵的改进幅度高达85％，特别是在注释更稀疏（例如10％或20％变体）和更难的数据集（CE得分在只有10％注释的情况下DICE得分低于0.5的数据集）中。一个令人惊讶的结果是，聚焦损失在一些注释更稀疏的数据集中相对表现更好，但在注释更充分的数据集中性能下降，并且明显比其他方法差。这一发现的可能原因是，聚焦损失最初是为了解决检测中类别对象损失不平衡而设计的，并且需要充分的注释[2]。因此，聚焦损失的交叉熵部分应用于损失函数的所有项，同样减轻了F和F组的权重。04.4. 稀疏样本检测0我们使用与分割相同的超参数在图5中呈现了盒子检测的结果。在MoNuSeg中，102030405060708090 1000.40.50.60.70.8102030405060708090 1000.50.60.70.8102030405060708090 10000.20.40.60.8102030405060708090 1000.60.70.8102030405060708090 1000.40.50.60.70.8102030405060708090 1000.60.650.70.750.8102030405060708090 1000.50.60.70.8102030405060708090 10000.20.40.60.8128190图3：TNBC、CPM17、CRCHisto和MoNuSeg数据集上检测（a）和分割（b）的30%非穷尽注释变体的真实标注和预测的定性结果0细胞注释的百分比[%]0DICE0TNBC0CEFL0Huber0细胞注释的百分比[%]0DICE0CoNSeP0CEFL0Huber0细胞注释的百分比[%]0DICE0CPM150CEFL0Huber0细胞注释的百分比[%]0DICE0CPM170CEFL0Huber0细胞注释的百分比[%]0DICE0CRCHisto0CEFL0Huber0细胞注释的百分比[%]0DICE0Kumar0CEFL0Huber0细胞注释的百分比[%]0DICE0MoNuSeg0CEFL0Huber0细胞注释的百分比[%]0DICE0WBC-NuClick0CEFL0Huber0图4：非穷尽数据集的分割结果102030405060708090 1000.20.40.60.8102030405060708090 1000.30.40.5102030405060708090 10000.20.40.6102030405060708090 1000.40.60.8102030405060708090 1000.20.40.60.8102030405060708090 1000.30.40.50.6102030405060708090 1000.40.50.60.70.8102030405060708090 10000.20.40.60.81In this work, we focus on the problem of sparse-shotlearning, especially in the context of localising extremelymany objects. Sparse-shot learning is particularly impor-tant for certain types of images, like digitised tissue sec-tions in computational pathology, easily exceeding resolu-tions of 250’000 × 250’000 pixels and millions of cells tobe localised. We show that standard cross-entropy assumingall background as negative labels leads to biased learningand poor optimisation, likely due to the contributions rep-resented by large second-order derivatives in the loss. Byignoring these terms, we present exclusive cross-entropy.Extensive experiments on nine datasets and two localisationtasks, detection with YOLLO and segmentation with Unet,show that we obtain considerable improvements comparedto cross-entropy or focal loss, while often reaching the bestpossible accuracy for the model with only 10-40% of anno-tations present.1https://www.health-holland.com28200细胞注释的百分比[%]0F10TNBC0CEFL0Huber0细胞注释的百分比[%]0F10CoNSeP0CEFL0Huber0细胞注释的百分比[%]0F10CPM150CEFL0Huber0细胞注释的百分比[%]0F10CPM170CEFL0Huber0细胞注释的百分比[%]0F10CRCHisto0CEFL0Huber0细胞注释的百分比[%]0F10Kumar0CEFL0Huber0细胞注释的百分比[%]0F10MoNuSeg0CEFL0Huber0细胞注释的百分比[%]0F10WBC-NuClick0CEFL0Huber0图5：非穷尽数据集的检测结果0WBC-Nuclick和TNBC独占的交叉熵损失在10-50%的变体中始终比标准交叉熵和焦点损失高出约10%。在CRCHisto、CoNSeP、Kumar和CPM15中，独占交叉熵仍然保持着最佳性能，但对于不同的非穷尽变体，它与不同的方法相匹配，显示出更强的鲁棒性。与分割相比，性能增长较小的可能原因是分割比检测更具挑战性。这可能是因为分割中的输出对象（像素）数量大于检测中的对象（细胞）数量。因此，在检测任务中，未注释对象的数量相对较低。最后，由于其均匀加权策略，焦点损失似乎在前景和背景之间的平衡方面存在问题。此外，我们在表3中以独占召回的形式呈现了TIL数据集的结果。独占交叉熵表现最佳，能够正确定位最多的真阳性淋巴细胞，同时不会将它们与其他视觉上相似的细胞类型（如肿瘤细胞或成纤维细胞）混淆。通过视觉检查，各种方法之间的差异甚至更大，但由于大量缺失的注释，这种差异在数量上没有得到反映，如补充材料中所讨论的。04.5. 定性结果0我们在图3中展示了交叉熵和独占交叉熵的定性结果.交叉熵往往在检测中欠预测, 或者在分割中过度预测.独占交叉熵能够正确检测大多数物体,同时避免错误的背景预测.05. 结论0致谢0这个合作项目是由Health Holland1提供的PPP津贴共同资助的.生命科学与健康领域的顶级部门,旨在促进公私合作伙伴关系.[4] Mart van Rijthoven, Zaneta Swiderska-Chadaj, Katja Seel-iger, Jeroen van der Laak, and Francesco Ciompi. You onlylook on lymphocytes once. 2018.28210参考文献0[1] David Tellez, Maschenka Balkenhol, Irene Otte-H¨oller,Rob van de Loo, Rob Vogels, Peter Bult, Carla Wauters,Willem Vreuls, Suzanne Mol, Nico Karssemeijer等.使用PHH3作为参考训练去除染色不变的卷积神经网络的全切片有丝分裂检测. IEEE医学成像交易, 37(9):2126– 2136, 2018.0[2] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, andPiotr Doll´ar. 密集目标检测的焦点损失.在IEEE国际计算机视觉会议上, 页2980–2988, 2017.0[3] Joseph Redmon, Santosh Divvala, Ross Girshick, and AliFarhadi. You only look once: 统一的实时目标检测.在IEEE计算机视觉和模式识别会议上, 页779–788, 2016.0[5] Nicolas Carion, Francisco Massa, Gabriel Synnaeve,Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko.基于Transformer的端到端目标检测.arXiv预印本arXiv:2005.12872, 2020.0[6] Korsuk Sirinukunwattana, Shan E Ahmed Raza, Yee-WahTsang, David RJ Snead, Ian A Cree, and Nasir M Rajpoot.用于常规结肠癌组织切片图像核的局部敏感深度学习的检测和分类. IEEE医学成像交易, 35(5):1196–1206, 2016.0[7] Olaf Ronneberger, Philipp Fischer, and Thomas Brox.U-Net: 用于生物医学图像分割的卷积网络.在国际医学图像计算和计算辅助干预会议上, 页234–241, 2015.0[8] Thorsten Falk, Dominic Mai, Robert Bensch, ¨ Ozg¨un C¸ic¸ek, Ahmed Abdulkadir, Yassine Marrakchi, Anton B¨ohm,Jan De

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于独占交叉熵的稀疏样本学习在极多定位中的应用

网络游戏-无线传感器网络中基于独占区域的连通支配集构造方法.zip

操作系统课程设计报告基于时间片的轮转调度算法样本.doc

什么是独占设备?对独占设备如何分配?

独占访问的应用场景是怎样的

线程独占cpu核win

无法启动应用程序，工作信息文件丢失，或是已被其他用户以独占方式打开

linux如何独占文件配置

C#中多线程如何阻塞独占资源返回

用户网关独占模式和非独占模式区别

监听多个队列时 能设置独占吗

/dev/videoX不能多个应用程序打开

virtualbox自动独占键盘

批处理命令独占线程命令

.net 控制台应用程序中 SetCooperativeLevel的用法

存储设备一般属于共享设备，而输入/输出设备则属于独占设备。

如何在Minimalegl下显示标准控件？因为OpenGL是独占的

如何理解共享带宽和独占蒂宽？，共享带宽是 集线器的特性，而独占带宽则是交换机的特 性。如何理解共享带宽和独占带宽呢？二者相 比较，哪一种性能更好？

GridPane独占整行fxml

flex布局独占一行

最新资源

监听多个队列时能设置独占吗

如何理解共享带宽和独占蒂宽？，共享带宽是集线器的特性，而独占带宽则是交换机的特性。如何理解共享带宽和独占带宽呢？二者相比较，哪一种性能更好？