深度网络AUC最大化的应用研究及在医学图像分类中的性能提升

31 浏览量更新于2023-10-13 收藏 726KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3040大规模稳健深度AUC最大化：一种新的替代损失及其在医学图像分类中的应用研究卓宁袁1、严燕2、米兰松卡1、天宝杨1爱荷华大学1、华盛顿州立大学2{zhuoning-yuan，milan-sonka，tianbao-yang} @ uiowa.edu，wsu.edu摘要深度UC最大化（DAM）是一种通过最大化数据集上模型的AUC得分来学习深度神经网络的新范式。AUC最大化的大多数以前的工作集中在优化的角度，通过设计有效的随机算法，和研究的推广性能的大规模DAM困难的任务是缺失的。在这项工作中，我们的目标是使DAM更实用的有趣的现实世界的应用程序（例如，医学图像分类）。首先，我们提出了一个新的基于边际的最小-最大替代损失函数的AUC得分（命名为AUC最小-最大边际损失或简称AUC边际损失）。它比常用的AUC平方损失更鲁棒，同时在大规模随机优化方面具有相同的优势。其次，我们对我们的DAM方法在四个困难的医学图像分类任务上进行了广泛的实证研究，即（i）用于识别许多威胁性疾病的胸部X射线图像的分类，(ii)用于识别黑色素瘤的皮肤损伤图像的分类，（iii）用于乳腺癌筛查的乳房X线照片的分类，和（iv）用于识别肿瘤组织的显微图像的分类我们的研究表明，所提出的DAM方法提高了优化交叉熵损失的性能，并且在这些医学图像分类任务上也实现了比优化现有AUC平方损失更好的性能。具体而言，我们的DAM方法已在8月12日的斯坦福大学CheXpert竞赛中获得第一名。2020年31日。据我们所知，这是DAM在大规模医学图像数据集上取得成功的第一项工作我们还进行了广泛的消融研究，以证明在基准数据集上新的AUC边际损失超过AUC平方损失的优势。所提出的方法在我们的开源库LibAUC（www.libauc.org）中实现，其github地址为https：//github.com/Optimization-AI/LibAUC网站。图1.用于优化玩具数据上的不同AUC损失以用于学习具有ELU激活的双层神经网络的说明性示例。顶行优化AUC平方损失，底行优化新的AUC边际损失。第一列描绘了在一组示例上预训练的初始决策边界（虚线）在中间一列中，我们向训练集添加了一些简单的示例，并通过优化AUC损失来重新训练模型在最后一列中，我们将一些噪声标记的数据（蓝色圆圈数据）添加到训练集，并通过优化AUC损失来重新训练模型结果表明，新的AUC裕度损失比AUC平方损失更稳健。1. 介绍在过去的十年中，我们已经看到了由大规模医学数据集驱动的用于医学图像分类的深度学习（DL）技术的巨大进步。例如，由Andrew Ng领导的斯坦福机器学习小组收集并发布了一个用于检测胸部和肺部疾病的高质量大型胸部X射线数据集，其中包含来自65，240名患者的224，316张高质量X射线图像[22]。通过参与由斯坦福ML组[22]组织的CheXpert竞赛，已经在该数据集上设计和评估了各种深度学习方法，其中许多方法在检测某些相关疾病方面达到了放射科医生级别的性能。Es-teva等人[10]使用由2，032种不同疾病组成的129，450张临床图像的数据集训练了CNN，并实现了皮肤科医生水平的性能。3041皮肤病变的分类。 Wu等人[39]在大规模医疗数据集上训练了一个用于乳腺癌筛查的深度神经网络，该数据集包括来自141，473名患者的229，426次数字筛查乳腺X射线摄影检查（1，001，093张图像）。他们的模型和有经验的放射科医生一样准确。尽管作出了这些巨大的努力，但一个重要的问题仍然存在：“Can we design a generic method that can further im-prove the performance of DL on these medical datasetswithout relying on domain knowledge”在本文中，我们提供了一个肯定的回答这个问题。我们的解决方案是优化一个新的损失DL，而不是优化标准的交叉熵损失在以前的作品。特别地，我们选择最大化DL的AUC评分（也称为ROC曲线下面积）。最大化AUC分数相对于最小化交叉熵损失有几个益处。首先，在医学分类任务中，AUC得分是用于评估和比较不同方法的默认度量直接最大化AUC评分可能会导致模型第二，医学图像分类任务中的数据集恶性病例的数量通常比良性病例少得多AUC更适合于处理不平衡的数据分布，因为最大化AUC的目的是将任何阳性数据的预测得分排名高于任何阴性数据。然而，AUC最大化比最小化误分类误差更具附录F中的一个简单示例表明，通过改变一些示例的预测得分，误分类错误率保持不变，但AUC得分显著下降。AUC最大化已经在机器学习社区中进行了研究[12，41，27，23，11]。然而，用于AUC最大化的现有方法对于实际使用仍然不令人满意AUC最大化的首要挑战是确定AUC评分的替代损失。一种简单的方法是基于AUC评分的定义使用成对替代损失。然而，优化训练数据上的通用成对损失遭受严重的可扩展性问题，这使得其对于大规模数据集上的DL不实用一些研究已经尝试解决可扩展性问题[23，43，41，27]。一个有希望的解决方案是通过利用其特殊形式来最大化AUC的成对平方损失[41，27]。然而，我们的研究表明，AUC平方损失具有不利影响时，训练简单的数据，是敏感的噪声数据。为了解决这些问题，我们提出了一种新的基于边际的替代损失的最小-最大形式的AUC（简称为AUC最小-最大边际损失和AUC边际损失），这是解决两个问题的AUC平方损失的启发特别地，AUC裕度损失有两个特点，可以缓解这两个问题，使其更强大的噪音数据，而不是由简单的数据产生不利影响。我们将在技术部分详细解释，并使用图1中的玩具示例来说明AUC裕度损失相对于AUC平方损失的鲁棒性。此外，AUC余量损失的最小-最大形式使其在可扩展性方面享有与AUC平方损失相同的益处，使其比用于AUC最大化的常规的基于成对余量的替代损失更有吸引力。特别地，我们能够直接采用现有的大规模优化算法[15]，该算法被设计用于最大化AUC平方损失，以最大化我们的AUC余量损失，其中代码的一行改变。为了证明我们的深度AUC最大化方法的有效性，我们对四个不同的医学图像分类任务进行了实证研究，即用于检测胸部疾病的X射线图像的分类、皮肤病变图像的分类、用于乳腺癌筛查的乳腺照片的分类和肿瘤组织的显微图像的分类。我们的深度AUC最大化方法在这些困难的任务上取得了巨大的成功。具体来说，我们在8月20日的Stan-fordCheXpert竞赛中获得了第一名31，2020和前1%在Kaggle 2020黑色素瘤分类竞赛中排名在CheXpert竞赛中，我们的方法在150多个提交中排名第一，在私人测试数据上比斯坦福基线提高了2%以上。在Kaggle竞赛中，我们的集成模型在3314个团队中排名第33位但我们的最佳单人模型比获胜队的最佳模型好2%以上除了这些医疗任务之外，我们还对基准数据集进行了广泛的消融研究，以将所提出的AUC边缘损失与AUC平方损失和传统分类损失（包括交叉熵和病灶损失）进行比较。在结束本节之前，我们将我们的贡献总结如下：• 我们提出了一种新的鲁棒替代损失的AUC最大化，这是更强大的AUC平方损失，但享有同样的好处，大规模优化。• 我们进行了广泛的医学图像分类数据的DAM方法的广泛的实证研究，并证明了其卓越的性能相比，标准的DL方法。据我们所知，这是DAM在大规模医学图像分类数据集上的首次2. 相关工作优化成对替代损失。基于AUC的定义，许多研究考虑优化AUC的成对替代损失[12，41，27]。Joachims等人[23]提出了一种用于优化AUC测量的SVM方法，对于一个有n个例子的数据集，其复杂度为O（n2）。许多后来的研究试图提高效率30422。⇤--S{}ni=1米1X`（h（x）-h（x0）），⑵X优化AUC的成对替代损失。Herschtal等人[20]通过使用部分对提出了AUC的经验成对损失的近似目标。特别地，对于每个负数据，他们仅构建了仅具有一个正数据的成对损失。然而，这种近似的质量高度依赖于数据集的属性当示例具有较大的内部方差时，其目标可能会产生较差的性能。Zhao等人。[43]提出了一种通过主要参数实现AUC最大化的在线方法，标注其相应的标签（例如，某种疾病的指标为了符号简单，我们使用z =（x，y）。令wRd表示要学习的深度神经网络的参数，并且令hw（x）=h（w，x）表示神经网络对输入数据x的预测。深度学习的标准方法是通过L（w; x，y）=`（hw（x），y）定义单个数据的损失函数，其中（y，y）是mi分类的替代损失函数误差（例如，（三）减少损失，减少损失。设置用于存储一些历史肯定的数据缓冲器，以及最小功率损耗2Rd 1个PnL（w; xi，yi）.但这在一个实施例中，数据库100可以接收负数据，并且通过将新接收的数据与缓冲器中的所有数据配对来构建近似AUC分数。但分析表明，这样的数据缓冲区需要很大才能使算法有小的遗憾。优化成对平方损失。成对平方损失是一个例外，它具有独特的属性，使人们能够为大规模数据设计有效的随机算法[11，41，28，30]。特别地，Ying et al.[41]将成对平方损失的最小化公式化为等价的最小-最大优化问题，这允许他们开发有效的随机算法，而无需明确地构造和处理正负数据对。几篇论文试图提高求解最小-最大优化问题的收敛速度[28，30]。深度AUC最大化（DAM）。大多数研究上面提到的是用于学习线性模型。近年来，有一些新兴的研究DAM。在[35]中，作者考虑了基于[43]提出的在线缓冲梯度方法学习深度神经网络的DAM，并将其应用于基于不平衡乳房X线照片图像的乳腺癌分类。然而，这种方法的问题是它不能扩展到标准方法容易被医学数据集中训练图像的不平衡分布所误导。在医学应用中，用于比较和评估不同分类器的更有利的度量是AUC。已经表明，设计用于最小化误分类错误率的算法可能不会导致AUC最大化[7]。3.1. 可扩展AUC最大化AUC最大化的现有工作考虑AUC的以下定义，其相当于Wilcoxon-Mann-Whitney统计量[17，5]：AUC（w）=Pr（hw（x）彡hw（x〇）|y=1，y0=-1）（一）=E1（hw（x）-hw（x0）≥0）y=1，y0=-1。将AUC评分解释为阳性样品排名高于阴性样品的概率。出于优化目的，上述AUC定义中的指示函数通常由凸替代损失"R！R+满足I（hw（x）-hw（x0）<0） `（hw（x）-hw（x0））。因此，许多现有的工作将训练数据S上的AUC最大化公式化为w w大型数据集，因为它需要一个大的缓冲区来存储正w2RdN+N-x2S+x02S-和每次迭代时的阴性样本，用于计算近似AUC分数。因此，他们只考虑具有几千个医学图像的数据集。最近，[27，15]通过求解AUC平方损失的相应最小-最大目标，提出了用于DAM的有效随机非凸最小-最大优化算法他们的算法可以扩展到数十万个训练样本。[14，42]提出了分布式DAM的联合学习算法。然而，所有这些研究都忽略了AUC最大化的平方损失的缺陷。据我们所知，这是第一个工作，分析了AUC平方损失的不足之处，并提出了一个更好的解决方案。其中S+、S-表示正样本和负样本的集合，并且N+、N-分别表示它们的大小。尽管如此，直接优化上述配方并不是规模化的。由于存在O（n2）对，因此能够处理大型数据集，因为复杂度可能会像O（n 2）一样糟糕，其中n是示例的总数。为了解决可扩展性问题，现有的研究已经提出了一些有前途的解决方案。一个引起极大关注的解决方案是由于其算法简单而优化平方损失。平方损失（hw（x））hw（x0））=（1hw（x）+hw（x0））2作为surrog ateloss的AUC，表明目标等同于最小-最大问题[41]：3. 方法minw2Rd（a，b）2R2maxf（w，a，b，）：=Ez[F（w，a，b，;z）]，（3）塞马尔河符号。设I（·）是谓词的指示函数其中z=（x，y）2S是随机样本，并且F（w，a，b，b;z）=（1-p）（hw（x）-a）2I[y=1]（4）[s]+= max（s，0）。让=（x1，y1），. ..，（xn，yn）de-注意一组训练数据，其中xi表示输入+p（hw（X）-b）2I[y=-1] -p（1-p）训练示例（例如，图像），并且yi2 {1，-1}de-2W3043+2。p（1-p）+phw（x）I[y=-1]-（1-p）hw（x）I[y=1]Σ，3044--|-||---|--|}----------↵-+||-【详细】---||且p=Pr（y=1）。由于上述公式中的目标函数可分解到各个实例上，因此它使得能够开发用于更新模型参数w的有效原始-对偶随机算法，而无需显式地构造正-负对。几项研究已经开发了用于求解上述最小-最大公式的有效随机算法，其能够扩展到数十万个示例[41，28，27]。3.2. AUC平方损失尽管AUC平方损失使得AUC最大化可扩展，但其具有被现有研究忽略的两个问题。特别地，当用良好分类的数据（即，简单数据），并且对噪声标记的数据敏感（即，噪声数据）。下面，我们将通过考虑用于说明的线性模型hw（x）=w>x来阐述这两个问题，并从随机梯度更新的角度来我们在附录E.2中给出了一个一维数据来支持我们的论点。当我们使用最小-最大公式（3）来解释这些问题时，我们将进行一些简化。特别地，我们将使用给定的a、b、的最优值w ，即， a=a （ w ）： = E[hw （ x ） ]|y=l] ， b=b（w）：= E[hw（x）|y=-1]，y= 1+b-a，其中a、b可以在-y=1，y（0=1）表示噪声标签。首先，假设预测hw（x）较大且hw（x0）较小。基于最小-最大目标的模型参数wSGD更新由下式给出：w+=w-2<${（1-p）（hw（x0）-a-n）x0+p（hw（x）-b+n）x}. 通过插入给定w的a、b、的最佳值，即， = 1+ba和a=E[hw（x）y=1]， b=E[hw（x0）y0=1]，我们可以看到w的更新中涉及x的项是2p（hw（x） + 1E[hw（x）y=l]）x，并且在v中， x0是2p（hw（x0 ）1E[hw（x0 ）y0=1]）x0。然后清楚地看到，当hw（x）足够大使得hw（x）+1E[hw（x）y=1]>0时，w的更新将移动到真正正的数据x的负方向，并且类似地，当hw（x）足够小时，它将移动到真正正的数据x。的正方向。3.3. 拟定AUC边际损失为了缓解AUC平方损失的两个问题，我们提出了一个新的基于边际的替代损失。新的surro-gate损失是一个直接修改的平方损失，以减轻这两个问题。为了激发新的AUC边际损失，我们将AUC平方损失重新公式化如下（推导请参见附录B）：AS（w）=E[（1-hw（x） +hw（x0））2|y=1，y0=-1]解释为阳性数据的平均预测得分，以及阴性数据（推导请参见附录A）。同样的技巧将被用来说明=E[（hw|（x） a（w））2y= 1]A1{（zw）（五）AUC利润损失的好处+E[（hw（x0）-b（w））2|y〇=1]+（1-a（w） +b（w））2对易数据的不良影响。为了说明这一点，让我们考虑一个场景：给定当前模型参数A2{（zw）}|A3{（zw）}得到正负数据对（x， y=1），（x0，y0 =1）①的人。假设这些数据是简单的例子，意味着预测hw（x）很大，hw（x）很小，使得hw（x）hw（x0）>1。通过跟踪平方损失的随机梯度下降更新`（hw（x）hw（x0））=（1hw（x）+hw（x0））2，我们通过w + = w得到更新后的模型g2（1hw（x）+hw（x0））（x+x0），其中，0是步长。以来1hw（x）+hw（x0）<0，模型参数w将向正数据x的负方向移动以及负数据的正方向x0。结果表明，新模型w+倾向于使正性数据的得分hw+（x）更小，负性数据的得分hw+（x0）更大，从而提高了模型的分类能力糟了当我们使用最小-最大目标（3）进行更新时，会发生类似的效果。我们在附录D中纳入了分析。对噪声数据的敏感性。接下来，我们详细阐述了噪声标记的例子的敏感性为此，我们考虑一个场景：当前模型参数由w给出，并且出现了正负数据对（x，y =1，y= 0）。1 ），（x0，y0=1，y=0=1），其中y，y0分别表示x，x0的未显示的真实标签，并且=A1 （ w ） +A2 （ w ） +max{2 （ 1-a （ w ） +b（w））-2}，其中a（w） =E[hw（x）y=1]，b（w） =E[hw（x0 ）y0=1]，在第二个等式中，我们使用事实s2=max2s2。A1（w）、A2（w）、A3（w）三个术语具有有意义的解释。特别地，最小化A1（w）、A2（w）旨在分别最小化正数据和负数据上的预测得分的方差;最小化A3（w）旨在将正样本和负样本的平均预测得分推得更远。怎么-然而，最后一项的平方函数使其遭受上述两个问题。我们的解决方案是使用平方铰链函数来代替 A3（w），这是广泛使用的边缘为基础的SVM分类器。尤其是，我们-将A3（w）置为max≥02（m a（w）+b（w））↵2=（m a（w）+b（w））2，其中m是指定a（w）和b（w）之间的期望裕度的超参数。因此，我们的新AUC边际损失定义为AM（w）=A1（w）+A2（w）（6）+max 2（ma（w）+b（w））2。↵≥ 0如果没有对的非负约束，则损失变为3045具有可调裕度参数m的平方损耗。AUC保证金损失的好处。我们首先证明3046Rr-≥--.Σ----||----- -≥- 你好- --上述目标等同于最小-最大目标。定理1. 最小化AUC裕度损失（6）相当于以下最小-最大优化：用于优化AUC裕度损失的算法1PESG要求：、ц、λ、T一曰：初始化v1，1≥0minw2Rd（a，b）2R2maxEz[FM（w，a，b，;z）]，其中（7）↵≥ 02第二章：对于t= 1，. ..，没做3：计算vFM（vt，zt; zt）和 FM（vt，zt; zt）。4：更新原始变量FM（w，a，b，;z）=（1- p）（ hw（x）- a）+p（hw（x）-b）2I[y=-1]-p（1-p）2I[y=1]（8）vt+1=vt-（rvFM（vt，t;zt）+ц（vt-vref））-λvt+2p（1-p）m + phw（x）I[y=-1]-（1-p）hw（x）I[y=1].我们强调mina，bmax≥0Ez[FM（w，a，b，;z）]=p（1p）AM（w）。请参见附录C中的证明。强大到易于数据。根据上述最小-最大公式-为了解决这个问题，让我们首先阐述新损失的益处，其减轻AUC平方损失的两个问题首先，让我们考虑非负约束0如何帮助减轻使用简单数据训练时的不利影响。按照与前面相同的逻辑，我们通过下式计算FM（w，a，b，）的梯度：rwFM （ w ， a， b， ;z）=2（ 1-p） xI[y=1]·（ hw（x）-a-）+ 2pxI[y=-1]·（hw（x）-b+）。与平方损失不同，给定w的最优为↵=m+b（w）a（w）如果m+b（w）a（w）0，且当m+b（w）a（w）<0时，= 0，其中 a （ w ） =E[hw （ x ） y=1] ， b （ w ） =E[hw（x）y=1].当模型足够好时，即， m + b（w）a（w）<0意味着阳性数据的平均预测分数比阴性数据的平均预测分数大一定幅度m>0 ，则梯度变为rwFM （ w ， a， b， ;z） =2（1p）xI[y=1]（hw（x）a）+2pxI[y=-1]（hw（x）b）。对w进行随机梯度下降更新将仅将采样数据的预测得分推至接近它们的平均得分。当模型较差时，即， m +b（w）-a（w）>0时，梯度变为rwFM（w，a，b，;z） =2（1p）xI[y=1]（hw（x）mb（w））+2pxI[y=-1]（hw（x）+m a（w））。由于在这种情况下模型很差，因此对于正数据x，可能hw（x）mbw><0，而对于负数据，可能hw（x）+ma（w）> 0X.因此，对w+=wwFM（w，a，b，;z）进行随机梯度下降更新可能会使模型向正确的方向移动，从而使正数据的预测得分更大，负数据的预测得分更小。对噪声数据稳健。接下来，让我们详细说明如何添加可调容限参数M可以帮助减轻对噪声数据的敏感性与AUC平方损失类似，噪声数据情况下的更新由下式给出：w+=w-2{（1-p）（hw（x0）-a-）x0+p（hw（x）-b+）x}，其中x0是真负数据，但标记为正，并且x是真阳性数据，但标记为阴性。我们考虑模型不够好的情况，使得最优值λ=m+b（w）a（w）. 则w的更新中涉及真正数据x的项为-2p（hw（x）+m-E[hw（x）]|y=1]）x，并且在-3047R-|5：更新t+1=[t+FM（vt，t;zt）]+。6：将减小一个因子，并定期更新vref第七章：端v〇 lv e数据x〇处的真实n e g为2p（m+E[hw（x〇）y〇=1]hw（x0））x0。注意，即使当hw（x）很大且hw（ x0）很小时，使得模型w+在错误的方向上移动，通过将m调整到较小的值，我们可以确保向错误方向的移动大大减少。因此，添加可调裕度参数m可以减轻对噪声数据的敏感性。3.4. 具有AUC边际损失的从定理1可以看出，AUC裕度损失等价于最小-最大优化问题，其类似于AUC平方损失。因此，为求解AUC平方损失的最小-最大目标而提出的任何随机算法可以容易地适于求解AUC余量损失的最小-最大目标。特别地，对于对偶变量的任何更新，我们遵循一个投影步骤，将投影到非负正形。在本文中，我们采用[15]中提出的最近历元随机方法（称为PESG）来更新变量w，a，b，。为了呈现算法，我们使用符号v=（w，a，b）来表示所有原始变量。算法1中给出了关键步骤。在该算法中，λ表示标准正则化参数（即，权重衰减参数），ц>0是可以帮助改进泛化的算法正则化参数，v_ref是通过使用前一阶段（在衰减学习速率之前）中的v_t的累积平均值来周期性地我们建议读者参考[27，15]，以了解该算法的更多讨论和DAM的两阶段框架从我们初步的通过对深度AUC最大化的研究，我们观察到直接优化AUC裕度损失可以容易地处理简单数据集上的识别任务，例如，CIFAR。然而，它在复杂任务上显示出一些困难，例如，CheXpert，黑素瘤。我们推测，通过从头开始直接优化AUC学习的特征提取层不如在这些困难的数据上优化标准交叉熵损失受最近关于两阶段方法的工作的启发，例如，[24]，我们还采用了一个两阶段的框架，对困难的医学图像分类任务，其中包括3048--预训练步骤，其最小化标准交叉熵损失;以及AUC最大化步骤，其最大化预训练的CNN的AUC替代损失，以用于在最后一个分类器层被随机初始化的情况下学习所有4. 实证研究在这一节中，我们提出了广泛的实证研究，建议强大的DAM方法与AUC利润损失。首先，我们提出了一些基准数据集上的结果，然后我们提出了四个医学图像分类任务的结果。在本文中再现我们的方法的结果的代码可以在这里找到[1]。4.1. 基准数据集对于基准数据集，我们构建了不平衡 Cat Dog（C2）、CIFAR-10（C10）、CIFAR-100（C100）、CIFAR-100（C100）、CIFAR-100（C100）和CIFAR-100（C100）。STL-10（S10）[9，25，6]遵循[27]的说明。具体来说，我们首先按类ID将训练数据随机分成两个偶数部分，作为正类和负类，然后我们随机从正类中删除一些样本，使其不平衡。我们保持测试设备不动。我们将不平衡比（imratio）称为肯定示例的#与所有示例的#的比率。这些数据集的统计数据见附录G。我们用两种网络结构进行实验，即，具有ELU激活功能的DenseNet121（D）（[21]）和ResNet20（R）（[18]）我们探索不平衡比率= 1%，10%，并使用9：1的列车/val分割来进行交叉评估以调整参数。我们使用我们的AUC边际损失（AUC-M）与三个基线比较DAM，使用AUC平方损失（AUC-S）比较DAM，以及使用其他两个流行损失函数即交叉熵损失（CE）和焦点损失（Focal）。我们使用-平衡F局部损失↵ˆ(1pt)çˆlog(pt),andtuneitsparameter↵ˆ,цˆfrom[0.25,0.5，0.75]和[1，2，5]。为DAM ， we tuneц in [1/100 ， 1/300 ， 1/500 ， 1/700 ，1/1000].对于AUC-M损失，我们在[0.1，0.3，0.5，0.7，1.0]中调整裕度参数m为了优化，我们以阶段学习率运行100个epoch：初始值为0.1，并且在所有实验的训练时期总数的50%和75%处衰减。我们使用权重衰减，即，λ，对于所有方法均为1e-4。除S10外，所有数据集的批大小均设置为128，由于数据大小较小，S10设置为32对于每种方法，我们用五个不同的随机训练集运行实验（通过随机地移除具有不同随机种子的一些阳性样本），并且通过比较平均测试AUC得分来评估相同的我们还发现，在小批量中使用预测分数的L2归一化是有帮助的我们将这种归一化称为批次评分归一化（BSN）。因此，在以下实验中，我们在计算AUC-S和AUC-M损失之前使用BSN。请参阅表1.在imratio= 1%的基准数据集上测试AUC。数据集CE 局灶AUC-SAUC-M C2（D）0.718±0.0180.713±0.0090.803±0.0180.809±0.016C10（D） 0.698±0.0170.700±0.0070.745±0.0100.760±0.006S10（D） 0.641±0.0320.660±0.0270.669±0.0700.703±0.030C100（D）0.588±0.0110.591±0.0170.607±0.010 0.614±0.016C2（R） 0.730±0.0280.724±0.0200.748±0.0070.756±0.017C10（R） 0.690±0.0110.681±0.0110.702±0.0150.715±0.008S10（R） 0.641±0.0210.634±0.0240.645±0.0290.659±0.020C100（R）0.563±0.0150.565±0.0220.587±0.017 0.596±0.016附录M，比较有无BSN的消融研究。Imratio=1%的DenseNet 121/ResNet 20的结果报告于表1中。由于篇幅有限，我们将imratio=10%的结果推迟到附录H。总的来说，我们观察到在大多数情况下，AUC-M和AUC-S的表现比非基于AUC的损失好得多。将AUC-M与AUC-S进行比较，我们可以看到，AUC-M 在大多数情况下表现更好，尤其是在imratio=1%的极不平衡设置中。我们还在实验室进行了一些消融研究标记数据集，以证明所提出的AUC-M损失与具有添加的简单和噪声数据的DAM的AUC-S损失相比的稳健性，以及对的非负约束的有效性。由于篇幅限制，结果包含在附录N中。4.2. 医学图像分类任务下面，我们呈现了四个困难的医学图像分类任务的结果，即用于检测胸部疾病的X射线图像的分类、用于检测黑色素瘤的皮肤病变的图像的分类、用于乳腺癌筛查的乳腺照片的分类表2中报告了这些任务及其数据的总结。4.2.1CheXpert竞赛CheXpert竞赛是由Stanford ML group [22]组织的医学AI竞赛，该组织发布了用于检测胸部和肺部疾病的大规模胸部X射线数据集[22]。训练数据由来自65，240名患者的224，316张高质量X射线图像组成。验证数据集由来自200名患者的234张图像组成。测试数据包含500名患者的图像，未向公众发布，由组织者维护以进行最终评估。训练图像由标记器注释，以自动检测放射学报告中14个观察结果的存在，捕获放射照相解释中固有的不确定性。验证图像由3名委员会认证的放射科医师手动注释。测试图像由5名委员会认证的放射科医师一致注释。CheXpert图像的平均分辨率为2828x2320像素，比Ima-geNet大约大6倍。比赛要求参赛者提交3049----联系我们表2.医学分类任务摘要数据集图像域Imratio #训练CheXpert胸部X射线20.21% 224，316黑色素瘤皮肤病变7.1% 46，131DDSM+乳房X光检查13% 55，000小块Camelyon显微镜1% 148，960用于评估预测5种选定疾病的AUC评分的训练模型，即，心脏肥大、水肿、实变、肺不张、胸腔积液。这些任务的平均不合格率为20.21%。他们还报告了另一个度量标准，该度量标准将模型的性能与3位放射学家的预测进行了比较，模型预训练。为了处理CheXpert中的不确定数据，我们采用了与 works [31] 中我们选择五个网络：DenseNet 121，DenseNet 161，DensNet 169，DensNet201和Inception- renset-v2[21，36]。在有限的资源下，我们将所有原始图像的分辨率扩展到320x320。对于数据扩充，我们使用随机旋转，随机平移和随机缩放。对于预训练步骤，我们在5个分类任务上优化了Adam的CE损失总训练时间为2个epoch，批量大小为32，初始学习率为1 e-5。在AUC最大化的第二步中，我们用随机权重替换第一步中训练的最后一个分类器层，并使用我们的DAM方法来优化最后一个分类器层和所有先前的层。我们在1/300、1/500、1/800中调整ц，将权重衰减λ设置为0，将初始学习率设置为0.1，并将2000、8000次迭代的学习率降低3倍，对于算法1总共运行2个epoch。竞争结果。我们最终提交的是由DAM训练的五个模型的增强，每种疾病的AUC-M损失。2020年8月31日，我们向CheXpert提交了我们的模型，我们的平均测试AUC得分为0.9305，目前在所有提交中排名第一排行榜如 [13] 所示，其中我们的提交被命名为DeepAUC-v1（ensem- ble）。我们还将我们的结果与表3中的其他方法进行了比较，其中分层学习[31]利用领域知识来预先定义用于条件训练的疾病层次，YWW[40]通过新的概率CAM（PCAM）池化算子利用弱监督病灶定位技术来改进模型训练。所有这些解决方案都是由CE损失训练的。我们的基于AUC的解决方案优于这些解决方案，并且对于5种所选疾病，其平均也优于3个放射科医师中的2.8个（NRBC），如表3所示。最后，我们注意到，最近在CheX-pert上优化DAM的AUC平方损失的工作仅实现了0.922的平均测试AUC评分[15]。4.2.2的黑素瘤分类黑色素瘤是一种皮肤癌，是皮肤癌死亡的主要原因[29]。我们进行实证研究表3. CheXpert上的平均检测AUC评分。NBRC意味着3名放射科医生中有#被AI算法。模型AUC NRBC秩斯坦福基线[22] 0.9065 1.8 85[40] 0.9289 2.8 5分层学习[31] 0.9299 2.6 2DAM（Ours）0.9305 2.8 1Kaggle黑素瘤数据集[32]，通过Kaggle竞赛发布。数据被分成33，126个训练图像和584个恶性黑色素瘤图像（不平衡率=1.76%）以及10，892个测试图像和未知数量的黑色素瘤图像。此外，测试集按患者ID以30%/70%的比例分成公共测试集和私有测试集。公共测试集（不是说他们的地面实况标签没有被揭示）用于在早期阶段对参与团队进行排名。私人测试集用于评估参与团队的最终排名。公开的AUC分数每天更新，但私人AUC分数在比赛结束后发布。数据准备。原始数据集具有各种大小的图像，例如，6000x4000，1920x1080。由于计算资源有限，我们将所有图像调整为较低的分辨率为了在本地评估模型，我们按照[8]通过8：2的训练/有效分割构建了一个5重分层无泄漏版本的交叉验证。数据拆分遵循两条规则：1）将来自相同患者的图像放入训练集或验证集中。2)训练集和验证集的不平衡率为1.76%。此外，我们还利用两个外部数据源来补充训练集中提供的数据：1）12，859张来自以往比赛的图像，例如，ISIC2017和ISIC2018，以及2）从国际皮肤成像协作组网站解析的580张恶性黑色素瘤图像[2]。我们合并所有数据源，最终获得46，131张图像的训练集，其中包含一个不平衡的占7.1%。与基线比较。我们首先与上述三个基线进行比较，即，优化 CE 、 Focal 和 AUC-S 损失。我们选择EfficientNet [37]家族作为主要网络。数据增强在这场比赛中非常关键，我们使用了一组增强，例如，水平翻转、旋转、缩放、剪切、粗略丢弃公共笔记本[8]。此外，我们使用循环学习率，基本学习率[34]为3e-5，最大学习率为2.4e-4，一个完整的周期有8个时期。我们使用1 e-5的权重衰减。对于焦点损失[26]，我们调整ц=1，2，5，=0.25，0.5，0.75，并报告了最佳结果。对于非AUC损失，我们总共训练了16个epoch，批量大小为256。对于DAM，我们从通过优化CE损失训练的预训练骨干开始优化。对于AUC损失，我们将ц设置为1/500，其通过交叉验证进行调整。对于AUC裕度损失，我们还调整m=0。3，0。5，0。七，一。0的情况。为了实验我们总共训练了35个epoch，具有相同的批量大小，初始学习率为0.01，每10个epoch减少2倍3050⇥⇤⇥ ⇥ ⇥⇥⇤⇤⇥⇥{}联系我们联系我们联系我们表4.在用于优化EfficientNetB5的黑素瘤数据集上测试AUC的比较。TTA（30）意味着预测平均超过测试集中每个图像的30个增强副本。不含TTA，含TTA（30）损失公共私人公共私人CE0.93910.92850.94470.9345焦0.94120.92660.94240.9303AUC-S0.94820.93320.95020.9364AUC-M0.94970.93570.95030.9393AUC-S（Meta）0.94950.93580.95010.9409AUC-M（Meta）0.95220.93800.95200.9423我们的提交--0.96850.9438使用算法1。此外，我们发现患者级信息（元数据）是有用的，例如，年龄、性别和成像部位的位置。为了利用元数据，在训练EfficientNet之后，我们将其与具有0.5：0.5加权比的2层神经网络（256x128）合并，该神经网络结构如附录L中的图6所示。不同的方法之间的比较学习EfficientNet-B5的大小调整图像与固定分辨率384 384在表4中给出。对于每种方法，我们报告了四个数字，代表在公共测试数据（在竞争的早期阶段）和私人测试数据（最终排名）上的表现，有/没有测试时间数据增强。TTA）[33]。我们可以看到，DAM方法在最小化CE和Fo- cal损失方面优于标准DL方法。此外，AUC Margin损失优于AUC Square损失。我们还绘制了我们的最佳DAM方法（AUC-M+Meta）与标准DL方法（CE损失）的训练数据预测直方图，见附录J的图4。我们可以看到，通过DAM方法的预测具有两个良好分离的模式，对应于正数据和负相比之下，通过优化CE损失的预测更加混合在一起。竞争结果。对于本次比赛的最终提交，我们使用集成方法。我们训练不同的网络，包括EfficientNet（B3，B5，B6）和不同的分辨率，即，256 256，384384，512 512，768 768。我们的最终结果是10个模型的平均值，也在表4中报告。我们的方法在公

下载后可阅读完整内容，剩余1页未读，立即下载