罕见遗传疾病的模型集成方法的研究

21 浏览量更新于2023-10-16 收藏 995KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5018使用模型集成哈斯汀1岁，赫尔曼2岁，苏美尔2岁，贝南1岁，伊丽莎白2岁，彼得1岁，谢宗谦1岁1波恩大学波恩大学医院基因组统计和生物信息学研究所2以人为中心的人工智能主席，奥格斯堡大学{ahustinx，b-jav，pkrawitz，thsieh} @ uni-bonn.de{oemer.suemer，fabio.hellmann，andre} @ informatik.uni-augsburg.de摘要罕见遗传病影响全球6%以上的达到诊断是具有挑战性的，因为罕见疾病是非常多样化的。许多疾病具有可识别的面部特征，这是临床医生诊断患者的提示。先前的工作，如 GestaltMatcher ，利用 DCNN 模拟AlexNet产生的表示向量来匹配高维特征空间中的患者，以支持 “ 看不见的 ” 超罕见疾病。然而，GestaltMatcher中用于迁移学习的架构和数据集已经过时了。此外，还没有研究训练模型以生成用于看不见的超罕见疾病的更好的表示向量的方法。由于超罕见疾病患者的整体稀缺性，直接训练他们的模型是不可行的。因此，我们首先分析了用最先进的人脸识别方法iResNet with ArcFace替换GestaltMatcher DCNN的影响。此外，我们还尝试了不同的人脸识别数据集进行迁移学习。此外，我们提出了测试时间增强和模型集成，该模型集成混合了一般面部验证模型和特定于验证疾病的模型，以提高看不见的超罕见疾病的疾病验证准确性。我们提出的集成模型在可见和不可见的疾病上都实现了最先进的性能。代码可在www.example.com上获得github.com/igsb/GestaltMatcher-Arc。1. 介绍超过6%的全球人口受到罕见遗传疾病的影响由于遗传性疾病的罕见性和多样性，达到诊断是具有挑战性和耗时的。超过三分之一的患者等待超过五年才能得到诊断，通常被称为许多疾病具有独特的* 通讯作者。图1.我们方法的模型集合。我们首先执行测试时间扩增，以将测试图像扩增为四个图像（彩色和水平翻转）。四个增强图像进一步编码的三个不同的模型到12个表示向量。然后，我们将12个表示向量的余弦距离与来自图库中的N个它产生了12个距离向量，每个vector包含N个余弦距离。最后，我们对 12 个距离向量（X<$）进行平均，以获得最终的距离向量r，进一步对图库中的N个图像进行具有较小距离的图库图像与测试图像更相似。畸形的面部特征，这些特征（完形）是临床医生诊断患者的提示。然而，识别呈现在患者面部上的面部完形随着计算机视觉的最新进展，已经出现了许多下一代表型分析（NGP）方法，通过分析患者的2D额叶图像来预测罕见疾病之间DeepGestalt [14]利用迁移学习在CASIA [34]上训练深度卷积神经网络，并对超过17，106个患者的216种疾病的额叶图像进行进一步微调它实现了91%的前10名的准确率在测试集的502图像与92种不同的疾病，甚至出-5019做人类专家。尽管DeepGestalt在预测这些疾病方面表现出了非凡的准确性，但它只能对训练期间看到的疾病进行分类，而训练过的综合征只是所有遗传疾病中的一小部分。如果这些疾病非常罕见或新颖，由于缺乏图像，我们无法将其纳入模型训练中。这些“看不见的”综合征在现实世界中经常发生（补充图S1）。因此，一种支持看不见的综合征的方法变得至关重要。为了支持看不见的综合征，GestaltMatcher被提议作为DeepGestalt的扩展，将DeepGestalt中分类层之前的特征层作为学习面部畸形特征的编码器[17]。它将正面图像编码成320维的表示向量。这些表示向量进一步跨越特征空间。所有患有遗传疾病的患者都可以在这个空间中进行匹配或聚类，不再局限于网络训练（看到）的疾病。然而，DeepGestalt和GestaltMatcher都使用了Yi等人提出的迁移学习的架构和数据集。[34]2014年从那时起，提出了许多更大的人脸识别数据集[1，3，6]和更先进的架构和损失函数[6，9，15，24，32]，这些都在人脸验证任务上实现了更高的性能因此，本研究的第一个目的是通过使用iResNet [9]和ArcFace [6]更新架构，并研究使用不同人脸数据集进行迁移学习的影响此外，还没有研究过一种方法来训练模型，为看不见的超罕见疾病生成更好的特征表示。因此，第二个目标是研究不同的训练设置，以了解我们如何为看不见的疾病获得更好的特征表示。我们的研究结果表明，对疾病数据集的微调因此，我们提出了一种模型集成，将人脸验证和无序模型相结合，以提高可见和不可见的性能综合征（图1）。本文的主要贡献如下：• 我们分析了更新用于迁移学习的架构、损失函数和人脸数据集的影响• 我们研究了训练设置，以生成更好的特征表示，用于看不见的超罕见疾病。• 每个更新的个体模型都优于GestaltMatcher基线模型[17]。• 我们提出了一种模型集成，将一般的人脸验证模型和特定于验证疾病的模型混合在一起，以提高看不见的超罕见疾病的疾病验证所有实验均在GestaltMatcher数据库（GMDB），可供医学相关研究团体使用2. 相关作品2.1. 下一代表型分析许多罕见的遗传性疾病呈现出可识别的面部特征，也称为“面部完形”。例如，唐氏综合症患者有一个独特的面部完形。识别患者面部中所示的面部完形有助于临床医生诊断患者。然而，它高度依赖于临床医生的经验。当疾病非常罕见或新颖时，临床医生很可能以前没有见过这种疾病。因此，分析患者2D正面照片以促进诊断的下一代表型分析方法变得至关重要。2014年，Ferryet al.利用从训练的主动外观模型导出的形状和外观表示向量，并使用用于疾病分类的表示向量进一步构建了他们称为“临床面部表型空间”（CFPS）的特征空间他们在8种综合征的1,363张图像和来自健康个体的1,515张图像上训练了该模型，这是第一项分析相对较大队列的研究。随着计算机视觉的快速发展，已经提出了许多使用深度卷积神经网络（DCNN）的方法。Shukla等人[28]在整个面部和LFW的四个不同面部区域（右上，左上，右下和左下）上训练AlexNet [20][19]，并将五个表示向量连接成一个20，480维向量。最后，使用支持2019年晚些时候，DeepGestalt [14]利用迁移学习在超过17，106张患者照片上训练DCNN，其中包括216种不同的疾病，显示出高预测准确性，优于临床专家。Hong等人[16]还使用迁移学习对228名遗传性疾病儿童和228名健康儿童进行微调VGG-16 [29]它进行了可用于筛选的二元分类（有/无遗传然而，罕见疾病的患病率高度不平衡（补充图S1）。具有足够照片以被包括用于训练DCNN的疾病的数量在所有遗传疾病中是相对小的比例。影像很少的共病或新的共病不适合分类。因此，Marbachet al.[26]通过使用FaceNet编码的面部嵌入，证明了将两名不相关的患者与一种新型疾病相匹配[27]。此外，vander Donket al. [31]将由正常人脸识别模型编码的人脸嵌入和由disorders训练的模型连接起来。他们进一步进行了聚类分析，以验证具有显著面部完形的给定队列在那里-5020因此，生成概括了用于看不见的超罕见病症的畸形面部特征的面部嵌入对于罕见病症分析是必要的。2.2. 深度完形DeepGestalt由FDNA Inc.提出其被认为是当前最先进的疾病分类框架[14]。它使用了Yi等人提出的架构。[34]在CASIA [34]上进行训练，以学习一般面部特征作为迁移学习的基础，然后在具有216种不同疾病的17，106张患者图像上对网络进行微调。该架构类似于AlexNet，由十个卷积层组成，其中每两个卷积层后面是一个池化层，并优化了Softmax损失函数。Gurovich等人提出了一种集成方法，首先将人脸裁剪成多个区域。上述架构用于为每个面部区域训练模型。最后，它聚合从每个区域获得的softmax值来执行诊断。它显示了91%的前10名的准确率在测试集的502张图像与92种疾病。除了预测疾病，它还展示了对疾病亚型进行分类的能力。DeepGestalt被成千上万的临床医生用于日常诊断，并进一步整合到外显子组测序分析中，以促进分子水平上的诊断[18]。然而，正如前一节简要讨论的那样，DeepGestalt并不适用于训练过程中看不见的超罕见因此，完形匹配理论被提出来克服这一局限性.2.3. 完形匹配器GestaltMatcher [17]是DeepGestalt方法的扩展。它使用相同的架构和人脸数据集（CASIA）作为迁移学习的基础。训练后，它将分类层之前的最后一个320维全连接层作为特征层，并将其用作编码器，将每个图像编码为320维表示向量。表示向量进一步跨越CFPS。在CFPS中，患有罕见疾病的患者可以与其他类似患者相匹配。此外，可以进行聚类分析以分析不同疾病之间的相似性。GestaltMatcher已在多项研究中用于分析患者相似性[2，10，13]。GestaltMatcher的优点是它不再局限于训练过程中看到的障碍，它使研究人员能够量化患者与患者或症状与症状的相似性。然而， Gestalt-Matcher使用了与DeepGestalt相同的架构和预训练数据集，这些都相对过时。因此，需要进行一项研究，以更新架构，并探索提高看不见的超稀有数据集图像数量人数VGG2 [3]3.31M9,131中国航天[34]0.49M10,575MS1MV2 [6]5.8M85KMS1MV3 [6]5.1M93KGlint360K [1]17M360K表1.人脸数据集的概述紊乱验证3. 数据集和方法3.1. 数据集3.1.1人脸识别数据集在本文中，我们使用五种不同的人脸识别数据集进行了实验，用于训练（trans-fer learning）基础模型：VGG 2 [3]、CASIA [34]、MS 1 MV 2 [6]、MS 1 MV 3[6]和Glint 360 K [1]。CASIA数据集的全称是CASIA-WebFace。本文以CA-SIA为简称.数据集中的图像数量范围从0.49 M到17 M。数据集概述见表1。3.1.2GestaltMatcher数据库-罕见疾病数据集Hsieh 等人 [17] 建立了 GestaltMatcher 数据库 1（GMDB），该数据库收集来自出版物和患者的罕见疾病的医学图像，并获得诊所的适当同意。它对临床医生和研究人员开放，在医学研究领域。为了避免数据滥用，申请人需要在访问数据库之前由GMDB委员会进行审查。我们使用GMDB（v1.0.3）对患有疾病的患者的面部基础模型进行微调。GMDB（v1.0.3）包含5，995名患者的7，459张额叶图像，其中包括449种不同的疾病。所有的疾病都至少有两个病人。将数据集进一步分为两个集合，超过6名患者的疾病被分配为GMDB-频繁，而6名或更少患者的疾病被分配为GMDB-罕见。在GMDB-常见中有5，123例患者的6，354张图像，其中204种我们对GMDB-Frequent的基础模型进行了微调，因此该集合中的疾病可以被认为是对于训练，GMDB-频繁被进一步划分为用于训练集的5，100个图像另一方面，GMDB-Rare我们使用GMDB-Rare来模拟1https://db.gestaltmatcher.org/5021∈Σ1NΣ数据集图像数量患者数量疾病GMDB-Frequent ）、 GMDB-Rare ）或统一的图库（GMDB-Frequent and -Rare）。然后对测试图像的特征向量进行匹配到功能空间中的画廊案例。为了看不见的考验图像，进行10倍交叉验证。我们首先计算测试表2. GMDB数据集概述。GMDB-Frequent用于微调，因此图像和画廊中的每一幅图像。余弦距离进一步对图库图像进行排名。Hsieh等人[17]显示了可见和不可见失真的测试图像的前k（k[1，5，10，30]）平均精度（如公式1所述）。相反，我们专注于本文中的前1名和前5名结果，尽管前10名和前30名包含在补充表中。GestaltMatcher DCNN2 （ GM-Hsieh 2022 ）被用作基线，在最近版本的GMDB上重新训练它。mAkC=CAk，cC、（1）图2. GMDB分布紊乱。X轴显示疾病患者的数量。Y轴显示疾病数量，X轴显示相应的患者数量，并以对数标度表示。黑色条是罕见集（GMDB-罕见），具有多于一名患者和少于七名患者的疾病超罕见或新的疾病在现实世界的情况下。GMDB数据集的概述如表2所示。在图2中，GMDB显示了长尾分布。 GMDB-Rare 仅占所有患者的 14.5%（872/5995），但它覆盖了54.5%的疾病。GMDB的分布与真实世界中疾病患病率的估计值相似（补充图S1）。3.2. 评价其中，mAk是前k个平均精度，C是类别数，c是类别索引，Ak，c是类别c的前k个精度。3.3. 模型架构和培训我们的模型架构是基于邓等人所使用的。[6]的文件。他们使用了ResNet架构的一个流行变体，名为iResNet [9]。它包括更多的批处理规格化。除了原始的实现之外，它还用PReLU替换了ReLU激活函数，最后，它批量规范化了计算的表示向量。培训过程分为两个步骤：• 在用于迁移学习的人脸识别数据集上训练基础模型• 在GMDB上对基本模型进行微调，以进行无序验证。对于第一部分，我们使用了由insightface3提供的预训练模型，这些模型已经在不同的人脸识别数据集上使用加性角余量损失（Arc Face）进行了训练。损耗由等式2定义。我们评估了基础模型在1Σescos（θyi+m）Labeled Faces in the Wild（LFW）[19]。在评估过程中，比较了两张脸，模型验证了它们是否属于同一个LArc=− Ni=1日志 escos（θyi+m）+nj=1，j=yi、escosθj（二）人.评价集由11倍组成，其中第一个用于建立阈值，而其余10倍用于最终评价。最重要的是，我们使用GMDB来评估基本模型，我们的微调模型，并最终模型合奏。在评估过程中，特征空间填充有诊断患者特征向量的图库集其中θj是权重Wj和特征之间的角度Xi.我们插入角边距m以获得真实logit y i和我们的表示向量之间的新角度，从而成为θyi+m。s是L2归一化表示向量的尺度。预训练模型使用m和s分别设置为0.5和使用这种损失学习的表征倾向于2https://github.com/igsb/GestaltMatcher3https://github.com/deepinsight/insightfaceGMDB-Frequent6,3545,123204GMDB-罕见1,105872245总7,4595,9954495022与大多数其他度量学习损失相比，在不同类之间具有更强的区别，并且对于相同类具有更好的相似性insightface训练过程中一个重要的预处理步骤这种对齐对于再现其性能至关重要。对于我们的实现，我们使用RetinaFace [5]来获得这些地标及其提供的对齐代码，该代码使用基于匹配地标位置的仿射变换。对于第二部分，我们对模型架构进行了微小的更改。我们删除了计算特征的批量归一化。这种规格化对于ArcFace是必要的，我们在微调时没有使用。相反，由于数据集大小小，类别不平衡和长尾分布，我们决定只优化加权交叉熵Softmax损失（WCE）。为了解决类别不平衡的问题，我们使用等式3来计算类别权重，将它们转换为范围（0. 5、……1.一、0]。W=0。5·min（D）+0. 第五条，第（三）项cDc其中D是每个类别的频率集合，c是类别，Wc是类别c的WCE权重。如果没有我们的下限W c>0。5，由于长尾分布，W c可能低于0。01. 这将使培训过程具有挑战性。我们还替换了最终的全连接层，以训练训练集的疾病分类器。最后，我们冻结了除特征和分类层之外的我们在GMDB上微调了我们的模型，使用大小为112 x112的对齐面，随机水平翻转，随机将彩色图像转换为灰色，颜色抖动，并随机添加缩放/裁剪伪影。我们进一步使用了Adam优化器，其基本学习率为1 e-3，当验证集上的前5个平均准确度趋于稳定时，该学习率降低了2倍，使用公式1计算平均准确度。代码可在github.com/igsb/GestaltMatcher-Arc上获得。3.4. 推理策略我们的方法的一个重要部分是我们的推理策略。我们的目标是通过计算每个图像的多个表示向量来提高我们对可见和不可见疾病的性能，旨在最终获得比每个单独表示向量更好的整体排名我们采用了两种方法来获得每个图像的多个表示向量：模型集成和测试时间增加。3.4.1模型合奏模型集成是组合每个模型的输出的模型的混合这种方法有助于实现更好的整体泛化，因为它利用每个模型在我们的例子中，我们用相同的图像表示对于我们的集成，我们考虑了针对疾病进行微调的模型和针对面部验证构建的模型。人脸验证模型产生了强大的一般特征，可以用来验证看不见的疾病，而微调模型则适合于他们已经训练过的疾病特征。更具体地说，我们包括一个人脸验证模型，一个更深层次的无序模型（使用iResNet-100），以及一个疾病模型（使用iResNet-50），其被设计为不太倾向于对所看到的疾病进行过拟合。有关所选型号的更多详细信息，请参见第4节。3.4.2测试时间增加测试时间增加（TTA），类似于模型集合，结合输出，以实现更强大的性能。然而，它并没有用相同的图像呈现不同的模型，而是用图像和该图像的增强版本（例如，水平翻转、从彩色转换为灰色、旋转和平移）。理想情况下，表示向量将接近相同，因为它们来自相同的图像，并且实际面部不会改变。实际上，情况通常并非如此。这有助于平均图库和测试集之间的余弦距离。当然，在TTA期间，并不是所有的增强都有意义。任何改变面部结构或影响所需面部对齐的增强一般来说，在训练期间使用的增强非常适合TTA。因此，我们使用了水平翻转和从彩色到灰色的转换。最后，我们平均了集合中所有模型的余弦距离三个模型和每个两个TTA，3x2x2=12个余弦距离）。通过图库图像到测试图像之间的平均余弦距离的k-最近邻来确定用于验证的我们决定使用k= 1，因为GMDB中的数据高度不平衡（因此也在图库集中）。对于在图库集合中仅出现一次的紊乱，使用k >1将是有问题的图1给出了这些推理策略如何工作的简单视图。50234. 实验和结果4.1. 更新架构和基础优化我们假设用最先进的人脸验证模型替换GestaltMatcher首先，我们比较了GM-Hsieh 2022模型的性能，使用类似AlexNet的架构和交叉熵损失，与iResNet-50和ArcFace，两者都在 CASIA上训练。之后，我们在GMDB上对这些模型进行了微调。在微调过程中，两个模型都只使用加权交叉熵。基础模型和微调模型的结果见表3。该表的扩展版本见补充表S1，使用统一图库时的性能见补充表S5。我们发现，ArcFace基础模型生成的特征通常比GM-Hsieh 2022基础模型的特征更具描述性这得到了更高的LFW性能和GMDB上更高的整体性能的支持，而无需进行微调。在表3中，当我们将模型从GM-Hsieh 2022更新为ArcFace-r50时，LFW 准确度从93.8%增加到98.4%，并且可见（GMDB-频繁）和不可见（GMDB-罕见）疾病的前1和前5准确度都得到了改善。经过微调后，GM-Hsieh 2022模型在GMDB-Frequent和GMDB-Rare上都有所改进。ArcFace模型显著提高了对可见无序的性能，同时降低了对不可见无序的性能。我们认为这表明该模型在小数据集上比GM-Hsieh2022模型具有更高的过拟合倾向。虽然GMDB-Rare的性能在微调新模型（ArcFace-r50*）后下降，但前1和前5的准确度仍然与[17]（GM-Hsieh 2022 *）微调的GestaltMatcher相似。型号LFWGMDB-FrequentGMDB-罕见前1前5前1前5GM-Hsieh 202293.8% 10.99%百分之二十九点三九14.64% 27.03%GM-Hsieh 2022*-15.96%33.83%19.26% 36.28%ArcFace-R5098.4% 21.84%百分之四十点八七22.74% 37.35%ArcFace-r50*-35.37%53.25%19.29% 36.00%表3. GM-Hsieh 2022模型和ArcFace-r50模型在LFW和GMDB上的性能比较。两者都已经在CASIA上进行了预训练，并且标有（*）的模型已经在GMDB上进行了微调对于每一列，微调之前和微调之后的模型之间的最佳精度用黑体表示。图3.使用不同数据集时GMDB上ArcFace-r50基础模型的平均精度X轴显示数据集中的个体数量Y轴显示使用不同基础数据集的模型的平均淡橙色和蓝色的线表示对数关系。4.2. 更新迁移学习数据集我们假设增加迁移学习基础数据集中的个体数量将导致更好/更一般的（面部）特征描述符。然而，我们预计当无限期地增加个体数量时，性能增益会有所下降。为了验证这一假设，我们将LFW和GMDB的性能与五个著名的人脸识别数据集进行了比较：VGG2，CASIA，MS1MV2，MS1MV3和Glint360K。的结果示于表4和图3中。该表的扩展版本可以在补充表S2中找到，使用统一图库时的性能可以在补充表S6中找到。图3显示了每个基本数据集关于数据集中唯一个体数量表4显示，在具有更多不同个体的数据集上训练的ArcFace-r50 基础模型在微调之前倾向于在 GMDB-Frequent和GMDB-Rare上实现更高的准确性我们还发现，根据图3所示的对数关系，当增加个体数量此外，我们发现，当使用更大的数据集时，微调后GMDB-频繁的准确性并不总是提高例如，在表4中，Glint 360K * 的前1和前5精度低于MS 1MV 3 * 的精度，其分别从45.06%下降到41.58%然而，当我们使用更大的数据集来训练ArcFace-r50基础模型时，微调后的GMDB-Rare的准确性总是有所提高。的结果显示的两 GMDB-Frequent和5024→数据集LFWGMDB-Frequent GMDB-Rare表4.在各种人脸识别数据集上训练的ArcFace-r50模型的性能比较。括号内的百分比表示面部验证（基础）和微调模型之间的变化。例如，从VGG 2到VGG 2 *，GMDB-Frequent的前1准确率提高了11.98%（15.52% 27.50%）。标有（*）的型号已在GMDB上进行了微调。LFW型GMDB-频繁GMDB-罕见前1前5前1前5r50 84.9% 41.58%62.60%26.55% 42.69%r50-D/O86.2%66.07%28.85% 45.36%r50-D/O†87.6%44.33%65.76%29.06% 46.35%R10091.0% 47.96% 68.87%26.03% 42.22%r100-D/O91.1% 48.37%71.78%28.02% 44.32%r100-D/O† 93.0% 49.25%69.95%30.33% 47.85%表5.在GMDB上微调的iResNet-50和-100的性能比较。D/O表示额外的dropout层，（†）表示在特征层上使用L2权重衰减。对于每一列，模型中最好的准确度（没有正则化，D/O和D/O†）是粗体的。GMDB-Rare受益于使用更大的数据集来训练ArcFace-r50基础模型，特别是对于看不见的疾病（GMDB-Rare）。此外，可能不需要使用大于Glint360K的人脸识别数据集，因为当数据集中的个体数量大于1M时，性能增益似乎饱和4.3. 微调ArcFace对GMDB的影响在早期的实验中，我们看到微调GMDB上的Arc-Face降低了看不见的疾病（GMDB-Rare）的准确性。我们认为，微调GMDB上的特征表示层将通过在小的不平衡数据集上（过度）拟合而对一般特征描述符的质量产生负面我们相信这应该反映在LFW的准确性上。因此，我们在GMDB上对在CASIA、VGG2、MS1MV2、MS1MV3和Glint 360K上训练的ArcFace模型进行了微调，然后在LFW和GMDB上对其进行评估。结果示于表4中。的扩展版本表可在补充表S2中找到，使用统一图库时的要求可在补充表S6中找到根据表4中的结果，我们发现微调降低了每个模型在看不见的疾病（GMDB-罕见）上的性能，以及LFW上的一般面部验证性能。然而，使用较大基础数据集的模型的性能仍然优于这些未发现的疾病的基线。4.4. 在微调期间进行额外的正则化，以提高不可见疾病我们相信，在前面的实验中显示为不可见的疾病的准确性下降的过拟合，可以通过以 L2权重衰减和dropout的形式向特征层添加额外的正则化来减少我们对在Glint 360 K上预训练的iResNet-50和iResNet-100ArcFace模型进行了微调，以包括特征层的额外dropout和ad-10L2权重衰减（λ= 5e−5）。结果示于表5中。该表的扩展版本可参见补充表S3，使用统一图库时的性能可参见补充表S7。我们发现，使用额外的辍学提高了准确性的可见和不可见的疾病。在特征层上附加L2权重衰减有助于保持部分LFW性能，在某些情况下，是对丢弃的改进。例如，当将L2权重衰减应用于r100-D/O时，GMDB-Frequent的top-1准确率从48.37%增加到49.25%。虽然对可见疾病（GMDB-频繁）的L2重量衰减的改善尚不确定，但对不可见疾病（GMDB-罕见）的改善是明确的。Top-1Top-5Top-1Top-5VGG2百分之九十八点五百分之十五点五二31.56%20.31%33.57%Casia百分之九十八点四21.84%百分之四十点八七22.74%37.35%MS1MV2百分之九十九29.14%百分之四十八点八六百分之二十九点零四44.74%MS1MV3百分之九十八点九31.54%49.36%29.52%46.36%Glint360K百分之九十九32.43%53.14%33.00%47.62%VGG2*85.8%（-12.7%）27.50%（+11.98%）49.92%（+18.36%）17.56%（-2.75%）33.41%（-0.16%）CASIA*75.7%（-22.7%）35.37%（+13.53%）53.25%（+12.38%）19.29%（-3.45%）36.00%（-1.35%）5025模型数据集丢失GMDB-频繁GMDB-罕见表6.比较GM-Hsieh 2022（基线）模型，在GMDB上微调的两个ArcFace模型，一个ArcFace人脸验证模型以及使用三个ArcFace模型的模型集成的性能TTA表示使用测试时间增强对模型进行了评估，（*）表示在GMDB上对模型进行了微调，（D/O）表示额外的dropout层，（†）表示在特征层上使用了L2权重衰减。4.5. 推理策略我们相信3.4节中讨论的推理策略将提高大多数模型的准确性。我们假设用图像和该图像的轻微变化来呈现我们的模型将增加聚类的鲁棒性。最重要的是，将我们在GMDB上微调的疾病模型与一般的人脸验证模型相结合，将提高可见和不可见疾病的泛化能力和鲁棒性。表6显示了基线（GM-Hsieh 2022）、在有和没有TTA的情况下的集合中使用的每个模型以及有和没有TTA的模型集合的性能该表的扩展版本可以在补充表S4中找到，使用统一图库时的性能可以在补充表S8中找到。在表6中，我们发现TTA几乎提高了每个测试组的表现。应用TTA后，只有r100-D/O的GMDB-Frequent和GMDB-Rare的前5个准确度和前1个准确度下降。此外，除了GMDB-Frequent上的前5名准确率外，模型集成在几乎每个测试组中都优于单个模型模型集合的GMDB-Frequent的前5名准确率为70.70%，略低于r100的71.78%（r100- D/O）。最后，结合模型集成和TTA进一步提高了性能，达到了最先进的水平。当将具有TTA的模型集成与GM-Hsieh 2022模型进行比较时，在GMDB- 频繁和 GMDB-罕见上，前 1 准确度分别从15.96%提高到52.99%和19.26%提高到35.98%，显示出对可见和不可见疾病的强大性能。5. 结论和未来工作我们发现，使用具有更多个体的人脸识别数据集会导致更广义的表示向量，这反过来又为迁移学习奠定了良好的基础。在GMDB上使用ArcFace iResNet对迁移学习数据集进行微调，导致对可见疾病的性能显着提高，对不可见疾病的性能下降后者可能是由于过度拟合所看到的使用正则化技术，如dropout和L2权重衰减，可以帮助减少过拟合的影响，提高看不见的疾病的性能此外，使用TTA提高了所有模型的性能。接下来，将一个人脸验证模型和两个无序验证模型组合在一个模型集合中，使我们能够利用它们在可见和不可见的无序方面的优势。总之，每个模型与TTA和没有TTA，我们的模型合奏优于GM-Hsieh 2022，其中模型合奏达到最先进的性能。我们相信这项工作可以作为未来在这一新兴领域进行比较的一个强有力的基线。在这项研究中，我们关注的是疾病患者数量的不平衡。然而，Lumakaet al.报告称，DeepGestalt的性能因训练集中种族群体的不平衡而存在偏差[25]。因此，考虑到种族、性别和年龄的不平衡的方法是重要的。此外，我们只讨论了具有 ArcFace 和交叉熵的iResNet 。需要对不同的架构和损失函数（如EfficientNet [30]，CosFace [32]和SphereFace [24]）进行基准测试，以更多地了解如何为未观察到的疾病获得更广义的表示向量。此外，使用不同的表示向量维数和降维方法也是一种可能性，以进一步优化的特征表示看不见的疾病。Top-1Top-5Top-1Top-5GM-Hsieh 2022CASIA*CE15.96%33.83%百分之十九点二六36.28%r50-D/O†Glint360K*CE44.33%65.76%百分之二十九点零六46.35%r50-D/O + TTAGlint360K*CE47.73%67.67%30.29%46.38%r100-D/OGlint360K*CE百分之四十八点三七71.78%百分之二十八点零二44.32%r100-D/O + TTAGlint360K*CE51.16%69.58%百分之二十七点九二46.26%5026引用[1] Xiang An，Xuhan Zhu，Yuan Gao，Yang Xiao，YongleZhao，Ziyong Feng，Lan Wu，Bin Qin，Ming Zhang，Debing Zhang，and Ying Fu.Partial FC：在一台机器上训练1000万个身份。在2021年IEEE/CVF国际计算机视觉研讨会（ICCVW），第14452021年。[2] MariaAsif，Emrah Kaygusuz，Marwan Shinawi，AnnaNick- elsen，Tzung-Chien Hsieh，Prerana Wagle，BirgitBudde ， JenniferHochscherf ， UzmaAbdullah ， Ste fanH ？ ning ， Chris-tian Nienberg ， Dirk Lindenblatt ，Angelika A Noegel，Ja-nineAlt mulle？r，HolgerThiele，SusanneMotame ny，NicoleFleischer，Idan Segal，LynnPais ， Sigrid Tinschert ， Nadra G Samra ， Juliann MSavatt ， Natasha L Rudy ， Chiara De Luca ， PaolaFortugno ，Susan M White ，Peter Krawitz ，Anna C EHurst ， Karsten Niefind ， Joachim Jose ， FrancescoBrancati，PeterNürnber g，andMuhammadSajidHussain. CSNK2B的基因突变通过破坏经典的wnt信号通路导致一种新的智力障碍-颅指综合征。人类遗传学和基因组学进展，第100111页，4月。2022年。[3] 曹琼，李申，谢伟迪，奥姆卡·M·帕克希，安德鲁·齐瑟曼.VGGFace2：用于识别姿势和年龄的人脸数据集十月2017年。[4] J J Cerrolaza，A R Porras，A Mansoor，Q Zhao，MSummar，and M G Linguraru.使用地标特定的局部纹理描述符识别畸形在2016年IEEE第13届国际生物医学成像研讨会，第1080-1083页，4月。2016年。[5] Jia Guo ， Evangelos Ververas ， Irene Kot- sia ， andStefanos Zafeiriou. RetinaFace：单镜头多层次的面部定位在野外。2020年IEEE/CVF计算机视觉和模式识别会议（CVPR），第5202-5211页[6] 邓健康，贾国，薛念南，Stefanos Zafeiriou。ArcFace：用于深度人脸识别的附加角余量损失。在IEEE计算机学会计算机视觉和模式识别会议论文集，2019年6月，第4685-4694页。IEEE计算机学会，2019年6月。[7] TracyDudding-Byth 、 Anne Baxter 、 Elizabeth GHolliday、Anna Hackett、Sheridan计算机面部匹配技术使用二维照片精确地匹配具有相同综合征形式的智力残疾的无关个体的面部完形BMC Biotechnol. ，17（1）：1-9，2017.[8] Dat Duong ， Ping Hu ， Cedrik Tekendo-Ngongang ，Suzanna E Ledgister Hanchard，Simon Liu，Benjamin DSolomon，and Rebekah L Waikel.神经网络用于遗传综合征衰老的分类和图像生成。前面Genet. ，13，2022。[9] Ionut Cosmin Duta，Liu，Fan Zhu和Ling Shao。用于图像和视频识别的改进残差网络。第9415-9422页，2011年1月2021年。[10] Fr e'd e' ricEbstein，S e'bastienKu？y，VictoriaMost，CoryRosenfelt，Marie-Pier Scott Boyer，Geeske M van Woer-den，Thomas Besnard，Jonas Johannes Papendorf，MajaStudencka-Turski，Tianyun Wang，Tzung-Chien Hsieh，Richard Golnik，Dustin Baldridge，Cara Forster，Char-Chaude Konink ， Selina M W Teurlings ， PuninieVignard ， RichardHvanJaars v eld ， Lesl e yAdes ，BenjaminCog ne' ，Cyril Mignot，Wallid Deb，MarjolijnC J Jongmans，F Ses- sions Cole，Marie-Jose 'H van de

下载后可阅读完整内容，剩余1页未读，立即下载