基于标签分布学习的痤疮图像分级和计数的多任务学习方法

79 浏览量更新于2023-10-16 收藏 891KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10642通过标签分布学习的联合痤疮图像分级和计数吴晓萍1人，倪文2人，梁杰1人，赖玉坤3人，佘东宇1人，程明明1人，杨巨峰1人1南开大学计算机科学学院2北京清华长庚医院3卡迪夫大学xpwu95@163.com，nini1992713@126.com，liang27jie@163.com，LaiY4@cardiff.ac.uk，sherry6656@163.com，{cmm，yangjufeng} @ nankai.edu.cn摘要皮肤病严重程度的准确分级对患者的精确治疗起着至关重要的青春期痤疮是最常见的皮肤病，可以通过循证皮损计数和经验进行分级-（一）D（b）第（1）款轻度中度D严重D非常严重D基于医学领域的全局估计。但由于对于严重程度接近的痤疮的外观相似性，准确地计数和分级痤疮是具有挑战性的。在本文中，我们通过标签分布学习（LDL）解决痤疮图像分析问题，考虑到（c）第（1）款...D...4 Number严重程度...D...12号严重程度...D...21号严重程度...D...54Number严重程度痤疮严重程度之间的模糊信息。基于专业分级标准，我们分别考虑了皮损相似数量与痤疮严重程度之间的关系，生成了两个痤疮标签分布。我们还提出了一个统一的框架，联合痤疮图像分级和计数，这是优化的多任务学习损失。此外，我们进一步构建了ACNE04数据集，并对每张图像的痤疮严重程度和病变数量进行了注释，以进行评估。实验表明，我们提出的框架表现良好，对国家的最先进的方法。我们在https://github.com/xpwu95/ldl上公开提供代码和数据集。1. 介绍皮肤病严重程度的自动分级在医学领域具有重要寻常痤疮，通常称为痤疮，是最常见的皮肤病，其在青春期具有患病率高峰[28，33]。大约80%的青少年患有痤疮[9]，3%的男性和12%的女性的症状持续到成年[23]。因此，有大量痤疮患者迫切需要特殊治疗，因为痤疮也可能留下疤痕和色素沉着，并经常导致相当大的自卑和抑郁情绪[48]。痤疮的危害*平等捐款（d）其他事项1 5 20 50 65图1.图像示例（a）及其对应的标签分布（b，c）。（b，c）中的X轴分别表示病变的数量和痤疮的严重程度。标签分布覆盖表示每个标签描述实例的程度的几个相邻标签（表示为痤疮图像可以根据病变数量分为不同的严重程度[24]（d）。不同的颜色表示不同的严重程度，蓝色代表轻度，绿色代表中度。对于皮肤科医生做出精确和标准化的治疗决定至关重要[24]。此外，初级皮肤科医生也需要一个客观可靠的诊断参考。皮肤科医生用于痤疮严重程度分级的标准标准是Hayashi标准[24]，该标准结合了病灶计数和总体评估的结果指标。具体而言，痤疮可分为四个严重程度级别，即：根据病变数量分为轻度、中度、重度和非常在过去的几年中，痤疮病变分析取得了重大进展[2，6，16]。大多数方法间接地集中在痤疮病变的分类或检测上，并且通常依赖于手工制作的特征。例如，Abaset al. [1]采用离散小波框架和灰度共生矩阵来提取用于检测痤疮病变的特征最近，卷积神经网络-10643工作（CNN）[39，35，56]在医学成像处理任务中显示出强大的性能，例如，常见胸疾病分类[47]和生物医学分类[8]。然而，当采用CNN进行痤疮图像分析时，存在一些限制首先，严重程度接近的痤疮图像显示出相似的外观，而现有的单标签学习方法（SLL）[25]使用独热向量表示痤疮标签，忽略了模糊性问题，如图所第1（a）段。第二，损伤计数和痤疮分级的任务具有不同的目标，即，分类分数和计数数，不能直接结合用于痤疮严重程度分级。在本文中，我们通过标签分布学习（LDL）[22]解决痤疮图像分析，该学习为每个实例分配一个包含每个标签描述程度的标签分布。而不是使用一个单一的标签痤疮图像，我们提出了两个痤疮标签分布，分别代表病变数量和痤疮的严重程度。如图所示。1（b）中，基于高斯分布生成针对病变编号的标签分布，其中原始主导标签保持最高描述度，远离其的标签具有较低的描述度。对于痤疮严重度，由于属于相同严重度水平的痤疮图像可能具有差异很大的病变数量[24]，因此我们考虑专业医学标准来生成分布，如图所示。第1段（c）分段。我们进一步提出了一个统一的深层框架，具有两个分支，用于关节痤疮严重程度分级和病变计数。计数分支首先预测病变的标签分布，然后根据Hayashi标准将其映射到痤疮严重程度分布[24]。分级分支组合预测的严重性分布和映射的分布以用于痤疮图像分级。然后，我们的框架通过端到端训练的多任务学习损失进行优化。我们的贡献有三个方面：首先，以公认的医学标准为导向，我们提出了一个统一的痤疮严重度分级框架，该框架考虑了痤疮图像分析的全局痤疮评估和病灶计数的过程。其次，我们基于专业分级标准生成两个痤疮标记分布第三，我们收集了一个新的数据集ACNE04，它提供了痤疮严重程度的注释和由专业皮肤科医生注释的病变边界框。实验结果表明，该方法具有良好的与最先进的方法相比2. 相关工作2.1. 医学疾病诊断医学疾病诊断越来越受到视觉界研究者的深度学习-在许多计算机视觉任务上实现显著性能的技术（例如，分类[25，19]、检测[15，14，58]和分割[12，13]）已成功应用于医学领域。专注于医学图像诊断的任务，[10]利用深度CNN从皮肤镜图像中诊断皮肤癌。Wang等人[47]联合训练CNN-RNN模型，实现常见胸部疾病的多标签分类和报告。他们的实验结果显示了深度网络对医学图像的出色特征表示能力在视觉社区中有大量的通用对象识别数据集[36，11]。然而，由于对专业知识和医学经验的要求，采集和注释医学图像是具有挑战性和昂贵的。最近，[41]提出了一个名为SD-198的基准数据集，用于临床图像上的常见皮肤病识别。Wang等人[46]提供具有弱监督注释的胸部X射线8，用于对X射线成像上的常见胸部疾病进行分类和定位。一些相关的工作也证明了专业医学标准对医学疾病诊断的重要性。Yang等[53]设计一种计算机辅助诊断系统，该系统根据不同的标准用几种医学表示来表示皮肤病变，达到与皮肤科医生相当的效果。2.2. 对象计数对象计数技术广泛应用于各种场景，例如人群计数[5，56]和车辆计数[32]。它们主要可分为两类：检测和回归方法。基于检测的机制旨在检测对象的特定位置和大小，然后将建议转换为计数结果。[44，59]首先用于生成潜在的目标提案。然后用手工制作的特征[7，37]或最近的深度特征[35]训练分类器。具有高分类信心的提案将计入最终结果。此外，最先进的对象检测方法[55，34]寻求实时应用的端到端训练架构。基于检测的方法在一定程度上表现良好，但仍存在挑战，例如：在大多数计数情况下，检测到的对象太小。在不考虑对象的详细位置的情况下，基于回归的方法从特征全局估计计数结果[29]。为了保持空间信息，[3，4]考虑从CNN的特征图回归密度图，并实现更准确的性能。在实际应用中，这种大范围的变化也是不容忽视的。[38设计尺度感知网络以适应输入图像中的密度变化。同时，描述具有相邻类别标签的计数图像具有相似特征的固有特性[57]对基于回归的方法很重要。10644∈···∈···∈···XiXi-2XiXiXi图2.拟议框架的编审工作输入图像被调整大小并通过CNN主干模型（ResNet-50 [25]）。然后将框架分为两个分支。分级分支在全球范围内估计痤疮的严重程度。计数分支首先预测痤疮病变计数的标签分布。然后，基于等式（1）将其转换成痤疮严重性的标记分布。3.计数模型同时对痤疮严重程度进行分级并预测病变数量，以提供痤疮诊断证据。最后，将全局分级模型和局部计数模型的预测结果合并，以医学标准为导向。2.3. 标签分布学习为了解决传统单标签学习中存在的标签歧义问题，Genget al. [22，45]提出了一种新的机器学习范例，即，标记为分布学习。LDL不是分配单个标签[25]，而是覆盖一定数量的相邻标签，其中每个标签分别表示对实例的不同描述程度。最近，LDL已被用于很好地解决各种任务中的标签歧义，年龄估计[26，27，54]、头部姿势估计[21]和视觉感知。时间分析[51，52]。许多方法[49，40，18，50]成功地使用高斯函数来生成拉贝尔分布。Geng等[20]建议自适应标签分布学习（ALDL）生成标签分布的损伤计数{（x1，y1，z1），···，（xN，y N，zN）}，其中y是[1，，Y]和Z i[1，，Z]。 Y和Z表示痤疮严重性水平的类别数，病变计数。我们的框架的目标是同时输出痤疮严重程度的分级结果和病变的计数结果作为诊断证据。以下小节分别介绍这两个任务的细节以及最终的多任务学习策略。3.1. 标签分发生成对于输入图像xi，我们利用[17]之后的高斯函数来生成用于损伤计数任务的标签分布痤疮病灶的一个特定计数标签cj对实例xi的描述程度可以被分解为每个年龄段都有不同的形状，即，每个类的高斯函数中的不同方差参数在这确定为：中一.Σ（cj−zi）2在不同的情况下，衰老过程会有所不同。在不同的年龄阶段，ALDL表现良好，有足够的寿命。dxi=<$2πσMexp−2σ2、（1）beled训练数据随后，Houet al. [27]提出了一种利用未标记数据的半监督ALDL方法此外，Gaoetal. [17]使用深度CNN进行标签分布学习其中，j[1，，Z]和所有标签都被用于去记下这个例子。标准差σ是一个超控制分布幅度的参数，本文将其设为3设向量dc=[dc1，···，dcZ]通过最小化预测的表示实例xi在计数中的标签分布-和地面实况分布。在多任务学习中ing任务。标签分发dc由高斯C函数有两个属性。第一个是d j[0，1]场景，我们的框架还探讨了潜在的融合，在培训和测试阶段的多个任务。和Zj=1Xicj=1。标准化因子M确保3. 方法图2示出了我们提出的方法的流水线，其具有用于关节痤疮严重程度分级和LE的两个分支这个属性，其中1M=π2σZj=1.expΣ（cj−zi）22σ.（二）sion计数。给定N个输入训练图像，对应痤疮严重程度和地面事实的单个标签另一个是病灶计数的地面实况标签描述了最高程度，即，描述度全卷积网络KL损失KL损失中度病变：18例训练阶段标签分发生成预测标签分布测试阶段当量3痤疮严重程度...... Number严重程度18例中度. ........SoftmaxSoftmaxD10645DiX我XiD=XiXiXii=[我Xi我XiXiXxii2iizdcj。伯爵的标签离地面更远了我描述度较低。在分级任务中，标签分布是从计数任务转换而来的。具体地，表1示出了图像中的痤疮病变的计数可以根据医学标准映射到痤疮严重程度的特定类别。分级也是必要的，因为Hayashi标准[24]基于整体和局部诊断结果的组合对痤疮严重程度进行对于第i个输入实例xi，其属于每个类别k∈ {1，···，Y}的预测概率计算为：exp（δ）[24]. 则描述度dsk痤疮p（k）=0Kexp（δ、（7））实例xi的严重性标签可以定义为基于医学标准的对应映射间隔φ（k）n=1N其中δk是对应于从最后一个全连接层输出的第k那个...KL发散中ps=[p（1），···，p（Y）]的损失ΣSKXij∈φ（k）dcj，（3）我我形式可以定义为：Lcls（xi，yi）=−我ΣY .Σdsklnp（k） .（八）其中k∈[1，···，Y]。标签分布ds=xiik=1用于评分任务的[ds1，···，dsY]也满足上述两个性质类似于计数任务。3.2. 病变计数对于输入实例xi，其属于每个类j∈ {1，···，Z}的预测概率计算为：3.4.多任务学习模型上面提到的不同损失或任务引导模型专注于痤疮图像的不同方面。例如，分类损失进行全局估计，计数损失倾向于探索特定的局部信息。（j）exp（θj）癌症病变。一种统一的隐性多任务学习策略pi =πZm=1exp（θm）、（四）引导模型学习更鲁棒和更有区别的去特征和分类器的描述。其中θj是对应于从最后一个全连接层输出的第j个类的预测得分。我们应用[17]中的KL损失来最小化地面真实标签分布dc和预测值我们的模型在训练和测试阶段结合了全局和局部特征的优势，用于视觉痤疮表示。在训练过程中，多任务学习损失定义为：计数任务中的标签分布pc=[p（1），···，p（Z）]L（x，y，z）=（1−λ）L（x，z）（9）我我我Z .Σ我我我我λ中国国家电视台我Lcnt（xi，zi）=−dcjlnp（j）j=1.（五）+2（Lcls（xi，yi）+Lcnt2cls（xi，yi）），其中λ的超参数是以下两者之间的权衡：从Hayashi准则[24]观察，我们可以发现计数在以下任务中具有一定的实际意义：计数和分级任务。在测试阶段，该模型合并了分类结果，从评分任务py和计数任务py的信息，痤疮严重程度分级。病变计数的信息可以是潜在地将痤疮分类为四个严重性级别之一（即，轻度、中度、重度和非常重度）。因此我们进一步将预测计数结果p（c）转换为梯度，斯坦茨岛最后的诊断取其平均值1（py+py）。在这种情况下，我们的方法实现了一个端到端的程序，同时对痤疮的严重程度进行分级，并提供病变计数的诊断证据。此外，我们认为，ingresulttpsj∈φ（1）（j）我、···、Σj∈φ（Y）我p（j）]基于它结合了全局估计和病变计数任务在训练和测试阶段。当量3. 然后对评分结果从计数结果转换的可定义为：4. 实验Lcnt2cls（xi，yi）=−ΣYk=1⎛香港九龙Σj∈φ（k）⎞p（j）（六）在本节中，我们详细介绍了实验设置、参数、消融分析以及与最先进方法的比较。3.3.痤疮严重程度分级上一节显示计数任务可以提供痤疮严重程度和病变数Yp10646量相似性的结果。然而，全球痤疮严重程度的程序4.1. 数据集评估为了验证该算法的有效性，促进医学疾病分级的进一步研究，我们建立了痤疮严重程度分级数据集ACNE04。ACNE04数据集包括10647××局部病变数量和整体痤疮严重程度的注释。当专家进行诊断时，在患者同意的情况下，通过数码相机收集具有痤疮病变的根据Hayashi分级标准[24]的要求，所有图像均以与患者正面约70度角拍摄。然后，专家们使用我们提供的注释工具手动注释图像。图3示出了带有注释的几个示例在数据采集和注释过程的双重挑战下，ACNE04包含1457张图像，18983个病灶边界框。为了进行评估，我们将数据集分为80%的训练集和20%的测试集，分别包含1，165和292张图像，如表1所示。按照前面的方法，我们分别为分类和对象计数任务常用的准确度和精度被应用于评估分类性能。考虑到我们的痤疮严重程度分级工作与医学图像处理有关，我们还从医学领域选择了几个重要指标，包括敏感性、特异性和Youden指数。在视觉界，灵敏度通常被称为召回率或真阳性率。特异性是真正的阴性率，反映了正确排除疾病的能力。尤登·因-dex等于（灵敏度+特异性-1），范围为[-1，1]，它代表了二，数量：29数量：61数：7等级：中度等级：重度等级：极重度分类：轻度数量：2等级：非常严重人数：58数量：24人数：10分类：中度等级：重度分类：轻度数量：4图3. ACNE04数据集中的示例。每张图像下的数字分别表示真实严重度和病变编号。黄色边界框表示病变位置。表1.医学标准[24]以及ACNE04数据集的训练和测试分割的统计数据该标准代表了严重程度等级和病变数量之间的培训测试非常严重>50 103 5，965 26 1，522不可知论较大的约登指数表明较高的诊断值，如果它小于或等于0，则诊断完全没有意义。我们采用平均绝对误差（MAE）和均方根误差（MSE）来评估对象计数性能[56，4]。4.2. 实现细节我们架构的骨干是 ResNet-50 [25] ，其参数在ImageNet [36]数据集上进行了预训练。在训练网络之前，我们调整输入图像的大小，224 224 3个像素，并分别将其归一化为RGB通道中的[0，1]范围。我们选择随机梯度下降（SGD）作为模型优化器，并将模型训练120个epoch，以确保训练集上的平均损失是稳定的。动量和权重衰减设置为0。9和5e-4分别。我们从0开始学习率。001，并将其衰减为0。每30个时期5个。我们的算法在具有12GB VRAM的NVIDIA TITAN X GPU上运行。请注意，5折交叉验证适用于稳健性评估。我们提出的算法是基于PyTorch框架实现4.3. 参数在本节中，我们将通过实验讨论λ参数的设置。λ参数是痤疮分级和病变计数任务之间的权衡。较大的 λ使得共计-1，165 15，227 292 3，756该模型更注重计数任务。我们评估了所提出的算法的性能在不同的设置λ从0。1比0。9使用准确度和MAE指标。如示于图4、在一定范围内，随着λ的增大，模型的性能变好。当λ = 0时，模型在两个评价指标上的性能最好。六、所以我们选择λ=0。6作为最终参数设置。4.4. 消融研究在本节中，我们分析了我们提出的方法中每个组件的效率。传统的SLL使用单个标签来表示实例。表2显示了该学习方案达到了78. 42%的痤疮分级任务和4的MAE。16例病变计数任务。根据Hayashi标准[24]将计数结果转换为相应的痤疮严重程度，并达到75的准确度。百分之六十九我们首先将LDL分别引入评分和计数任务中。在评分任务中，LDL略有提高，准确率为0。与SLL相比，89% 然而，非常低的标准差（小于0。第一章类标准图像病变图像病变轻度1 ∼5410858103221中度6 ∼205064,5471271,123严重21 ∼501463,8573689010648表明它可以获得更可靠的痤疮分级结果。在计数任务上，LDL使MAE中的模型性能提高了0。92.此外，转换后的评分结果在所有评估指标上都有显著改善，例如，了5. 40%的准确性，甚至优于直接分级程序。这表明，皮损数目的标签分布具有潜在的能力来表示痤疮图像的连续特征。这些改进还表明，通过使用计算机视觉计数病变来区分痤疮严重程度是合理的并且是能够的。在第三行中，我们建议通过这两个任务的相关性来探索3.1节中介绍的评分的标签分布斯坦-868482807876740.10.20.30.40.50.60.70.80.9λ3.33.23.13.02.92.8dard LDL为所有实例分配相同形状的标签分布，而我们提出的分级任务的标签分布是动态生成的，并且达到了82的分级精度。05%然后，我们在第六行中组合痤疮分级和病变计数的任务，这提高了所有指标的性能这表明基于医学标准的多任务学习模式可以潜在地有益于痤疮严重程度分级的问题此外，在第七行中，引入了Lcnt2cls损失和平均值的分级和计数图4.模型性能，我们提出的方法与不同的-输入λ参数。表2.消融实验证明了ANCE04数据集上不同模块的有效性。“YI”表示Youden指数指标。“G”和“C”分别表示评分和计数任务。“±”后面的值为标准偏差。yi结果表明，该模型的性能得到了改善，因为这两个过程有利于计算和分类任务，并使我们的方法的训练和测试过程更加稳定。4.5. 分类方法比较如表3所示，我们将我们的方法与三种类型的方法进行了比较，包括LDL，手工特征（HF）和基于深度特征（DF）的方法。LDL方法包括PT-Bayes、PT-SVM、AA-kNN、AA-BP、SA-IIS、SA-BFGS和SA-CPNN [22]。我们从ResNet-50的最后一个全连接层中提取特征表示[25]。Gao等人[17]还提出了一种基于CNN的深度LDL（DLDL），其与表2中的LDL方法一致手工制作的基于特征的方法包括SIFT [30]，HOG[7]，GABOR [31]和颜色直方图（CH）[42]）表示。提取的特征被发送到支持向量机（SVM）分类器中。基于深度特征的方法包括VGGNet-16 [39]，Inception-v3[43]和ResNet-50 [25]。我们将我们的方法与几种LDL方法进行比较，如表3所示。SA-BFGS [22]比其他分类器表现更好，尽管分级准确率为76。16低于基本深度ResNet-50 [25]模型。DLDL表现最好，因为DLDL训练端到端CNN模型。然而，标准标签分布，即，为所有实例分配相同形状的标签分布更适合于诸如年龄的全有序标签。痤疮严重程度的标签是有序的，但它太原始，不能代表大的类内方差。我们的方法探讨了标签分布从病变计数任务与痤疮严重程度分级的连续功能，并实现了最佳性能。此外，与基于深度特征的方法相比，手工特征在所有评估指标中表现不佳。痤疮的不同阶段在质地、颜色和边界上的病变之间有明显的差异。例如，痤疮损伤应该具有较深颜色（例如，深红色或黑色），而这些低级特征不足以区分不同的痤疮严重程度。由于每一个严重程度的痤疮将经历相同的程序从早期阶段到重新制定。甚至对于更严重的痤疮，病变可能呈现更丰富和更清晰的颜色等。在某种程度上。YI度量的性能不佳也表明手工制作的基于特征的方法的诊断结果具有非常低的参考价值。相比之下，深层特征通过高级语义信息来表示痤疮，并且表现得更好。ResNet- 50 [25]在基本CNN模型中实现了最佳性能（即，3 的准确性。2%和2. 0%超过其他两个λ（准确度）λMae精度方法MAE↓精密度↑YI↑准确度↑SLL（G）-75.81±2.5667.21±4.1178.42±2.11低密度脂蛋白（G）-78.51±0.0368.81±0.0579.31±0.02我们的（G）-80.56±0.0271.67±0.0582.05±0.02SLL（C）4.16±0.1176.04±1.5766.23±3.4275.69±1.26低密度脂蛋白（C）3.24±0.1480.39±0.0270.65±0.0181.09±0.01我们的3.01±0.1783.12±0.0372.88±0.0482.53±0.0110649表3. 与标签分布学习方法（PT-Bayes，PT-SVM，AA-kNN，AA-BP，SA-IIS，SA-BFGS，SA-CPNN，DLDL），手工制作的基于特征的分类方法（SIFT，HOG，GABOR，CH）和深度方法（VGGNet，Inception，ResNet）的比较。“±”后面的值是标准偏差。标准PT-BayesPT-SVMAA-kNNAA-BPSA-IISSA-BFGSSA-CPNNDLDL [17]精度45.31±0.0944.60±0.0767.61±0.1365.36±0.1060.45±0.0473.85±0.0347.60±0.1778.51±0.03规格79.39±0.0383.04±0.0387.73±0.0787.37±0.0285.93±0.0191.01±0.0180.40±0.0392.24±0.01灵敏度45.06±0.1246.05±0.0567.33±0.1558.65±0.1060.17±0.0572.03±0.0347.15±0.0878.57±0.05Youden指数24.44±0.1529.10±0.0855.05±0.2246.02±0.1146.10±0.0663.03±0.0427.55±0.1068.81±0.05精度45.38±0.0748.15±0.1168.15±0.1766.44±0.0463.22±0.0276.16±0.0346.92±0.0879.31±0.02标准SIFT [30]HOG [7]加博[31]中文[42]VGGNet [39][43]第四十三话ResNet [25]我们精度42.59±2.1439.10±5.3045.35±5.5843.40±4.2072.65±3.4274.26±3.2675.81±2.5684.37±0.02规格78.44±1.1077.91±1.5379.89±1.5878.70±1.0690.60±0.7190.95±0.6891.85±0.7793.80±0.00灵敏度39.09±4.4738.10±5.3341.78±5.4741.27±2.0172.71±2.6072.77±2.6175.36±3.3981.52±0.02Youden指数17.53±5.3816.01±6.8021.67±7.0219.97±2.9163.31±3.1963.72±2.9267.21±4.1175.32±0.02精度45.89±2.1641.30±6.0248.22±4.2047.47±2.3975.17±1.9776.44±1.7778.42±2.1184.11±0.01表4.与ACNE04数据集上最先进的计数方法进行比较“±”后面的值方法MAE↓MSE↓精密度↑规格↑灵敏度↑尤登指数↑准确度↑F-RCNN [35]6.70±0.2811.51±0.3756.91±9.1590.32±0.8661.01±3.9051.34±4.6673.97±1.88[55]第五十五话5.82±0.5310.14±0.4972.20±1.7089.53±0.6066.03±5.1055.56±5.6972.09±1.46[34]第三十四话6.69±0.2811.35±0.1367.01±0.0985.96±0.7151.68±4.5837.63±5.2963.70±1.37MCNN [56]5.28±0.207.76±0.2963.97±3.8982.84±1.4046.22±3.3429.07±4.6258.01±3.26我们2.93±0.185.42±0.6684.37±0.0293.80±0.0081.52±0.0275.32±0.0284.11±0.01模型）。此外，它获得了至少30%的准确性提高手工制作的基于特征的方法。我们的方法在准确性上比ResNet-50高出5倍。69%和YI 8。百分之十一这证明了标签分布和多任务学习策略的优势，由专业的医疗标准为导向。非常低的标准偏差进一步表明我们提出的方法的稳定性。我们的方法可以有利于挖掘痤疮图像的判别特征表示。4.6. 计数方法比较分别与基于检测和基于回归的计数方法进行了比较。表4显示了痤疮严重度分级结果，其分别根据医学标准[24]和病变计数结果通过计数的病变数量进行转换。目标检测方法，如Faster R-CNN [35]等。由于痤疮损伤的稀疏性，在分级任务中通常优于回归方法。然而，基于检测的方法是不稳定的，当对象的大小是小的。例如，Faster R-CNN [35]达到了73的最佳准确度。97%。但是，基于检测的方法在精度和灵敏度等方面的性能较差，很难在各个类别中取得均衡的结果。具体如图所示。5、更快的RCNN（de-标记为F-RCNN）达到12的精度。44%的人认为痤疮严重程度为"严重“，而准确度仅为4。62%的痤疮严重程度为“非常严重”。与基于检测的方法相比，基于回归的MCNN [56]实现了最佳计数结果，特别是在MSE度量然而，较差的分级性能表明，该方法在对损伤进行计数时忽略了痤疮严重性水平之间的不同权重，即，对应于痤疮不同严重程度的间隔是不同的。我们的方法不仅可以获得良好的计数结果，而且可以通过标签分布来平衡不同痤疮严重程度之间的计数损失。如表4所示，我们的方法在分类和计数任务上都优于比较方法。此外，如图1所示。5（b）和图。如图5（c）所示，我们的方法在平均值上和对于痤疮的每个严重性水平都实现了较低的特别是“非常严重”的严重程度的显著改善4.7. 与皮肤科医生比较为了验证我们的诊断系统的实际应用价值，我们将我们的方法与2名专业皮肤科医生和2名普通医生进行比较。在熟悉Hayashi标准后[24]，每位医生对700张痤疮图像进行测试，这些图像是从106500（53.8%）1（55.2%）2(68.5 3人（58.9%）五（五）六（六）二十一（二十二）五十二（五十一）2 (50.70（43.5%）21（19）4（5）1人（47.2%）2人（45.7%）八（四）二十五（二十）（一）（b）第（1）款MSEMae85303075252565 202055 151545 1010355525轻度中度严重非常严重avg0轻度中度严重非常严重avg0轻中度严重非常严重avgGaborResNet-50DLDLF-RCNN 我们F-RCNN细化检测YOLOv3MCNN 我们F-RCNN细化检测YOLOv3MCNN 我们图5.分类（a）和计数（b，c）不同方法对痤疮四个严重程度和平均表现的结果表5. ACNE04数据集上医生的比较。“Derm”表示在皮肤科领域具有丰富知识的专业皮肤科医生。“GD”指的是非皮肤科专业的普通医生。“±”后面的值是标准偏差。标准GD 1GD 2真皮1真皮2我们（一）精度62.8762.0777.3382.9584.37±0.02规格84.1186.9890.6692.1693.80±0.00灵敏度55.2768.3372.5678.2781.52±0.02Youden指数39.3855.3163.2270.4375.32±0.02精度58.4363.1475.2979.4384.11±0.01（b）第（1）款（c）第（1）款ACNE04数据集。我们在表5中报告了每位医生的评分结果我们可以观察到，专家知识是非常重要的痤疮分级程序。普通医生在每个评估指标上表现平平。Youden指数值和准确性的差结果表明，他们在没有专家知识的情况下清楚地区分不同严重程度的痤疮的能力较弱。皮肤科医生在所有指标上都取得了更好的表现。结果的差异主要是由于痤疮诊断经验的不同和个人主观性的不同。我们的方法达到了皮肤科医生的水平，甚至在一定程度上超过了两位皮肤科医生。这表明我们的方法可以为医生或患者提供有价值的诊断证据。虽然痤疮严重程度的分级仍然是一项具有挑战性的任务，如图1B中所示的示例。6、计数结果可作为最终痤疮分级的可靠依据。当分类结果和数字不一致时，它们也可以相互参考，如图。第6（b）段。然而，当分类和计数的结果都是错误的，如图。6（c），我们可能需要引入更多的先前专家知识或医学标准诊断系统。5. 结论在这项工作中，我们提出了一个统一的框架，可以同时学习分级全球痤疮的严重程度和计数图6.计算及分类结果的例子。图像下的数字表示痤疮严重程度和病变数量的地面事实。括号中的数字分别代表与真实严重程度和估计病变数量相对应的分类概率。红色字体表示错误的预测。局部病变该方法以专业医学标准为导向，分为分级和计数两个部分.我们的方法从病灶计数任务学习痤疮图像的连续特征表示。然后，它学习严重性标签分布，以有效地对痤疮图像进行分级。为了验证所提出的方法的有效性，我们收集了一个名为ACNE04的数据集。我们邀请几位专家手动注释病变边界框和严重程度等级。结果表明，我们的方法可以达到皮肤科医生水平的性能，并提供准确的诊断参考。确认这项工作得到了国家自然科学基金委员会的支持（No. 61876094，U1933114），天津市自然科学基金（ No. 18JCYBJC 15400 ， 18ZXZNGX 00110 ）， theOpen模式识别国家重点实验室（NLPR）项目，中央大学基础研究（c）第（1）款准确度（%）10651引用[1] Fazly Salleh Abas ， Benjamin Kaffenberger ， JosephBikowski，and Metin N Gurcan.痤疮图像分析：病变定位和分类。InSPIE，2016.[2] NasimAlamdari ， KouhyarTavakolian ， MinhalAlhashim，and Reza Fazel-Rezai.痤疮患者痤疮病变的检测和分类：一个移动应用程序。InEIT，2016.[3] Lokesh 布米纳坦Srinivas S.S. Kruthiventi，以及R.文卡特什先生Crowdnet：一个用于密集人群计数的深度卷积网络。ACM MM，2016。[4] Xinkun Cao，Zhipeng Wang，Yanyun Zhao，and Fei Su.规模聚集网络，实现准确有效的人群计数。在ECCV，2018。[5] 安东尼湾Chan和Nuno Vasconcelos统计低水平特征和巴氏回归的人。IEEE Trans-actions on Image Processing，21（4）：2160[6] Thanapha Chantharaphaichi 、 Bunyarit Uyyanonvara 、Chan- jira Sinthanayothin和Akinori Nishihara。自动痤疮检测医疗。ICTES，2015年。[7] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度的直方图。在CVPR，2005年。[8] Adrian V. Dalca，John Guttag，and Mert R.萨班库用于非监督生物医学分割的卷积网络中的解剖学先验。在CVPR，2018年。[9] 布里吉特·德雷诺和弗洛伦斯·波利。痤疮的流行病学皮肤病学，206（1）：7[10] 作者：Andrew Esteva，Brett Kuprel，Roberto A.放大图片放大图片作者：Susan M. Helen M.布劳和塞巴斯蒂安·特伦。使用深度神经网络对皮肤癌进行皮肤科医生级别的分类。Nature，542（7639）：115[11] Deng-Ping Fan ， Ming-Ming Cheng， Jiang-Jiang Liu ，Shang- Hua Gao，Qibin Hou，and Ali Borji.clut- ter中的显著对象：将显著对象检测带到前景。在ECCV，2018。[12] Deng-Ping Fan，Ming-Ming Cheng，Yun Liu，Tao Li，and Ali Borji.Structure-measure：一种评估前景图的新方法InICCV，2017.[13] Deng-Ping Fan ， Cheng Gong ， Yang Cao ， Bo Ren ，Ming-Ming Cheng，and Ali Borji.二进制前景图评估的增强对准措施。在IJCAI，2018。[14] Deng-Ping Fan，Zheng Lin，Jia-Xing Zhao，Yun Liu，Zhao Zhang ， Qibin Hou ， Menglong Zhu ， and Ming-Ming Cheng.重新思考RGB-D显著对象检测：模型、数据集和大规模基准测试。 arXiv 预印本 arXiv ：1907.06781，2019。[15] Deng-Ping Fan，Wenguan Wang，Ming-Ming Cheng，and Jianbing Shen.将更多的注意力转移到视频显著对象检测上。在CVPR，2019年。[16] Maroni Gabriele Ermidoro Michele和Previdi Fabio自动检测、提取和计数痤疮病灶，用于自动评估和跟踪痤疮严重程度。在SSCI，2017年。[17] Bin-Bin Gao，Chao Xing，Chen-Wei Xie，Jianxin Wu，and Xin Geng. 标签模糊的深度标签分布学习。 IEEETransactions on Image Processing，26（6）：282510652[18] Bin-Bin Gao，Hong-Yu Zhou，Jianxin Wu，and XinGeng.使用标签分布学习期望的年龄估计。在IJCAI，2018。[19] Shang-Hua Gao，Ming-Ming Cheng，Kai Zhao，Xin-YuZhang ， Ming-HsuanYang ， andPhilipTorr.Res2Net ：一种新的多尺度骨干架构。 IEEETPAMI，2019。[20] 辛庚、秦王、虞夏。基于自适

下载后可阅读完整内容，剩余1页未读，立即下载