沙特国王大学学报：减少深度特征用于肝癌反应预测的研究

190 浏览量更新于2024-01-17 收藏 1.87MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报使用减少的深度特征的Mehdi Hassana，b，Safdar Alic，Hani Alquhayzd，Jin Young Kimb，Jin，Muhammad Sanaullahea巴基斯坦伊斯兰堡PAF综合大楼E-9区航空大学计算机科学系b韩国光州全南国立大学ICT融合系统工程系c巴基斯坦伊斯兰堡国家知识库管理局d计算机科学和信息系，Zulfi科学学院，Majmaah大学，Al-Majmaah 11952，沙特阿拉伯巴基斯坦木尔坦Bahauddin Zakariya大学计算机科学系阿提奇莱因福奥文章历史记录：2022年4月25日收到2022年7月13日修订2022年7月30日接受2022年8月4日在线提供保留字：深度学习特征融合肝癌体外研究二次判别分析A B S T R A C T肝癌是导致死亡的主要原因，在世界范围内死亡率很高。为了更好地治疗和康复肝癌，评估和评价药物递送和反应预测至关重要。在这项研究中，我们提出了一种新的方法来预测肝脏抗癌药物的反应，使用改进的ResNet101深度学习和迁移学习（TL）概念进行深度特征提取。降维算法，PCA和t-SNE分别用于捕获全局和局部结构的在这里，引入了一种新的融合方案，使用全局和局部水平的图像信息，以提高分类。简化的深度融合特征用于开发二次判别分析（QDA）预测模型。所提出的方法进行评估的荧光图像的人肝细胞癌（HepG2）治疗使用的抗癌药物功能化的钴铁氧体@钛酸钡（CFO@BTO）纳米粒子。包括203个HepG2显微图像的数据集用于通过采用5倍交叉验证技术使用75%：25%的分割比来训练和测试模型。与其他最先进的方法相比，所提出的系统实现了98.0%的高精度。开发的管道是灵活的，可以扩展到前列腺癌，肺癌和乳腺癌。版权所有©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍癌症是发展中国家和发达国家的主要死因之一。由于死亡率高，在2018年被诊断患有癌症并死亡的1810万患者中有超过900万人（Bray等人，2018年）。癌症诊断和死亡的性别分布情况表明，肺癌和乳腺癌分别是男性和女性中最常见的类型。由于诊断、治疗和康复费用高昂，发展中国家的死亡可能性非常高。例如，在南亚，癌症死亡率是*通讯作者：韩国光州全南国立大学ICT融合系统工程系电子邮件地址：beyondi@chonnam.ac.kr（J.Y. Kim）。沙特国王大学负责同行审查约 25% ，这明显高于发达国家的水平（ Masood 等人， 2018 年，Mubarik等人，2019年）。之间在不同类型的癌症中，肝癌是第七大死亡原因，死亡率为8.2%（Bray等人，2018年）。它与肝脏疾病有关，如乙型肝炎和丙型肝炎，这在发展中国家很常见。有针对性的药物输送和评估相应的患者反应是康复过程中的关键步骤。低成本诊断和治疗设施的可用性和可获得性有助于早期肝癌检测和康复，以挽救人类生命。近年来，与常规癌症疗法和治疗计划相比，治疗实体（包括用于靶向药物开发和递送的纳米颗粒）的推出正获得全世界研究人员更多的关注（Mesensens等人，2017年，Nursday等人， 2018年）。磁电纳米颗粒可以作为治疗和诊断的试剂，在生物医学应用中具有各种用途。CFO@BTO磁电纳米颗粒用于使抗癌药物功能化（Shahzad等人， 2021年）。它们可以渗透到癌细胞中并在给定区域内释放药物https://doi.org/10.1016/j.jksuci.2022.07.0241319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comM.哈桑S。Ali，H. Alquhayz等人沙特国王大学学报8123感兴趣的，以及有助于外部场模拟（ Krishnan ， 2010 年，Vangijzegem等人， 2019年）。药物递送系统的有效性通常在细胞的几种微生物学改变后用显微镜分析，用于检测凋亡小体（Fathi等人， 2018年）。虽然分析细胞形态和抗癌药物的疗效需要人类的专业知识，但由于疲劳和其他人为因素，大规模错误的可能性会增加因此，自动化筛选和分析可以提供一种高效、可扩展且具有成本效益的替代方案。在此背景下，提出了一种计算机辅助系统来分析人HepG2细胞，用于评价抗癌药物的功效，例如CFO@BTO。为了开发和评估智能抗癌药物反应预测系统，开发了荧光显微图像的注释数据集，其包含两种类型的图像：（i）用抗癌药物CFO@BTO治疗的癌细胞和（ii）未经治疗的癌细胞由于这些图像的自动分析是一项具有挑战性的任务，因此非常需要使用现代机器学习技术特征融合是现代分类系统的关键步骤，对提高系统的整体性能和鲁棒性起着关键作用。特征融合有两种类型：（i）早期融合和（ii）晚期融合。在早期融合中，从不同来源提取的特征在呈现给分类器之前被组合成单个表示（即融合先于概念学习）。相比之下，在后期融合中，概念学习先于特征融合。在文献中，没有报道HepG2癌症药物反应预测被基于特征融合的分类利用。在此背景下，我们提出在通过应用主成分分析（PCA）和t分布随机邻居嵌入（SNE）技术分别获得的减少的深度特征上实施有效的后期融合策略，其中使用TL-ResNet 101网络提取深度特征。这些包含有关输入图像的有用信息，从一般到非常具体。从PCA获得的减少的特征揭示了使用最大方差的数据集中存在的全局结构相比之下，从t-SNE中获取的特征可以捕捉到数据中存在的局部结构为了提高性能和计算效率，获得了捕获数据集的全局和局部结构的最具鉴别力的约简特征。在这项研究中，提出的新系统被用来提取深度特征，使用修改后的ResNet 101深度学习模型，通过使用TL来预测抗癌药物CFO@BTO的有效性。PCA和t-SNE技术都用于降维，然后进行特征融合。这些技术分别利用图像特征的全局和局部分布。然后将减少的特征呈现给QDA分类器进行预测。该技术可以高效、自动、高精度地对“治疗”和“未治疗”的HepG2癌细胞图像进行分类。在这项研究中提出的方法的性能进行评估，使用标准的定量质量措施。下文总结了这项工作的主要贡献体外HepG2癌细胞分类数据集的建立模型训练样本量选择的统计分析ResNet101的定制和TL的从定制TL-ResNet 101中提取尺寸2048的深度特征应用PCA和t-SNE技术将2048维降维到20维全局（PCA）和局部（t-SNE）水平的后期融合减少了图像特征QDA用于预测“处理的”和“未处理的”HepG2癌细胞的用途体外HepG2细胞对抗癌药物反应预测的分类系统的建立本文进一步组织如下：第2提供了相关文献的概述。第3节详细介绍了材料和方法。第4节介绍了所提出的方法和其他最先进的方法的结果，其讨论在第5节中提供。最后，第6节总结并提出了潜在的未来前景。2. 相关工作在文献中已经报道了用于癌细胞系分类的几种技术，其可以分为常规技术和先进技术。这些方法以高精度对癌细胞图像进行分类。传统的方法，包括决策树（DT）、随机森林（RF）、人工神经网络（ANN）、支持向量机（SVM）、朴素贝叶斯（Naive Bayes）和k-最近邻（KNN），被广泛用于分类。（Boughorbel等人，2016）比较了几种用于乳腺癌预后的传统模型（SVM、RF、ANN和KNN）。类似地，（Al-Salihy和Ibrikci，2017）报告了一种通过采用DT算法对乳腺癌细胞进行分类的方法。（Vazifehdan等人，2019）提出了一种基于贝叶斯网络的乳腺癌复发预测方法，并发现贝叶斯网络优于KNN和SVM。尽管常规方法表现得足够好，但是这些方法具有与特征工程相关的一些问题，包括特征的数量、核大小、照明和缩放不变量以及适合于分类的特征的类型（Ali等人，2022年）。而且目前没有明确定义的标准来决定所有类型图像的通用特征工程。因此，该过程需要人类的专业知识，以便为特定问题提取适当的特征。此外，每种类型的图像模态需要不同类型的特征提取。例如，脑MRI图像特征不同于肺CT扫描图像。因此，迫切需要一种有效的解决方案，以最大限度地减少用户对特征提取和分类的干预。最近，研究人员开始使用深度卷积神经元，人工神经网络（CNN）解决计算机视觉、基于生物医学成像的疾病诊断、自然语言处理、语音识别和对象识别中的挑战性问题。该技术也被成功地用于肝病诊断（Xu等人，2015，Pu等人，2019年）。（Cruz-Roa等人，2017）使用CNN对乳腺癌组织进行预测和量化，实现了75.86%的骰子指数值。在另一项研究中，（Ali等人，2021）报道了使用拉曼显微镜数据采用TL进行HBV检测的CNN方法。（Hassan等人，2020）提出了通过采用TL概念使用深度学习的医学图像模态分类。（Yang等人，2019）提出了基于深度学习的药物配方预测，并实现了80%以上的分类准确率。（Rifaioglu等人，2020）提出了DEEPScreen通过采用CNN来预测药物-靶标相互作用。（Chang等人，2018年）使用CNN开发了CDRscan，预测患者对抗癌药物的反应。类似地，深度学习正以多种方式成功地用于预测各种疾病，包括HEP-2细胞分类（Phan et al.，2016）、乳腺癌检测（Khan等人， 2021）、生物医学图像分类（Zhang等人，2020）、细胞形态变化预测（Kensert等人，2019），以及使用脂质纳米颗粒的药物递送的分类（Harrison例如， 2021年）。CNN需要大量的注释数据和计算资源来进行模型开发。由于医疗数据的固有性质●●●●●●●●M.哈桑S。Ali，H. Alquhayz等人沙特国王大学学报8124用于训练数百万个深度神经网络参数。鉴于这一挑战，研究人员已经转向各种技术，以尽量减少这些数据限制问题。例如，TL是一种流行的替代方案，用于修改网络并利用先前学习的权重的部分知识，针对新问题重新训练修改后的网络。在TL中，根据新问题替换预先训练的网络的几层。已经发现以这种方式修改的网络比使用相对小的数据集的传统分类更好地执行。CNN 的脑启发特征学习功能在分类中起着在深度神经网络（DNN）中，堆叠的层被用于提取用于分类的图像特征与灰度共生矩阵（GLCM）、离散小波变换（DCT）和直方图梯度（HOG）等传统图像特征不同，深度特征具有更强的鲁棒性、优化性和尺度不变性，并且可以在无需用户干预的情况下提取此外，在改变分类模态时，用户可能不需要超参数设置。可以获得CNN高层的优化特征并将其用于分类。然而，所获得的特征向量可能包含贡献最小的特征，这可能降低分类性能。为了克服这一挑战，降低特征向量维数对于降低计算能力要求和改进分类至关重要。有几个应用程序，其中PCA和t-SNE分别用于降维，然后进行分类。2021）提出了一种结合贝叶斯和深度学习的皮肤癌分类方法。进行网络超参数调整以获得最佳结果，分别获得88.95%、89.00%和92.00%的准确度、F分数和AUC值（Li等人，2021）提出了使用深度学习的多模态医学图像融合，使用各种成像模式，如CT，MRI和SPET图像，用于恢复和噪声去除。（Ali等人，2022）提出了一种基于智能融合的植物病害分类方法，通过深度手工图像特征融合，获得了98.20%的准确率。表1中提供了具有性能评估的特征融合的总结。在本研究中，开发了一种用于体外HepG2癌细胞药物递送识别的新方法，其中使用定制的ResNet101深度学习模型提取深度特征，该模型采用TL概念，通过融合过程在全局和局部水平上利用信息。该方法分别采用PCA和t-SNE技术进行深度特征约简.后期融合，即分类前的拼接操作，对减少的深度特征进行融合，以获得最有用的特征。QDA用于融合特征，用于“处理的”和“未处理的”HepG2细胞的分类。使用G*Power统计工具进行训练样本量的选择，所提出的方法的性能是与其他最先进的算法相比。表1基于特征融合方法的最新研究综述（Ali等人， 2022）采用PCA对深度特征进行识别，的植物病害，发现该模型的性能作者和年份业绩在降低的维度提供了更好的植物病害识别。（Melit Devassy和George，2020）报告了高光谱数据降维的基于t-SNE的聚类。（Naseer等人，2019）提出使用PCA和线性判别分析（LDA）来鉴定人血清中的丙型肝炎病毒。（Saleem等人，2020）开发了一种基于PCA-LDA的乙型肝炎病毒诊断技术，报告准确率为98.82%。（Haq等人，2022）提出了基于特征融合的乳腺摄影图像的集成分类。（Kobak和Berens，2019）报告了使用t-SNE对细胞转录组学数据进行降维。（Ding等人，2022年）（Abdar等人， 2022年）多模态后融合的讽刺语检测医学图像多层次融合分析精密度：71.55%召回率：71.52%F评分：70.99% OCT准确度：肺部CT准确率为94.21%：99.59%胸部X线准确性：百分之九十六点五近年来，特征融合技术被用于解决搜索问题.（Ding 等人，2022）提出了使用深度学习进行讽刺检测的多模型后期融合。他们用音频信号、文本、身体姿势和面部表情来识别SAR-（潘德亚（Lee2021）后期融合情感分类精度：88.56%F评分：88.00%AUC：98.70%casm。ResNet152、Librosa和Bert分别用于视频、音频和文本数据。他们提出的方法获得了71.55%的准确率和71.52%的召回率。（Abdar等人，2022）提出了使用多级融合方法的医学图像分类，使用两个融合块：（i）不确定性量化和（ii）原始特征（Abdar等人， 2021年）二值残差特征融合医学图像分类准确度：89.24%召回率：89.30%精度：89.11%F-评分：89.18%核聚变对于各种医学图像数据集，他们在肺部CT图像分类上获得了99.59%的最高准确率。（Pandeya和Lee，2021）提出采用后期融合进行情感分类。他们分别在CNN预训练的音频和视频模型上使用TL概念，然后将其融合以获得最终决策。报告的准确度、F评分和AUC值分别为88.56%、88.00%和98.70%。（Abdar等人，2021）开发了一种自动化的医学图像分类（ Hsu 和Tseng2022）（Abdar等人， 2021年）使用后期融合的皮肤病变分类准确度：87.10%灵敏度：84.20%特异性：88.90%皮肤癌分类准确性：百分之八十八点九五F评分：89.00%AUC：92.00%方法采用ResNet152与Monte Carlo dropout层相关联。他们的方法分别实现了89.24%、89.30%、89.11%和89.18%的准确率、召回率、精确率和 F评分值。类似地，（Hsu和Tseng，2022）提出了一种用于皮肤病变分类的分层感知后期融合方法，该方法采用多层感知器（MLP），使用三个模块：（i）编码器，（ii）分类和（iii）融合。其准确性、敏感性和特异性分别为87.71%、84.42%和87.71%。88.90%。在另一项类似的研究中，（Abdar等人，（Li等人，2021年）（Ali等人，2022年）医学图像融合的复原与去噪基于深度和手工图像特征融合的植物病害分类SSIM 0.992峰值信噪比7.441RMSE 0.424准确度：98.20%灵敏度：98.79%特异性：百分之九十二点六七F-评分：95.33%M.哈桑S。Ali，H. Alquhayz等人沙特国王大学学报81253. 材料和方法3.1. 材料3.1.1. 样本量选择适当的研究设计和实验样本量选择是进行任何研究的关键因素。如前所述，深度学习模型需要大量带注释的数据来进行模型训练和验证。然而，医学诊断图像的标注数据是有限的.因此，需要在统计上估计适当的样本大小，这不仅可以提高模型性能，而且可以在训练深度学习模型时节省时间和计算资源。在本研究中，统计工具G*Power（Faul et al.，2007），其取决于各种参数，包括效应和样本量以及a值（决策标准），用于估计模型训练所需的研究设计样本量。图1显示了该统计工具的结果，表明模型训练应至少包括110个样本，估计效应量参数为0.7（Cohen 1992）。使用Student显著性水平（a）设定为5%，I型误差和功效1-b（II型误差）设定为0.95.统计参数和样本量估计曲线（图1）表明，最小样本量为110，把握度为0.95，效应量为0.7，足以用于本研究。根据该标准，75%：25%比率的分割需要152个训练图像：101个训练样本用于3.1.2. 体外样品和数据集制备首先，用0.05M的硝酸铁Fe（NO3）3*9-H2O溶液（100 mL）对球形钴铁氧体（CFO）纳米颗粒进行预分散.以去离子水为显色剂，以摩尔比为2：1（Fe：Co）的硝酸钴Co（NO3）2·6 H2O为显色剂，显色液中Fe：Co = 1.5 mol/L。温度将溶液的温度升高至70 °C，保持1小时，同时添加5 M NaOH。蚀刻和洗涤显影的沉淀物使用0.2MHNO3。采用0.1M的Ba（NO3）和异丙醇钛的30mL水溶液和乙醇溶液制备了纳米颗粒CFO周围的压电钛酸钡（BTO）壳。将该溶液的温度升高至70 °C，并在加入5M NaOH的情况下将溶液超声处理4小时。和CFO蚀刻溶液。接下来，处理所制备的纳米复合材料以实现在氯仿中的胶体稳定性。的描述药物开发和递送的方法可以在文献中找到（Shahzad等人，2021，Hassan等人， 2022年）。在体外样品制备和靶向给药后，显微镜下观察肝癌细胞HepG 2的荧光图像，以评估CFO@BTO纳米粒载体的响应共获得203张图像，其中135张对应于“经处理”样本（用CFO@BTO处理），68张经处理的和未经处理的HepG2癌细胞的荧光图像的代表性实例提供于图1中。二、如第3.1节所述，训练至少需要110个样本，数据集分割比为75%：25%。所有实验均使用配备有NVIDIA GeForce RTX-2080GPU和Matlab 2020（a）的具有16 GB RAM的Intel Xeon E-2246G 3.6 GHz处理器进行3.2. 方法在本节中，详细描述了用于肝癌细胞分类的新方法。所提出的系统的框架在图3中示出，其包括五个阶段：（i）CF0@BTO纳米颗粒药物的开发;（ii）通过采用TL进行深度特征提取来定制ResNet 101深度学习模型训练;（iii）使用PCA和t-SNE技术进行降维;（iv）最佳降低特征的后期融合;（v）将癌肝细胞QDA分类为“经治疗”和“未经治疗”类别。药物开发和数据集采集在前面的章节中进行了描述。第3.1.1节和第3.1.2节介绍了拟议方法的第（i）阶段，而第（ii）-（v）阶段将在以下各节中解释。3.2.1. 定制的ResNet101深度学习模型深度学习是解决各种现实世界问题的流行方法，例如对象识别，医学疾病，Fig. 1.使用G*Power进行模型训练的样本量估计。M.哈桑S。Ali，H. Alquhayz等人沙特国王大学学报8126(a) （b）未处理图二、体外HepG 2细胞的荧光图像：（a）药物官能化CFO@BTO NP处理的细胞（“处理”）和（b）对照细胞（“未处理”）（放大倍数，200倍）。诊断、自然语言处理和计算机视觉（Khan等人，2020年），由于其能够有效地解决非线性复杂问题。在这种情况下，CNN模型有几个卷积层和池化层，它们堆叠在一起以揭示输入图像的隐藏模式，包括扁平层和分类层，它们计算每个类别的概率。在这项研究中，CNN模型被训练来提取深度特征，用于预测体外HepG2细胞对抗癌药物的反应。如前所述，医学注释数据本身就很小，因此使用它从头开始训练深度学习模型可能不可行。因此，为了保持性能和效率，可以通过采用TL概念来使用预先训练的网络的部分学习的权重。在几种深度学习模型中，包括ResNet18、ResNet50、InceptionV3和GoogleNet（Khan等人，2020），选择ResNet101模型用于预测体外HepG2细胞对抗癌药物的反应。由于其剩余学习能力和良好的泛化能力，ResNet101架构可以学习HepG2癌细胞图像中存在的隐藏模式，从而有效地与其他模型相匹配（He et al.，2016年）。原始的ResNet 101模型（He等人，2016）使用ImageNet（Denget al.，2009年）数据集与1000类。然而，在本研究中，ResNet101是通过使用TL来定制的，以预测体外HepG2细胞对抗癌药物的反应。为此，ImageNet训练模型的ResNet101 的最后三个层，即 'FC_layer' ， 'Softmax_layer' 和'ClassificationOutput_layer' 分别被新层，即 'New_- FC_layer' ，'SoftMax_Layer'和'ClassOutput_layer'取代，以分类HepG 2癌细胞。用于深度特征提取的定制化ResNet 101架构的示意图见图。四、与其他CNN模型类似，ResNet101堆叠了几个卷积层和池化层，用于提取重要的图像特征。网络的初始卷积层提取低级特征，而更高的卷积层提取高级特征。每个卷积层的相关激活函数递增地学习权重。HepG2细胞的图像被用作网络的进料，图三. 提出了药物反应预测系统的框架。M.哈桑S。Ali，H. Alquhayz等人沙特国王大学学报8127PBy×¼¼ðÞð Þy6j6M×ySn1yMn-1见图4。定制的ResNet101架构，用于深度特征提取。提取物隐藏模式为的隔离的‘Treated’softma x.Ybexpyið4Þ“未处理”样品。通过这种方式，网络的级联层有助于顺序地学习权重并生成fea。HepG2细胞图像的真图以下等式2第1页exp.yj用于从卷积层产生网络的输出图：Mn¼Mn-1-Kn1n其中Y是输出类概率softmax函数，y是输入向量。3.2.2. 迁移学习X xxSx1Mn-1Kn¼ þð1ÞTL是部分利用ResNet101的有效技术学习权重，特别是当注释数据相对小了目前，这项技术正在成功地解决其中Mx和My是输入和输出的相等大小的映射，Kx和Ky是内核大小，S是步幅，并且n表示层索引。如图4，卷积后，进行合并。ResNet101的池化层用于减小图像大小并实现计算优化，从而缓解平移和尺度不变性的问题。最大池化操作由网络使用以下等式执行：yi¼1ma xM。xj;xj2Xi2其中，X1 =X0; X1;：：;Xng表示输入图像的区域;例如，第i个子图像X1=X1; X2;：：; XMXM，每个子图像的大小为M。池化操作用于探索输入图像的隐藏和区分特征，使用默认的内核大小22，步幅为S二、使用ResNet101的损失函数来评估学习网络的权重的有效性，而交叉熵用作模型训练的损失函数用于HepG2癌细胞分类的修改的二元损失函数（LF二元）由以下等式给出：LFBinary¼-zi：logpzi 1-zi： log 1-pzi3其中p z是类别z的模型预测概率。网络的全连接（FC）层被用来使用激活函数来找到类概率。修改后的ResNet 101模型的FC层连接到'avg_- pool'层，在那里可以获得最优的图像特征。作为ImageNet数据集的1000个神经元（类）的替代方案，定制的ResNet101模型包括两个神经元，每个神经元用于“治疗”和“未治疗”类。softmax函数用于识别每个输入图像的类概率，由以下等式给出：涉及皮肤癌、HBV和植物疾病诊断的几个分类问题（Esteva等，2017年，Ali等人，2021年，阿里例如，2022年）。在本研究中，ResNet101 在 ImageNet 数据集上训练，通过采用 TL 方法来解决HepG2癌细胞分类问题。如前一节所述，在定制的ResNet 101模型中，最后三层被三个新层（即 “FC_2” 、 “FC2_Softmax” 和“Class_output”）替换，以解决“处理”和“未处理”样本的二进制类问题。为了获得更好的模型性能，使用以下参数经验设置对定制网络进行微调：批量大小，32;学习率，0.0001;数据增强范围，（-30，+30）像素; epochs总数限制，200。3.2.3. HepG2癌细胞图像在此，定制的ResNet101深度学习模型使用TL概念在癌细胞图像最近，一些研究人员已经使用深度特征来解决各种分类问题（Hassan等人，2020年）。修改后的ResNet101模型的第五块包含高级特征，可以用作深度特征提取器模块，如图4所示。通过采用5倍交叉验证技术对75%的数据进行TL-ResNet 101训练一旦训练完成，模型将在25%的未知数据上进行评估在“avg_pool”层获得深度特征在这一层，网络成功地学习了权重，并根据新的癌细胞分类问题对其进行了调整这些深层特征由网络自动学习，无需任何用户干预。深度特征有几个优点，包括自动选择核大小以及特征的数量和类型ResNet101的残差学习概念增强了网络的泛化能力，与M.哈桑S。Ali，H. Alquhayz等人沙特国王大学学报8128X20u xT0ux772ffi8K.-R22PP1ðÞ2我12N我-xDFRJ我22DFIK¼DFI被认为是熵HP i-jpjji×log2pjji用于二分查找KjjtSNEk-12N3我45¼2637相对于其竞争者，例如InceptionV3和GoogleNet架构（Krizhevsky等人，2012年，Simonyan和Zisserman，2014年）。在“avg_pool”层处获得的深度特征的维数点xDF;xDF; ··· ;xDF（xDF2 ffin）的深度特征。通过让每个N计算特征向量和特征值：uT<$klUJ J Ju1u1：u1;ui2 ffinJ JJ深特征具有原始的高维度可能存在贡献较小的特征的罩（图1）。 5-a）。高维深度特征不仅计算量大，而且影响分类性能。在这项研究中，两种类型的功能，使用了约简算法，即PCA和t-SNE，不1个DFi62DF i7ð7Þ分别有效地处理线性和非线性数据。提取的深层特征被送入PCA和t-SNE技术，以获得最具鉴别力的特征，用于改进分类。选择这些特征约简算法是因为它们能够以高效的方式成功地调整全局和局部数据结构。特征值的选择：yPCAi ¼63.2.5. t-SNE技术：k：：：：：：uTx0DF3.2.4. 主成分分析（PCA）PCA被许多研究人员用于降维它将高维空间线性变换为低维空间。较低的维度是原始维度的线性组合。它使用数据集中存在的最大方差将数据点展示为全局结构，并使用正交变换来识别相关变量，由Van der Maaten和Hinton（2008）提出的t分布随机邻域嵌入（t-SNE）它非线性地将高维空间映射到较低的空间，通过捕获数据中存在的局部结构来它还利用数据点在高维和低维空间的条件概率N个高维数据点的深度特征集将其转换为不相关的特征。一组N高-xDF;xDF; ··· ;xDF（xDF2 ffin）尺寸数据点x xx（x1 2N in）深Fea-- 用于降维的SNE。DF 1;DF 2; ·· ·; DFNDFi 2 ffi客户ResNet101被送入测试在自定义ResNet 101的“avg_pool”层获得的数据（DF）DF-PCA（k）维度应小于原始（DF）kn特征向量大小。PCA使用以下表达式来产生低维特征yPCA ;yPCA ; ··· ;yPCA（y）五氯苯甲醚 2 ffik;kn）。使用方差作为（xDFi;xDFj）个数据点之间的条件pjji概率是xDFi将选择xDFj作为xDFi的邻居的概率，以及对于i^j的条件概率pji^0;。数据点之间的条件概率由高斯表达式定义：标准，前10个最具鉴别力的特征，选择最优方差与t-SNE融合，然后与QDA融合分类：pexpkxDFi-xDFjkDFi9毫米jji¼exp.kxDF-xDFkR其中，k·k表示（xDFi;xDFj）个数据点之间的L2范数，并且X1XN.- 是的电子邮件我x0DFix0DFjR2是高斯分布的方差。当量(9)是com-ð6ÞX2 ffin×N问题. 算法t-SNE使用用户定义的困惑作为一个参数，以找到数据点上的概率分布，可以计算为log2Perp。为了避免成对距离的复杂性，t -SNE使用学生使用以下公式计算通过t-SNEqij.1jjyP.1tSNEiy-ytSNEjyjj2歼-12米-1ð10Þ在降维空间中，Eq. (10)显示数据点的局部结构。 t-SNE用于绘制低d-维空间ytSNE;ytSNE; ···;ytSNE（ytSNE2 ffid;dn）;它图五.定制的ResNet101深度学习模型的训练精度和损失曲线。显示了在降维空间中两个数据点ytSNEi和ytSNEj之间的相似性。t-SNE找到了高维输入到低维输出的Pij到qij之间的映射，以最小化输入和输出之间的发散（Kullback，1997）。在最小化问题中，t-SNE使用了基于梯度的方法。用于特征缩减的t-SNE的进一步细节可以在文献中找到（Liu等人， 2021年）。输入t-SNE的2048维度的DF返回了10维度最有用的特征因此，根据经验将维度设置为10以获得最佳结果。4XN数据缩放：x0DFj¼iDFjJð5Þ-kCo - 变量计算：;tSNEjjj5我¼M.哈桑S。Ali，H. Alquhayz等人沙特国王大学学报8129PPh¼¼[1/2···]¼expðÞ.P.P21PQ21ðÞ ¼-我-我122 pP...21-1... . 1=2i1 2p2(6)ROC和AUC：受试者工作特征曲线，3.2.6. PCA和t-SNE特征融合1其中术语D2FF. FF100P- . FFL代表在本研究中，结合选定的PCA和t-SNE深度图像特征。PCA基于全局相关性线性地选择特征，使得所得到的图像特征是不相关的。另一方面，t-SNE方法以非线性方式基于局部统计来选择图像特征。线性和非线性图像特征的融合在改进HepG2癌细胞分类中起着至关重要的作用。以这种方式，新的融合特征维度从2048减少到20（10个PCA和10个t-SNE）。与高维深度特征相比，减少的特征节省了计算资源和时间。深度特征的后期融合还有一个优点，即它可以利用定制的ResNet101深度学习模型提取的最佳图像特征。这些融合的特征被馈送到QDA用于分类。数学上，晚期融合定义如下：马氏距离在在齐次协方差的情况下，1/2;等式中的函数(14)QDA减少到LDA。QDA的更多详细信息可参见文献（Ghojogh和Crowley，2019）。3.2.8. QDA培训如第3.1.3节所述，将数据集随机分为75%：25%的比例进行训练和测试。为了更好的泛化和避免过度拟合，而不是简单地通过重复epoch在训练75%的部分训练模型，最好使用标准的训练和评估方法，例如交叉验证（CV）。因此，将最严格的CV技术，即5倍CV，应用于75%的模型开发数据在5折CV中，在每次迭代中，四个折用于模型训练。第五个用于验证。在随后的ITER中-FFy10PCAi¼1;y10tSNEi¼1i11在这种情况下，数据被随机混洗，并且重复该过程。在这项研究中，使用了200次迭代的QDA模型训练一旦其中，FF表示从以下各项生成的融合特征（串联）：每个PCA和t-SNE的前10个分量使用等式(8)和（10）。以这种方式，基于维度20的融合特征FF来训练QDA。3.2.7.二次判别分析QDA是一种基于概率和统计的监督学习模型。与线性判别分析（LDA）相反，QDA中的所有测量值均呈正态分布。其次，在QDA中，类的等协方差的假设是不平等的。这一假设导致更好的性能QDA，作为贝叶斯判别的推广形式。对于非线性数据，与LDA分类相比，QDA预期表现更好。对于非齐次协方差，QDA为迭代完成后，使用25%的不可见数据来评估训练模型的性能。3.2.9. 绩效评价开发的模型进行了评估，在各种标准的定量质量措施，通常用于分类性能评价。根据测试数据集的混淆矩阵计算以下评价参数，其中TP、TN、FP和FN分别表示从混淆矩阵获得的真阳性、真阴性、假(1) 准确度：该指标用于评估“治疗”和“未治疗”类别的正确识别选择合适的分类。从数学上讲，QDA的异质性协方差假设可以表示为准确度PNð15Þ如：P两个种群Q和Q的联合密度，12(2) 灵敏度：该测量用于评估分类器正确识别阳性样品的性能。（融合特征）FF0FF1;FF2;FF3;;FFn的联合密度的样本可以由下式给出：敏感性TPPNð16Þfi1名P-1名F-1名F-1名P-1名F-1名我ð11Þ(3) 特异性：该指标用于验证分类器的性能，并确定阴性样本是否符合要求。被认定为阴性。在非线性的情况下，函数f_x_x_y分量不被组合. P.我特异性TN公司简介17Þ应用自然对数方程（11），这些比率的可能性给出查全率和查准率。和数据分配，x2Q，如果：十个P-1P-1职等1.0Pþ0个P-1员额- 是的p2p31F-分数¼2×精确度×召回率18查全率-2个FF哪里1-两个FFl1 1 -l22FF-kPlnp;120mg（5）马修斯相关系数（MCC）：这一措施评估-评估真实类别和模型预测类别相关性，范围1k½2ln.P1！þ.二、1 .一、l0-l1l021-l22ð13Þ从MCC¼TP×TN-FP×FNð19Þ否则，FF。如果使用Mahalanobis距离，则等式2(11)转换如下：fxD2F-D2F“。P1.#-2ln. p12014年2PTPFPTPFNTNFPT NFNNFN曲线下面积是评价分类器质量的重要指标。ROC是假阳性率和真阳性率的比值。从ROC曲线计算AUC，其中接近1的值表示有效分类。这些措施的进一步细节可以在文献中找到（Hassan等人， 2020年）。1个= 2个-1特征融合是该方法的一个重要步骤1同质协方差结构，. 在这种情况下，由(4)F分数：该指标评估加权谐波ΣM.哈桑S。Ali，H. Alquhayz等人沙特国王大学学报8130●4. 结果使用第3.1节中描述的数据集和第3.2节中描述的标准质量指标，对3.2.9. 进行了大量的实验，以检查所提出的方法的性能。开发了以下模型来预测HepG 2癌细胞对抗癌药物CFO@BTO治疗的响应：使用TL概念TL-ResNet 101模型只使用深度特征而不进行特征约简● 仅使用所有深度特征的QDADF模型● PCA● 使用深度特征的 t-SNE- QDA DF 模型使用所有融合特征（FF）的t-SNEQDA FF模型（使用PCA和t-SNE单独和组合减少的深度特征）使用TL概念分析了五种不同的流行深度学习架构的性能，即ResNet101，ResNet18，ResNet50，InceptionV3和GoogleNet。开发的模型的结果如表2所示。图S1（TL-ResNet 50）和图S2（TL-InceptionV 3）显示了一些训练模型的训练和测试损失和准确度曲线。如表2所示，TL-ResNet 101在HepG 2癌症药物反应预测方面优于所有其他模型。由于其更好的性能，TL-ResNet 101被用作基础网络，用于进一步开发的方法（即特征提取和减少和融合），然后使用QDA分类。接下来，修改ResNet101深度学习模型以进行深

下载后可阅读完整内容，剩余1页未读，立即下载