人工智能应用于医学信息学中的单元格功能预测

181 浏览量更新于2024-01-06 收藏 1.48MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

医学信息学解锁18（2020）100270基于人工智能的单元格功能预测SaralaPadi a，*，Petru Manescu a，Nicholas Schaub b，Nathan Hotaling b，Carl Simon Jr. c、Kapil Bhartib，Peter Bajcsya，**aITL，美国马里兰州盖瑟斯堡国家标准技术&b美国马里兰州贝塞斯达国家眼科研究所cMML，美国马里兰州盖瑟斯堡国家标准技术&A R T I C L EI N FO保留字：细胞分割细胞功能预测视网膜色素上皮细胞深度学习视网膜相关性黄斑变性跨上皮细胞阻力血管内皮生长因子A B S T R A C T使用非侵入性明场显微镜成像预测干细胞植入物中的视网膜色素上皮（RPE）细胞功能是干细胞疗法临床部署的关键任务。这种细胞功能预测可以使用基于人工智能（AI）的模型来进行。在本文中，我们使用基于传统机器学习（TML）和深度学习（DL）的AI模型来进行细胞功能预测任务。TML模型依赖于特征工程，DL模型自动进行特征工程，但建模复杂度较高。这项工作的目的是探索三种方法之间的权衡，使用TML和DL为基础的模型，从显微镜图像的RPE细胞功能预测，并在理解的准确性之间的关系PIXel，细胞特征，和植入物的标签水平的模型的准确性。在细胞功能预测的三种比较方法中，与使用中间分割和/或特征工程步骤的间接方法相比，从图像预测细胞功能的直接方法稍微更准确。我们还评估了模型选择（五个TML模型和两个DL模型）和模型配置（有和没有迁移学习）的准确性变化。最后，我们量化了分割准确度与用于训练模型的样本数量、分割准确度与细胞特征误差以及细胞特征误差与植入物标签准确度之间的关系。我们得出结论，对于RPE细胞数据集，训练样本的数量和图像分割精度之间存在单调关系，分割精度和细胞特征误差之间存在单调关系，但分割精度和RPE植入物标签的准确性之间没有这种关系。1. 介绍视网膜相关性黄斑变性（AMD）是一种影响眼睛黄斑的疾病。在美国有1000万人被诊断患有AMD，并且AMD的发生更可能发生在50岁以上的人中。AMD疾病是由眼睛视网膜中视网膜色素上皮（RPE）细胞的死亡引起的[2，8，29]。 RPE细胞与色素颗粒形成单层，具有紧密连接，并且在健康植入物中似乎具有六边形形状[15，35]。健康RPE细胞的这些视觉标志已被证明是RPE细胞植入物的155天生物制造过程中的关键质量属性[12，15]。在将细胞植入物输送给患者之前，必须对其进行评估，在植入物制备过程中健康细胞的功能。几项生物学研究将细胞形状与植入物“质量”联系起来[ 12 ]。基于这些研究，显微镜成像界一直在开发用于RPE细胞分割的监督和非监督自动方法，因为分割可用于1）形状分析，2）健康或不健康细胞区域的区分，以及3）细胞计数和密度的测量[9，23]。除了细胞形状测量之外，跨上皮电阻（TER）和血管内皮生长因子（VEGF）测量已经用于评估RPE细胞植入物的健康。TER是一种定量技术，用于测量眼视网膜上皮单层细胞培养模型中紧密连接动力学的完整性。TER和VEGF值的范围可以是健康状况的指标。* 通讯作者。** 通讯作者。电子邮件地址：sarala. nist.gov（S. Padi），peter. nist.gov（P. Bajcsy）。https://doi.org/10.1016/j.imu.2019.100270接收日期：2019年10月22日;接受日期：2019年11月16日在线发售2019年2352-9148/© 2019由Elsevier Ltd.发布这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表医学信息学期刊主页：http://www.elsevier.com/locate/imuS. Padi等人医学信息学解锁18（2020）1002702(TER>400 Ω：cm2，VEGF 比率>3）或不健康（TER400 Ω：cm2<和VEGF比率3）RPE细胞在植入物中的功能。<然而，这些测量范围可以根据特定测量而方法（筷子或Endohm方法）和聚合物插入物的类型[30，34]。为了提供高质量的RPE细胞植入物，可以通过分析分割的明场图像和预测TER/VEGF值来量化基于形状和基于TER/VEGF的标准。为了执行分割和预测分析，可以使用基于人工智能（AI）的模型。AI模型可以分为传统机器学习（TML）和基于深度学习（DL）的模型。TML模型依赖于特征工程，DL模型自动进行特征工程，但建模复杂度较高。此外，使用这些TML和DL模型需要准备注释数据、模型选择或模型设计、模型参数优化、相关特征的工程化等，这促使我们的工作探索TML和DL模型的折衷以预测RPE细胞植入物的TER/ VEGF/细胞计数。在本文中，我们使用了三种预测方法，使用TML和DL模型，这三种预测方法是直接或间接地从校准的明场显微镜图像，或没有分割和特征提取。三种预测方法描述如下：方法1（通过分割和特征提取进行间接标签预测）：使用深度学习模型（DL_Seg）将原始图像分割为前景（细胞）和背景，从分割的细胞中提取特征，并使用机器学习（TML_Reg）模型预测细胞功能。方法2（直接标签预测）：使用深度学习（DL_Reg）模型直接从原始图像预测细胞功能。方法3（利用特征提取的间接标记预测）：直接从原始图像（每个视场）提取特征，并使用机器学习（TML_Reg）模型从提取的特征预测细胞功能。这三种方法具有关联的预测准确性、相对于实现配置的准确性的可变性以及在设计复杂性、人力和可用性方面的总体权衡。表1中总结了权衡。权衡的建模因素包括（1）建模设计的总体复杂性，（2）建模参数的数量，（3）建模参数的全局与局部优化，（4）创建地面实况所需的努力水平(5)设计合适的特征所需的努力，（6）模型的透明性或可解释性，以及（7）模型的可推广性。我们的目标是比较这三种方法的准确性，量化它们在几种配置中的准确性变化，并探索在从RPE细胞植入物的明场显微镜图像预测TER、VEGF和单位面积细胞数量时基于TML和DL的方法之间的总体权衡。此外，我们还研究了分割与训练样本数量、分割与细胞特征以及细胞特征与植入物标签之间的关联准确性关系。主要贡献如下：比较从显微镜图像预测RPE植入物功能的直接和间接、基于TML和DL的方法之间的权衡，以最大限度地减少设计复杂性和人力，同时最大限度地提高模型准确性和可用性。将像素、细胞特征和植入物标签级结果的准确性关联起来的方法，以最大限度地减少建模步骤的数量。第2节描述了TML和DL模型在生物医学成像领域中用于细胞分割、细胞计数、药物发现、细胞核检测和细胞功能预测任务的使用，但是在将这些模型应用于新数据集或新任务时存在某些限制。主要的限制是用于训练模型的有限数据、设计模型的复杂性、优化模型参数、工程化相关特征等。虽然DL模型在细胞分割任务中是成功的，但是构建这样精确的模型需要相当数量的训练数据，并且创建这样的训练数据需要大量的人工努力。另一方面，无监督模型不需要任何训练数据，但准确性较低，对噪声的鲁棒性较差。因此，需要理解在标签预测任务的上下文中TML和DL模型之间的权衡（即，RPE植入物的细胞功能预测）相对于表1中总结的七个因素。这促使我们比较基于TML和DL的方法来预测RPE细胞植入物的细胞功能本文的组织如下：第2节介绍了相关的工作。第3节描述了用于细胞分割、特征提取和标签预测任务的数据集和基于TML和DL的方法，以及用于实验分析的指标。第4节给出了实验结果，并比较了细胞功能预测任务的方法。第5节讨论了基于TML和DL的方法之间的权衡的实验结果。第6节结束工作。2. 相关工作人工评估RPE细胞的质量是一个繁琐的过程，因为需要检测和分析数千个细胞的质量、形状、大小、位置等。在计算机视觉领域，存在用于细胞检测的传统方法，其结合了阈值化、直方图均衡化、中值滤波、特征检测和其他形态学操作，这些方法被组合应用[20，23，24，41]。Rangel-Fonseca等人提出了一种用于RPE细胞分割和量化分割图像中细胞数量的无监督算法[23]。Zafer等人表明，在多种数据类型上训练的支持向量机（SVM）模型在预测基因功能方面实现了非常好的准确性，但SVM模型易受噪声影响[7]。虽然机器学习模型广泛用于生物医学成像，但没有一个模型是所有类型问题的最佳选择[44]。大多数基于机器学习的方法用于细胞分离，这些方法的性能主要取决于为给定任务提取的相关特征[32]. 它是也示的选择的相关特征表1考虑建模因素以比较用于细胞功能预测的三种方法类型因子定义复杂性建模设计的复杂性针对给定问题探索合理的DL或TML模型架构建模参数数量在模型优化的复杂性相对于DL TML模型独立优化的参数数量工作量训练数据准备创建地面实况所需的工作量&设计合适的特征可用性模型的透明度或可解释性对结果模型系数的解释程度模型的可推广性在其他领域��S. Padi等人医学信息学解锁18（2020）1002703��ni¼1白色-黑色Gi[Pi和Alexander等人的DL模型[17 ]第10段。宋友义将DL与N1ðGi þPiÞGi-Pi改进了蛋白质亚细胞定位图像的分类[10]。B. Ko等人表明，与其他机器学习模型相比，随机森林（RF）分类器在分类白细胞方面更准确。RF模型擅长使用集成特征对具有少量训练数据的白细胞进行分类[16]。Chuanxin Zou提出了一种使用SVM模型进行基于序列标记的蛋白质功能预测的框架，该模型利用蛋白质特性来辅助特征选择[45]。在过去，许多基于机器学习的算法已经被用于构建用于预测蛋白质结构类的计算模型，例如SVM，但是TML方法的预测精度受到训练和测试数据集的序列相似性的强烈影响。Xiao-Juan Zhu等人开发了一种SVM模型，通过选择选择性特征成功预测低相似性蛋白质结构类[43]。还表明，通过使用基于随机游走的算法整合网络拓扑结构和生物学特征来鉴定必需蛋白质[21]。对于大多数基于TML的模型来说，找到相关的特征是至关重要的对另一方面，基于DL的模型执行自动特征工程，并且已经证明对于计算机视觉中的许多任务是成功的，例如图像分类，分割和对象检测[19，22，25]。最近，人们对基于DL的应用越来越感兴趣。显微镜细胞分割、检测和细胞计数模型成像请参考最近在临床研究杂志上发表的文章[46]。3.1.1. 用于RPE细胞分割和预测的如前所述，将所有明场显微镜图像转换为吸光度显微镜图像。用于分割任务的吸光度图像的数量是500个大小为256 - 256的吸光度图像瓦片从RPE细胞植入物中获取。这些图像用于训练分割任务的DL模型。每个图像块都有一个手动注释的真实掩模和相应的TER、VEGF和细胞计数值。将训练的DL模型应用于分割500个测试吸光度图像。对于RPE细胞功能预测，使用500个测试吸光度图像。3.1.2. 用于分析的三种选定的预测方法生成图像分割、每个细胞或每个视场提取的特征以及预测的回归值（TER、VEGF或细胞计数）。使用下文所述的多个指标评价这些生成的数值结果像素级度量：我们使用DICE相似性得分[36]在轮廓和区域级别评估了DL模型的分割结果。DICE定义为：N任务[3，26 海成易已经表明，DL模型可以学习高级特征和从DL模型骰子G;P盘1X2�Gi\Pi（一）对于预测ncRNA-蛋白质，[39 ]第39段。研究还表明，DL模型在预测细胞及其细胞核的位置方面非常准确，置信度为86%[1]。卷积神经网络（CNN）模型被广泛应用于细胞的分类和分割[18]。Zhiqiang Zhang et al.展示了深度学习技术如何用于预测和识别DNA序列中的功能单元，包括复制结构域、转录因子结合位点（TFBS）、转录起始点、启动子、增强子和基因缺失位点[42]。从显微镜图像中计数细胞是许多医学应用中的重要任务。这项任务是通过使用无监督和混合方法将图像分割成轮廓掩模来完成的[20，23]。Weidi Xie等人提出通过应用于显微镜图像的基于CNN的模型在生物医学其中轮廓水平DICE相似性分数仅通过考虑前期像素（边界像素）来计算，并且对于区域级DICE相似性分数，其通过考虑每个单元区域的标签来计算，其中特征水平度量：卡方（χ2）距离用于计算使用真实掩模从吸光度图像提取的特征与使用来自深度学习模型的预测掩模从吸光度图像提取的特征之间的特征直方图差异。其定义为：成像，DL模型优于所有传统机器学习模型N2在药物发现应用中，如在TMLX2距离1/4 1XPML-PML的比较中所记录的，（二）其他TML模型用于宫颈癌细胞分割，并且已经表明DL模型优于其他TML模型，在检测宫颈癌细胞的细胞核区域方面具有95%的准确度[33]。对于显微图像中细胞核的分割，DL模型优于所有标签水平指标：均方根误差（RMSE）和R2统计量用于评估TER、VEGF和细胞计数预测准确性vutffi1ffififififffiffiXffiffiNffififififififififififififififififififififififififififififififififififfi2ffi1/13. 材料和方法3.1. 材料其中R2 1PN1Gi-Pi2I¼培养RPE植入物并使其生长155天，公司简介国家眼科研究所（NEI），国家卫生研究所（NIH）。在此期间，通过明场显微镜对植入物进行成像。在多个时间点测量TER和VEGF的细胞植入功能。在通过稳定性成像方案后开始图像采集，并将所有图像转换为吸光度PIXEL测量（即-log10μ mol/L-黑色荧光素）。吸光度将图像平铺成256 × 256个图像并进行预处理，使得图像平铺可以与植入物水平的TER和VEGF测量相关联。对于每个图块，通过手动分割获得细胞的真实分割。然后将每个图像块与来自地面实况分割的其地面实况细胞计数相关联。关于实验设计、样品制备和i¼1μGi-平均值μPμ g其中3.2. 方法图1示出了用于解决细胞功能预测任务的三种方法。如图所示，每种方法都由特定的模型组成，这些模型使用选定的指标针对地面实况进行了优化。包括模型、参数、地面实况数据和优化技术在内的优化空间非常大，机器学习模型[6]。RMSE¼N（三S. Padi等人医学信息学解锁18（2020）1002704þþ�图1.一、三种细胞功能预测方法的数据流设计。GT是Ground Truth的缩写，TML是Traditional Machine Learning。因此，必须选择一个可行的子空间进行模型优化。在本文中，我们选择了一个用于分割的DL模型（表示为DL-Seg），一个用于细胞功能预测的DL模型（表示为DL-Reg，其中Reg代表回归），以及五个用于细胞功能预测的TML模型。此外，我们在特征工程步骤中选择了37个特征，包括基于强度、纹理和形状的描述符。最后，如第3.1.2节所述。我们选择了三种不同的度量来评估模型的像素、特征和标记水平。以下部分描述了所有三种方法，每种方法的步骤数，用于预测三种RPE细胞标记（TER、VEGF和细胞计数）的实现和配置。3.2.1. 方法1：使用分割和特征提取的该方法包括三个步骤：用于RPE细胞分割任务的深度学习模型（DL_Seg），从DL_Seg模型生成的分割RPE吸光度图像中提取细胞特征的特征工程，以及使用基于TML的模型从细胞特征预测细胞功能。该流水线被表示为“DL_SEG E X TRAC_T_FEATURES TML_REG”。表2示出了用于单元功能预测的实现步骤和配置。表2还包括表2方法1的实施步骤和配置细节。缩略语：WIPP- Web图像处理管道; RF-随机森林回归器; SVR-支持向量回归器; LR-线性回归器; SLP-单层感知器; MLP-多层感知器; RMSE-均方根误差。方法1第一步：分割a) 实现：Keras神经网络库[11]b) 配置：编码器解码器DL模型[26]&i）迁移学习步骤2：特征工程a) 实现：WIPP库[5]b) 配置：强度、纹理、形状i) EX每段ii) 手动选择步骤3：细胞功能预测a) 实现：Weka库[14]b) 配置：基于回归的模型i）RF、SVR、LR、SLP、MLP&用于特征提取和TML模型分析的库。从表中可以看出，细胞功能预测性能应取决于分割性能、提取的特征类型以及用于预测的特定TML模型。这种方法的模型设计复杂度非常高，因为我们需要选择用于分割的DL模型和用于细胞功能预测的TML模型。所需的优化水平非常高，因为模型需要在三个不同的步骤进行优化;分割、特征提取和细胞功能水平，包括用于分割的DL模型中涉及的全局参数和需要在TML模型中优化的局部参数。该方法通过提供三个准确的探针、用于分割的DICE评分、用于特征的χ2差和用于细胞功能预测的RMSE而透明。虽然这种方法是透明的，但它需要大量的手动工作来创建用于分割的地面实况数据，并设计用于TML预测分析的相关特征。第一步：分割为了将RPE细胞吸光度图像分割成前景（细胞）和背景像素，我们使用卷积神经网络（CNN）作为具有编码器/解码器架构的DL模型的类型。编码器将给定的输入图像映射到紧凑的特征表示中，然后解码器将编码的特征表示映射到全输入分辨率特征图以进行piX el分割[4，26]。本文中使用的模型基于U-Net CNN模型架构[26]，并对其进行了轻微修改，以提高迁移学习的模型准确性[40]。修改U-Net架构模型的编码器部分，以便在大型ImageNet数据集[13]上预训练的模型（称为VGG 16或OXford-Net）的系数可以加载到U-Net的编码器部分。在使用VGG 16系数初始化U-Net模型后，整个U-Net模型在RPE细胞图像上进行细化和训练。补充部分中的表1提供了应用于分割任务的修改的U-Net模型架构的细节。修改后的U-Net模型在大小为然后使用两个DICE相似性度量（轮廓和区域DICE）在500个测试图像上评估准确度。S. Padi等人医学信息学解锁18（2020）1002705þ表3为RPE细胞功能预测提取的特征列表特征名称特征类型特征名称特征类型偏心率空间平均强度强度表4方法2实施步骤和配置细节。方法2步骤1：细胞功能预测E·X帐篷空间最小强度强度a) 实现：Keras神经网络库[11]长轴AX是长度空间最大强度强度短轴AX是长度空间标准差强度质心空间中位强度强度加权质心空间模式强度面积空间偏度强度周长空间峰度强度等效直径空间第一中心矩强度方向空间对比纹理Solidity空间相关纹理b) 配置：VGG16 CNN模型[31]表5方法3实施步骤和配置细节。方法3步骤1：特征工程a) 实现：WIPP库[5]边界长方体X空间能量纹理b) 配置：强度，纹理欧拉数空间均匀性纹理填充面积空间熵纹理凸面积空间费雷特直径空间编号。相邻空间边界和背景空间邻居步骤2：特征工程一旦RPE吸光度图像被分割成轮廓掩模，我们应用连通分量分析来获得细胞区域。给定单元区域，特征工程步骤包括选择/构造特征、提取每个区域的特征以及计算所有图像瓦片上的特征的直方图。用于分析的特征列表如表3所示。我们使用Web图像处理管道（WIPP）提取了37个特征，这些特征被描述为基于强度，纹理和形状的特征[5]。WIPP系统集成了多个广泛使用的特征提取库，我们使用的是在Matlab中实现的。最后，采用χ2特征直方图差异度量对所有特征的直方图进行评价。步骤3：细胞功能预测由于TER和VEGF测量是连续变量，我们使用回归模型来预测RPE细胞功能。细胞计数也被认为是连续测量，以便为所有三个细胞功能标签重复使用相同的回归模型。对于所有模型，细胞特征是自变量，TER、VEGF和细胞计数是因变量。我们在分析中评估了五种TML模型，如表2所示。TML模型使用Weka机器学习库进行评估[14]。所有TML模型都是在从500个RPE细胞图像中提取的特征上进行训练的，其中66%的训练和34%的验证分割用于预测TER、VEGF和细胞计数图像标签。预测准确度使用均方根误差（RMSE）和R2统计量测量，如第3.1.2节所述。3.3. 方法2：直接标签预测这种方法由单个步骤组成，例如从图像预测RPE细胞功能。这一步的实现使用了深度学习回归模型表示作为 “DL_Reg”。表 4 列出了配置详细信息。DL模型架构类似于VGG16，具有额外添加的全连接层和卷积层中使用的许多滤波器1DL模型的训练和评估与如方法1的步骤3中的方式（即，500个吸光度图像，分割66%训练和34%验证，RMSE和R2度量）。1见补充部分表2i) EX放大器每视场（FOV）ii) 手动选择步骤2：细胞功能预测a) 实现：WEKA库[14]b) 配置：基于回归的模型i）RF、SVR、LR、SLP、MLP&3.4. 方法3：通过特征提取进行该方法包括两个步骤，特征工程和细胞功能预测。首先，从RPE吸光度图像中提取特征，然后建立TML模型，从提取的特征预测细胞功能。该整个流水线被表示为“E X TRACT_FEATURES TML_REG”。表5显示了实施步骤。这种方法不依赖于分割，因为每个视场（FOV）提取特征，因为预测标签是在FOV级别收集的。由于基于形状的特征在这种情况下没有意义，因此仅提取基于强度和纹理的特征用于细胞功能预测。4. 实验结果以下部分讨论了三种方法的实验评估，并比较了预测精度。4.1. 实验装置用于RPE细胞分割和细胞功能预测的DL模型使用具有CUDA 10.0版本的NVIDIA Tesla P100 PCI-E 16 GB图形处理单元（GPU）进行训练。深度学习模型使用Keras 2.0 tensorflow作为后端实现。DL分割模型使用Adam优化器来最小化二进制交叉熵损失。该模型针对对应于“300“个时期的8个梯度更新步骤进行训练。类似地，DL回归模型使用Adadelta优化器来最小化均方对数误差损失。回归模型针对对应于“5000”个时期的8个梯度更新步骤进行训练。4.2. 三种方法表6显示了RPE细胞植入物的TER、VEGF和细胞计数测量的数据范围。表7总结了准确度表6RPE细胞植入物的TER、VEGF和细胞计数测量值的范围。FOV-每个视野。VEGF比率-测量RPE细胞单层的基底侧相对于顶侧的VEGF分泌（基底侧/顶侧）。类型的测量Min.valueMax.valueTER（Ω：cm2）1271071VEGF比值（Ba/Ap）2.6711.20细胞计数（每个FOV）33298S. Padi等人医学信息学解锁18（2020）1002706表7比较三种用于细胞功能预测的方法对于方法1和3，报告了最佳机器学习模型结果（报告了随机森林回归模型性能）。逼近误差（平均值）均方根误差（RMSE）R2统计量TER VEGF细胞计数TER VEGF细胞计数TER VEGF细胞计数方法1 0.17-0.006-2.34 37.85 1.29 27.01 0.5253 0.794 0.6964接近2-0.59-0.15 5.55 24.49 1.17 25.64 0.837 0.8442 0.7915进近3-0.265 0.097 1.00 38.48 0.90 27.31 0.5186 0.9095 0.6687图二 . TER 、 VEGF 和细胞计数预测的三种方法的平均绝对百分比误差（MAPE）。比较使用三种方法的细胞功能预测。图补充部分中的1-3显示了预测与测量的标签。表7显示了细胞功能预测的三种方法的平均误差，图2给出了相对于地面真实值的误差百分比的详细信息。根据表7和R2值，方法2是唯一的方法达到大于0.75的R2基于这一标准，使用方法1和方法3的模型预测没有显示出与方法2一样强的相关性。我们假设较弱的相关性是由于方法1和3中的手工特征，因为这些特征可能与TER、VEGF和细胞计数预测不是最相关的。表8显示了将保持和5倍交叉验证应用于测试数据集中的500个图像的RMSE值。正如我们从表8中观察到的，结果彼此非常相似，表明具有耐用性数据子群体的模型。图3示出了三种方法的TER、VEGF和细胞计数预测的残差图。从图中可以看出。 3、盒X图在接近于零的中位数周围重叠。方法1和方法3的最小值和最大值范围略大于方法2的范围。方法2围绕其三个预测的中值对称，而方法1和3向上或向下偏斜，表明这两种方法高估或低估了细胞功能预测。与其他两种方法相比，方法2的扩散（VEGF和细胞计数）小得多。总体方法2，直接细胞功能预测，与其他两种方法相比稍微更准确。图补充部分中的图4-6显示了三个标签预测的残差图。误差分布是随机的，表明回归模型是无偏的。补充部分中的图6显示了三种方法的t检验比较结果，具有5%的显著性水平和95%的置信度。从分析中，我们可以得出结论，这三种方法在预测RPE细胞植入物的细胞功能方面具有统计学相似性。虽然这三种方法达到了类似的精度，但它们有不同的权衡，如第4.4节所总结的。4.3. 准确度变异性我们评估了有和没有迁移学习的DL模型的分割性能，以及使用五个TML模型的细胞功能预测。表9比较了有和没有迁移学习的结果。在轮廓和区域DICE分数方面，具有迁移学习的DL模型将分割精度提高了14%和22表8使用holdout和5折交叉验证方法评估细胞功能预测的三种方法的性能比较。基于TML的步骤使用随机森林回归模型。方法均方根误差（RMSE）保持验证5倍验证之三VEGF细胞计数之三VEGF细胞计数方法137.851.2927.0140.631.2025.97方法224.491.1725.6427.871.1423.11方法338.480.9027.3138.200.9726.37图三. BoX图显示了执行每种细胞功能预测方法时的误差分布。S. Padi等人医学信息学解锁18（2020）1002707图四、分割结果的视觉比较。图五. 用于RPE细胞分割任务的五种DL模型的分割精度比较，有和没有迁移学习。DL_Seg模型：用于RPE细胞分割的深度学习模型; TL：通过调整VGG 16预训练模型权重进行迁移学习同时将细胞计数误差减少12%。因此，良好的分割导致细胞计数的小误差，因为细胞计数主要取决于分割精度。图4a、4b、4c和4d示出了样本RPE吸光度图像、从具有和不具有迁移学习的DL模型生成的真实分割和分割掩模。对于方法1和3，表10和11比较了用于细胞功能预测任务的五种不同TML模型的准确性结果。RF模型优于其他TML模型。4.4. 三种方法虽然三种方法的准确性比较产生了统计上相似的性能，但每种方法都在设计复杂性、人力和模型可用性方面进行了权衡，如表1所示。方法2的模型设计复杂性要简单得多，并且它不依赖于分割和手工制作的特征。这种方法的主要优点是，与方法1相比，对于细胞功能预测进行了全局优化。此方法克服了创建地面实况和设计预测要素S. Padi等人医学信息学解锁18（2020）1002708见图6。TER、VEGF和细胞计数预测误差（TER 127，1071>、VEGF 2.67，11.20>、细胞计数33，298>的范围）相对于χ2特征直方图差异。每个绘制的数据点旁边的数字是指训练图像的数量表9使用和不使用迁移学习的分割精度比较。DL_Seg模型：用于RPE细胞分割的深度学习模型; TL：通过调整VGG 16预训练模型权重进行迁移学习。模型DICE评分细胞计数错误轮廓区域DL_Seg模型0.52090.49130.1290DL_Seg模型0.66380.72370.0171表10使用方法1的用于细胞功能预测的TML回归模型的性能比较。模型均方根误差（RMSE）保持验证5倍验证之三VEGF细胞计数之三VEGF细胞计数LR43.551.3437.0141.401.4534.07SVR40.691.3938.7540.901.4633.68RF37.851.2927.0140.631.2025.97SLP58.942.0039.4453.411.8540.96MLP48.851.3233.0048.711.2030.74表11使用方法3的用于细胞功能预测的TML回归模型的性能比较。模型均方根误差（RMSE）保持验证5倍验证之三VEGF细胞计数之三VEGF细胞计数LR46.661.1840.8148.021.2938.65SVR43.981.2736.5248.921.2935.26RF38.480.9027.3138.200.9726.37SLP44.951.6037.5153.641.4936.60MLP34.550.570734.5538.500.7233.54分析.当分析方法3时，虽然它不依赖于分割，但其性能取决于特征引擎的优化和TML模型的选择。这种方法在模型设计、创建地面实况所需的工作量、所涉及的参数数量以及实现中所表13总结了三种方法在测试图像上推断的时间方法2比其他两种方法快得多（毫秒对分钟的量级我们在表12中总结了所有三种方法的权衡基于表1中定义的七个因素。如果我们根据与表12中“理想“属性的距离对三种方法进行排序，那么从最小到最大的距离排序是：方法2，方法3和方法1。因此，从表7和表12中，我们得出结论，方法2在权衡因素方面有可能成为最准确和最尽管基于排序的方法2是用于细胞功能预测任务的最佳方法，但其在模型解释能力（对用户透明）和对穷举参数优化的计算要求方面具有限制。另一个限制是训练模型所涉及的参数数量。例如，回归DL模型比分割DL模型具有更多的参数，因为它包含完全连接的层，因此需要更多的图像进行训练。对于给定的回归任务，可以通过在所有架构上优化DL模型来减少参数的数量。然而，这种优化在计算上是昂贵的，并且超出了本文的范围。未来，我们将计划优化每种方法中的DL模型，并选择最准确的DL模型用于分割和细胞功能预测任务。4.5. 像素级、要素级和标注级精度为了理解方法1中步骤的链接建模精度之间的关系，我们设计了一种方法，如下所示：为不同数量的训练图像构建多个DL分割模型。应用DL分割模型对500幅测试图像进行分割，得到多组分割模板。从每个分割掩模集合提取特征。从每组特征预测细胞功能使用多个指标评估DL分割掩码、特征直方图和预测标签在我们的研究中，我们选择了五个DL分割模型，分别在50、100、200、300和400个训练样本上训练。这五个模型在500张测试图像上进行了测试。图5a、b和5d示出了根据轮廓DICE、区域DICE和细胞计数误差报告的分割性能。随着训练样本数量的增加，分割精度提高，细胞计数错误减少。图5c示出了特征直方图差如何相对于分割准确度而变化。如预期的，χ2特征直方图差异和单元计数误差随着区域DICE增加而减小。图6示出了关于X2特征直方图差异的TER、VEGF和细胞计数预测误差。如果分割步骤很重要，��S. Padi等人医学信息学解锁18（2020）1002709表12三种方法应用于RPE细胞预测问题的定性权衡。标签“低”、“中“和“高“是定性值，并且基于相对于理想值的比较评估来分配。因素方法1方法2方法3理想造型设计高（2）低（0）介质低（0）建模参数中等（1）高（2）低（0）低（0）优化的复杂性高（2）低（0）中等（1）低（0）培训数据准备高（2）低（0）低（0）低（0）特征工程手册（2）自动（0）手册（2）自动（0）模型透明度高（2）低（0）中等（1）高（2）模型推广性中等（1）高（2）低（0）高（2）表13定性比较三种方法的推理时间。时间以毫秒（ms），分钟（min）为单位。由于每种预测方法都有大量的配置参数，我们在本研究中包括了几个说明性的结果，测试时间估算时间速度配置优化. 第一、的图像分割步是1DL_Seg最低 FE最低 TML ms最低最低2DL_Reg ms高3 FE最小 TML最小低对于细胞功能预测，则预测误差应随着χ2特征直方图差的减小而减小。如图6所示，特征直方图差异与TER和VEGF预测准确度之间没有相关性，但与细胞计数相关。我们假设TER和VEGF测量对显微图像分割精度不敏感，因为它们是组织水平的宏观测量。5. 讨论从实验数据的角度来看，我们的分析仅限于公开提供的特定数据集（600 GB）。需要额外的实验来建立良好的TER/VEGF水平与多种组织中的细胞群体分布之间的从参数优化的角度来看，这项研究涵盖了一小部分的搜索空间形成的所有可能的实现和配置，可以使用三种常见的TML和DL为基础的方法。我们发现，这三种方法在预测准确性方面可以在统计上等同，但在设计复杂性，人工努力和模型可重用性方面存在显着差异。由于大多数权衡因素难以量化，因此，选择何种办法仍在很大程度上取决于具体任务和现有资源。例如，培训数据准备所需的工作量可能超过任何其他权衡因素。如表12所示，用户可以选择这些方法中的一种基于应用特定的要求。所有采集的数据和地面真值都可供读者使用从这里浏览和下载2段的DL模型，该系统已集成到一个软件包WIPP，可从此处下载。3WIPP中也提供6. 结论和今后的工作我们使用三种方法利用基于TML和DL的建模方法来呈现细胞功能预测结果。虽然这三种预测方法具有统计学上相似的准确性性能，但是使用DL模型从图像直接预测TER/VEGF/细胞计数的方法比使用DL和TML模型以及中间分割和/或特征工程步骤的其他两种间接方法稍微更准确。2https://isg.nist.gov/deepzoomweb/data/RPEimplants。3https://isg.nist.gov/deepzoomweb/software/wipp。配置有和没有迁移学习。与不使用迁移学习的模型相比，使用迁移学习的分割模型将分割精度提高了25%，同时利用了基于ImageNet数据集构建的预训练模型。接下来，使用五个基于TML的回归模型配置基于特征的标签预测步骤。我们报告RF模型是最准确的，尽管不如直接基于DL的方法准确我们还比较了基于TML和DL的方法的基础上的设计复杂性，人力资源，模型重用性的七个因素。方法2，直接标签预测，排名最高，缺点与缺乏模型透明度和大量的参数要优化。此外，我们说明了一种方法，用于将中间像素级和特征级结果的准确性与最终标签级结果相关联。通过使用多级评估指标，我们获得了关于（a）每种方法对细胞功能预测的敏感性，（b）方法内每个模块实现的准确性之间的关系，以及（c）预测准确性和分割准确性之间的依赖关系的见解。基于这样的分析，我们表明，细胞分割精度和特征直方图不相似性（和细胞计数误差）之间存在关系，但分割精度和细胞功能预测精度之间没有明确的关系。方法1和方法3的准确性性能主要取决于特征工程阶段。对多个特征选择方法的优化可以提高细胞功能预测性能。未来的工作可能会结合这些额外的优化以及DL模型的可视化，以提供有关细胞功能预测和细胞分割任务的有用见解。免责声明在本文件中确定了商业产品，以充分说明实验程序。这种标识并不意味着美国国家标准与技术研究所的推荐或认可，也不意味着所标识的产品一定是最好的。竞争利益我们希望确认，本出版物不存在已知的利益冲突，也不存在可能影响其结果的重大财务支持确认该项目得到了美国国家标准与技术研究所、美国国立卫生研究院国家眼科研究所、美国国家卫生研究院国家眼科研究所和美国国家眼科研究所的支持。 Schaub得到了国家S. Padi等人医学信息学解锁18（2020）10027010¼美国研究委员会研究协会计划; NIH TEAM T32组织工程培训补助金（2T32 DE 007057 -41）。附录A. 补充数据本文的补充数据可在https：//doi网站上找到。org/10.1016/j.imu.2019.100270。引用[1] Al-Kofahi Y，Zaltsman A，Graves R，Marshall W，Rusu M.基于深度学习的显微图像二维细胞分割算法。BMC Bioinf 2018;19：365.[2] AmbatiJ，Fowler BJ.老年性黄斑变性的发病机制

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

人工智能应用于医学信息学中的单元格功能预测

人工智能在医学上的应用

人工智能在病理诊断领域中的应用.pdf

人工智能在全科医学领域的应用.pdf

MATLAB文件读取在医疗保健和生物信息学中的应用：数据赋能健康

YOLO目标检测算法在医学影像分析中的应用探索

YOLOv5图像跟踪与人工智能融合指南：赋能智能化应用，创造无限可能

MATLAB生物信息学秘诀：探索生命科学数据的奥秘

计算机视觉与人工智能：OpenCV摄像头图像处理的未来展望

MATLAB函数句柄在机器人技术中的应用：运动控制和传感器融合，赋予机器人智能

MATLAB深度学习：探索神经网络和图像分类，解锁人工智能潜力

混淆矩阵在医疗影像诊断中的实际应用案例

HOG特征检测赋能机器人感知世界：在机器人视觉中的应用

Darknet YOLO图像检测：教育与研究中的应用，探索知识边界

Java算法图像处理：算法在图像处理中的应用，探索图像处理的奥秘

HOG特征检测打造更自然的人机交互体验：在人机交互中的应用

目标检测算法简介及应用

构建预测模型和解决复杂问题的利器：MATLAB脚本机器学习教程

【Java图像处理技术】：分析与应用的深度指南

seaborn进阶应用：使用热图和分面网格实现更加复杂的数据可视化

：旋转目标检测YOLO的行业应用案例：从安防到医疗的成功实践

最新资源