“多边缘对比学习算法用于亚细胞蛋白质定位的方法”

51 浏览量更新于2023-10-25 收藏 835KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

20626肝肾膜核多标记亚细胞蛋白质定位的多边缘对比学习算法Ziyi Liu，Zengmao Wang*，Bo Du*武汉大学湖北省多媒体与网络通信工程重点实验室，武汉{ziyiliu，wangzengmao，dubo} @ whu.edu.cn摘要蛋白质亚细胞定位是研究人类细胞功能和肿瘤发病机制的重要内容。它引起了计算机视觉界的极大关注。然而，免疫组织化学（IHC）图像的巨大尺寸、不同组织图像中无序的位置分布以及有限的训练图像一直是PSL通过深度学习学习强泛化模型的挑战。本文提出了一种基于多边缘对比学习的蛋白质亚细胞深度定位方法，用于识别不同组织图像中的相同蛋白质标记语言和同一组织图像中的不同蛋白质标记语言。在所提出的方法中，我们通过融合来自下采样图像的全局特征和来自所选块的局部特征与激活图来学习IHC图像的表示，以解决IHC图像的过大。提出了一种多边缘注意机制来生成不同边缘的对比对，有效地提高了PSL模式的区分度。最后，每个IHC图像的集成预测得到不同的补丁。基准数据集上的结果表明，该方法实现了PSL任务的显着改善。1. 介绍蛋白质亚细胞定位（PSL）对于解释和鉴定蛋白质的功能以揭示病理至关重要，这可以为药物发现的靶点鉴定过程提供有价值的信息[33，42]。在亚细胞水平上分析人类蛋白质的空间分布可以帮助我们了解人类生物学和疾病[14，27，32]。例如，定位于线粒体的蛋白质可能具有*通讯作者。细胞质图1.肝脏和肾脏的IHC图像显示，两种组织的一般结构非常不同。使用化学染料在两个图像上显示相同的蛋白质两个图像的PSL由于细胞质中的染色蛋白质，大多数图像是棕色的。下面的详细图像显示蛋白质也存在于核膜上。细胞有氧呼吸和能量生产的功能[13]。它还表明，蛋白质的亚细胞位置的异常可能涉及许多人类疾病的发病机制[8，22]。此外，研究正常和癌症状态下蛋白质错误定位的发生可以帮助发现和定义癌症标志物[10]。然而，依赖于人类专家来识别PSL的方法，例如湿实验室生物方法，是耗时且昂贵的。机器学习广泛用于亚细胞模式识别，以有效地进行注释。在过去的二十年中，许多研究都集中在PSL与机器学习技术的结合上[21]。根据PSL的数据类型，相关研究大致可分为两类：a）基于氨基酸序列的模型和b）基于氨基酸序列的模型20627基于蛋白质高通量显微图像。考虑到蛋白质功能取决于氨基酸序列[1，3，7]，获得序列信息以预测蛋白质亚细胞位置[15，19]。然而，此类方法在检测动态蛋白质易位中具有低灵敏度，而动态蛋白质易位已被证明在鉴定癌性生物标志物中是必不可少的[2，4，16]。基于图像的方法通常使用高通量显微图像来学习蛋白质分布。蛋白质通过化学染料或荧光显示在图像上，清晰简洁地反映蛋白质分布和空间表达信息[40]。免疫荧光（IF）图像[24]或免疫组织化学（IHC）图像是PSL任务的两种常用图像。IF图像通常需要将细胞培养物或组织图像分割成单个细胞，而这项任务非常具有挑战性[26]。基于组织的IHC图像可以显示从组织水平到细胞水平的蛋白质分布。因此，IHC图像一直是PSL任务的重要源数据[34]。与序列数据一致，IHC图像有助于研究健康和患病组织中的PSL [9]。我们在图1中显示了来自肝脏和肾脏的具有相同染色蛋白的IHC图像。从图1中，我们注意到不同组织中细胞的形态结构非常不同，尽管它们具有相同的PSL。还应注意，组织图像中的不同PSL可具有类似的形态结构。鉴于近20%的人类蛋白质共存于一个以上的亚细胞位置，许多方法被开发用于基于多标记学习的PSL问题[28，38]。然而，具有相同PSL的跨组织图像的形态结构和亚细胞内的差异组织图像使得难以区分不同PSL的分布，并且提高多标记PSL方法的性能仍然是一个挑战[26]。在本文中，我们提出了一种新的深度学习算法，称为DeePSLoc，通过使用IHC图像来识别蛋白质亚细胞位置。为了处理大尺寸的IHC图像，我们提出了利用下采样图像和裁剪块来提取IHC图像的特征。下采样图像用于保持IHC图像的全局特征，而裁剪块用于保持IHC图像中的结构细节。具体来说，我们使用下采样图像来生成激活图。由于激活图集中于组织的不同形态结构，因此我们选择具有最高激活值的裁剪块。然后，可以有效地获得全局特征和局部特征，以捕获形态和亚细胞差异。为了学习不同PSL的区分特征，我们在DeePSLoc架构中提出了一种多边缘对比学习方法，称为多边缘注意机制。多边缘注意力机制-焦虑源于自我注意机制。我们使用不同边际的对比损失来训练这样的机制。对于每个间隔，我们得到一个分配矩阵，其中的元素表示样本对在对比学习中提高特征的区分能力的程度。利用与锚样本具有相同标签的所有正样本，我们可以获得正分配矩阵。然后对初始的正样本进行加权平均生成正样本进行对比学习，并将分配矩阵中的元素作为权值。通过不同的边界，我们可以生成一组阳性样本以及阴性样本用于对比学习。实际上，这些生成的对比样本通过使用不同的边缘进行学习来考虑不同的分布。因此，对比结构有效地减少了蛋白质具有相同亚细胞位置的不同组织形态的干扰。 DeePSLoc的代码和模型在 www.example.com 上公开提供https://github.com/ziniBRC/DeePSLoc。该文件的主要贡献可归纳为：• DeePSLoc开发了一个令人兴奋的框架，以解决PSL的IHC图像的巨大尺寸挑战。它可以有效地学习IHC图像的形态学和亚细胞特征。• 受自注意机制的启发，本文提出了一种新的多边缘对比学习方法来生成对比对，该方法可以大大提高深度网络对PSL的鲁棒性和性能。据了解，这是第一次使用注意力机制对原始样本进行加权聚合以生成对比对。• 所提出的方法在单标签和多标签数据集上都明显优于最先进的方法。本文的其余部分组织如下。相关工作在第2节中讨论。在第3节中描述了所提出的深度学习方法的细节。实验设置和结果见第4节。结论见第5节。2. 相关工作2.1. 人类蛋白质图谱人类蛋白质图谱（HPA）是一个公开可用的数据集，包含数百万个高分辨率IHC图像[35]。HPA的IHC图像是两种混合染色的明场显微照片，可反映某些蛋白质（棕色）和DNA（紫色）信息。数据集[26]和[39]中选择的HPA通常包含几十种组织中每种蛋白质的0-6个图像。图1示出了来自免疫组织化学的IHC图像的有效信息20628×∗×××××HPA。每个IHC图像的大小为3000 3000。数据集的组合给PSL带来了不可避免的挑战。2.2. PSL的传统方法给定原始IHC图像X，我们将图像和裁剪的块分别表示为X I和X P。我们将生成的图像分支和补丁分支的正样本、锚样本和负样本表示为Xg+、Xa、Xg-、Xg+，由于传统的分类能力有限Xa Xg-I I IP传统分类器，传统方法通常同时处理DNA通道和蛋白质通道图像，以整合更多样化的功能[18，25]。iPhone4从分离的通道中提取Haralick纹理特征、DNA分布特征和LBP特征，这些特征表征了局部图像纹理和微图案的空间结构[38]。使用IHC图像的大多数 PSL 算法侧重于从图像中提取亚细胞位置特征（SLF）[29]。与单标记预测器不同，多标记预测器通过集成多个分类器用于蛋白质亚模块定位[28]。[26]中的方法试图提取IHC图像中蛋白质和DNA的分布特征。这种方法有一些明显的局限性。用解混算法得到的估计图像代替原始图像会丢失图像信息。不适当的选择算法可能无法过滤出有效的SLF。前一步的性能直接影响下一步的准确性。此外，该框架对不同组织图像中蛋白质分布的差异不够鲁棒。2.3. PSL的深度学习方法近年来，一些基于深度学习的方法在许多领域引起了极大的关注，以及使用IHC图像进行蛋白质亚模块定位。AnnoFly [41]利用CNN来学习IHC图像的初始特征表示，然后采用RNN网络。RNN网络通过将CNN的特征馈送到其中来充当分类器。 Imploc [23] 采用在ImageNet [17]上训练的预训练ResNet模型从IHC图像中提取特征，然后将特征向量馈送到Transformer网络中。由于图像的巨大尺寸，所有上述网络都从预训练的骨干网络中提取特征，而无需微调。然而，来自ImageNet的图像和来自HPA的IHC图像之间存在域差异。因此，来自使用ImageNet训练的预训练模型的特征将无法适应IHC图像分类。虽然深度学习的性能优于传统方法，但性能令人满意的方法仍需深入探索。3. 方法我们提出了一个具有多边缘对比学习的深度学习模型来预测蛋白质的亚细胞定位。在第3.1节中，我们介绍了我们的方法的概述。多边缘注意机制的详细结构将在3.3节中讨论。P，分别。ResNet的模型公式图像和补丁分支中的骨干定义为BI和BP，多边缘注意机制中的ASPP模块[5]表示为FI和FP。为了清楚起见，在本文中，H是边距的计数，N是批量大小。Φ（）测量两个样本之间的欧几里得距离。3.1. DeePSLoc概述DeePSLoc的流程图如图2所示。由于IHC图像的巨大尺寸，不可能在不遭受内存不足问题的情况下将整个图像输入深度神经网络。我们将模型分为两个分支。两个分支具有相同的构造，具有下采样和修补图像输入。在第一阶段，我们将原始图像降采样到低分辨率，以便我们可以直接处理IHC图像。我们的目标是训练我们的网络的一个分支来预测下采样图像的正确标签。根据VGG和ResNet等骨干网络的输出特征生成激活图，反映用于预测的区分性补丁。在第二阶段中，我们裁剪具有前T个最大激活值的判别性补丁。这些补丁被输入到我们网络的另一个分支，以获得本地表示。来自下采样图像的全局特征和来自修补图像的局部特征被连接在一起用于最终预测。3.2. 数据生成为了避免内存不足（OOM）错误，我们将原始图像降采样到512 512的大小。给定训练的下采样图像分支，我们从ResNet-18的输出中提取每个图像的激活图。我们计算来自主干的特征的通道平均池化。激活图的大小在DeePSLoc是16 16。因此，原始图像可以被分成16个部分。在补丁分支中，我们将每个原始图像裁剪成几个补丁，大小为256 256。当我们训练模型时，一个补丁作为一个分类实例，其标签与未裁剪的原始图像相同。在测试过程中，我们裁剪每个测试图像到T补丁的大小为256 256根据激活地图。如图2（d）所示，我们对T预测概率进行平均，以获得测试图像的最终预测。通过这种方式，减轻了训练网络对巨大IHC图像的挑战，并增强了结合补丁结果的预测。对于下采样的图像和裁剪的补丁，我们206290.800.200010000.400.200.400.500.500.800.200010000.400.200.400.500.501 1Conv00.400.600000.50.500.100.901 1Conv1 1Conv1 1Conv1 1Conv1 1Conv1 1Conv补片锚钉1 1Conv补片锚钉图像锚T预测图像锚Concat补片锚钉图像锚×.Σ。Σ--QKT√dk√我我D我我我.Σ我测试阶段选定的T型贴片下采样图像e图2. DeePSLoc的架构。(a)原始图像具有巨大的尺寸被下采样和裁剪成补丁。BI和BP分别是从下采样图像和补丁中提取特征的骨干网络。然后采用多边缘注意机制构造图像和斑块的对比对进行对比学习。（二）是多边缘注意机制的细节管道。Q+、1个解决方案和全局池化层。通过对应的分配矩阵和锚特征的相乘来生成所述多个或多个门控样本。（c）显示培训阶段的分类管道(d)所选择的T块和下采样图像用于预测。在-15至15度之间随机旋转图像。一半的图像也是随机水平压缩的，以提高数据多样性。3.3. 多边缘注意机制由于组织图像上和组织图像内的不同PSL的分布具有很大差异，因此对齐相同PSL和不同PSL之间的特征的难度也不相同。因此，它不是真的-损失m1m2m3X，Xsonable选择锚样本与分配的马，这是获得了一个固定的对比边际。为了解决这个问题，我们训练我们的模型来生成容易和困难的阳性/阴性样本，以进行对比学习。阳性/阴性样本生成的靶标丢失如图3所示。不同颜色的线表示具有不同边距的损失。我们的目标是生成的样本，可以保持批量数据的多样性和区别特征。3.3.1关注管道受多头注意[36]的启发，我们将注意机制引入到积极和消极的生成中，图3. 多边际网损计算的可视化。横轴表示ΦX，X −和Φ X，X+之间的差值。不同的颜色表示不同边际的损失对于每一个损失，我们的目标是训练分配矩阵来学习边缘集m1，m2，m3周围的对，这些对用不同的颜色框起来。以图2中的正片生成为例，ResNet特征的嵌入被输入到注意力模块，对应于键和查询。我们计算查询和键的点积，并应用softmax函数来获得分配矩阵。然后，正或负分配矩阵M被计算为：.<$Q+（Bi（Xi））<$K+（Bi（Xi））T<$我√不同边缘的阴性样本在多头在-注意，输入查询、键和值来计算注意：注意（Q，K，V）=softmaxV（M+= softmaxiiD.<$Q−（Bi（Xi））<$K−（Bi（Xi））T<$、（二）、为了便于理解，我们遵循多边缘注意机制中的查询，键和值的名称。其中，K+（）、Q+（）、Q-（）和Q-（）表示1×1卷积和GAP层的复合函数，作物斑块向下-样品图像正面多边缘注意机制图像锚N 3000 3000图像计数：N生成激活图Image Negative贴片定位选择T多边缘补丁注意机制补片锚钉贴片计数：NT斑片阴性低高1 1Conv…00... 66600... 2220. 2220.800.20MatMul01001 1Conv…0.400.2000.500.50正掩模批量：N1 1Conv…MatMul1 1Conv…负象遮片逐元素乘法0.400ASPP模块图像锚补片锚钉间隙间隙0.8000。. 2000.400.600000.50.500.100.90000 。. 400的情况。6间隙对比对间隙FC层…MatMulMatMulSoftmaxSoftmax对比损失对比损失Mi−= softmaxT预测阿韦拉格预测ConcatFC层预测20630◦IJM=.Σ。Σi，hconconΣΣ−我N我∗我ih我ih成对的。从等式 6，我们可以观察到Xa总是G+g-我N我ih我ihH.我其中，gj（X a）表示C我我我伊伊伊我正、负分配矩阵，d表示矩阵B（X）的dim，Mi表示来自i（图像或面片）分支的分配矩阵。3.3.2对比对生成为了将正/负样本保持在与锚相同的特征空间中，我们计算正/负分配矩阵和锚特征的点积以生成正/负样本。虽然正负分配矩阵处理的流水线是相同的，但在等式中进一步乘法的矩阵的注意掩模。2是不同的。对于每个锚点，我们只考虑具有相同标签的样本，以根据阳性分配矩阵生成阳性。同时，仅具有不同标签的样品被分配为阴性样品。因此，我们根据规则屏蔽M在所提出的方法中，我们通过冻结主干网络来训练多边缘注意机制，以保证用于生成对比样本的特征不变。通过这种方式，多边缘注意机制能够快速收敛。3.4. 对比表征学习不同组织的蛋白质含量和分布不同。鉴于多种组织，标记每个组织中的IHC图像是昂贵的。此外，可用的标记的IHC图像通常是有限的，从而在训练学习区分特征。我们将生成的锚点、正样本和负样本定义为（Xa，X g+，Xg−），i ∈ {1，2，...， N}。具体如下：M+= . M+，如果yi=yj/在本文中，我们将对比结构应用于下-采样图像和裁剪补丁。对比损失可以表示为：ij0，如果yi=yj-0，如果yi=yjij-（三）Lcon=NHMij，如果yi/=yjIJIJ最多1小时。Φ。X a，Xg+ − Φ。Xa，Xg-+m，0其中M+M-是第j个样本的权重N i=1h =1伊伊伊伊（六）被分配给第i个高分辨率和高分辨率样本的，yi表示第i个样本的真实标签做对比实验-其中m是裕度，其表示最小间隔之间Φ Xa，Xg+和Φ Xa，Xg- . η是数字Xg+=Mh+Fi<$Bi（Xi），i∈{I，P}（四）靠近Xih，远离Xih。为了便于区分，我们表示下采样图像的对比度损失，g-i，h=Mh-Fi<$Bi（Xi），i∈{I，P}裁剪面片作为LILp分别其中Xg+和Xg-表示生成正或负-交叉熵损失用于训练分类器效果，i，hi，h进一步提高和完善了对单..来自第i个（图像或块）的有效样本通过第h个分配矩阵分支。标签预测任务。交叉熵损失可以表示为：N c3.3.3多边际优化为了便于理解，下面的所有公式都只包含-L=1yCNiji=1j =1log（gj（Xa））（7）在我们的网络中的一个分支中，X来自图像分支或补丁分支。为培养多边际注意机制，不同边际的对比损失我们采用二进制交叉熵损失的每个标签在多标签的情况下。分类亏损可表示为：gins to train是什么意思它可以表示为：L（m）=L=−1Σ Σy·log（g，j）（Xa））（八）宾馆（5）i=1j=11Σ Σ|Φ。X a，Xg-− Φ。X a，Xg+− m|i=1h=1+（1−yij）·log（1−gj（X a））其中，Xa是锚特征，Xg+和Xg-是一般特征，第i个样本属于第j个标签，c是标签和Y表示第i个样本的真实第j个从分配矩阵中抽取正负样本，第h个边距为mh，Φ（）度量两个样本之间的欧氏距离。我们应该注意到，对比学习的对是通过生成来获得的。如果我们训练这个建筑师-X同样的空间，我们产生了积极的和消极的，取样人：IJ20631con∈IJ我们将对比损失和交叉熵损失与权衡参数结合在一起，以有效地学习表示，最终损失函数可以表示为：以端到端的方式，很难被转换-L=（1−β）<$LC+β<$（LIpcon）（9）由于多边缘注意机制的输入和输出都是不断变化的。因此，我们认为，其中β[0，1]是一个超参数，用于平衡分类和对比损失之间的重要性。+L20632HPA-7ACCPrec召回F1分数HPA-8ACCPrec召回F1分数[26]第26集66.7967.3166.9866.95[26]第26集68.5671.4869.8470.51第26集5.1 Becauseof the Lord（2008）75.8576.4176.0576.05第26集5.1 Becauseof the Lord（2008）75.4978.1176.9377.43ImPLo [23]c（2020）89.0989.2589.0989.07[23]第二十三话84.1985.0685.5385.19我们97.9597.9897.9697.96我们95.1996.1395.5795.83表1.HPA-7和HPA-8数据集的单标签分类结果S. C和V. C表示简单分类器和投票分类器[26]。粗体字表示比较方法中的最佳方法。多HPA子集ACC例如ACC例如prec例如召回例如F1标签ACC标签prec标签召回标签F1CSF-CC [28]（2018）CSF-BR [28]（2018）ML-GCN [6]（2019）[23]第二十三话[20]第二十话我们89.8685.2785.1787.9391.3895.86--90.2389.9494.7296.98--91.2690.6895.6997.41--92.5390.8095.9297.36--91.8990.7595.8097.39--94.3394.4397.2998.37--89.1591.8395.8997.65--92.6190.6995.1196.66--90.8591.2695.5097.15HPA-18子集ACC例如ACC例如prec例如召回例如F1标签ACC标签prec标签召回标签F1[38]第38集[41]第41集：我的世界ML-GCN [6]（2019）[23]第二十三话[20]第二十话我们30.340.560.353.857.961.235.444.468.060.864.968.040.848.874.867.772.775.235.644.468.961.164.968.538.046.571.564.268.671.977.279.989.086.187.989.031.191.575.681.986.689.324.916.736.728.335.037.127.728.249.342.049.852.4表2. Multi-HPA和HPA-18数据集的多标签分类结果。粗体字表示比较方法中的最佳方法。4. 实验我们将DeePSLoc与单标签和多标签方法进行比较，以评估所提出的方法的有效性。在每种情况下，都会比较几种最先进的方法，包括简单投票分类器[26]，CSF分类器[28]和iMessage [38]等传统方法。对于深度学习方法，我们有一些典型的PSL任务方法，如AnnoFly [41]和ImPloc [23]。此外，我们比较了最近使用自然图像场景的深度学习方法，以更好地澄清，包括ML-GCN [6]和C-Tran [20]。4.1. 数据集为了验证所提出的方法的有效性，四个流行的IHC数据集从HPA的PSL任务。在基准数据集中，实验中使用了两个单标签数据集和两个多标签数据集。我们选择HPA-7 [38]和HPA-8 [26]数据集作为基准单标签数据集。Multi-HPA [28]和HPA-18 [23]数据集用于测量多标签方法的性能。有关数据集的更多详细信息，请参阅补充材料。4.2. 实现细节在所提出的架构中，我们使用广泛使用的网络ResNet-18 [11]作为深度骨干网络。对于每种方法，我们运行实验3次，并报告20633联系我们平均结果。对于基线方法，我们将参数设置为与原始论文相同。对于所提出的方法中的参数，m在Eq.6被设置为1，并且等式中的β被设置为1。9设置为0.25。对于等式中的多个裕度m， 3，我们把它设为集合1，0。六、0的情况。二、有了这些余量，我们可以选择容易和困难的对进行对比学习。在多标签学习中，我们选择与锚点标签完全相同的图像作为正样本，其他图像作为负样本。当概率大于0.5时，我们为每个图像选择预测标签。同时，在测试阶段，用于集合预测的块的数量T被设置为10。为了评估每种方法的性能，我们选择了一些流行的指标，如准确性，精确度，重新调用和F1得分，用于单标签分类任务[31]。在多标签数据集上，采用基于标签的指标（准确度，精确度，召回率，F1得分）和基于示例的指标（子集准确度，基于示例的准确度，精确度，召回率和F1得分）作为评估指标[23，37，43]。这些措施的公式定义见补充材料。4.3. 单标签数据集表1分别显示了每种方法在HPA-7和HPA-8数据集上的分类结果。结果表明，DeePSLoc可以区分蛋白质差异，20634通过有效利用免疫组化图像，在亚细胞水平上对不同组织的贡献。使用SLF训练的方法比在数据集上具有深度特征的方法表现得更差。这表明，提取IHC图像的深层特征对于PSL任务是非常必要的。在比较的方法中，传统的方法如投票分类器（V. C）在HPA-7和HPA-8上的表现不佳，这表明传统方法在特征提取上的弱点。ImPloc使用预训练的ResNet18模型提取IHC图像的特征。ImPloc很难区分地呈现图像。从表1中，我们可以观察到，所提出的方法在HPA-7和HPA-8数据集上的几乎所有指标上都明显优于其他最先进的方法。这表明，与这些最先进的方法相比，所提出的DeePSLoc是一种很有前途的用于蛋白质亚细胞定位的方法，其可以利用深度网络有效地学习不同PSL的区分特征。4.4. 多标签数据集表2显示了多标记蛋白质亚细胞定位任务实验中方法的性能。在比较的方法中，称为公共特征集的传统方法[28]开发了两种多标签学习模式：二进制相关性（BR）和分类器链（CC）。CC比BR好通过考虑不同标签的特征之间的相关性。ML-GCN和C-Tran是考虑标签相关性的两种最先进的方法。在Multi-HPA数据集中，CSF结合了图像水平和蛋白质水平特征进行预测，而ImPloc和我们的方法仅处理IHC图像。虽然CSF在CC模式下比Imploc产生更好的性能，但DeePSLoc在信息较少的情况下优于CSF，并且在所有指标上实现了最佳性能。这表明所提出的多边缘注意机制可以有效地产生用于不同PSL的区分性学习的正样本和负样本。在HPA-18数据集中，所有现有的方法，包括迭代算法，都只在图像级进行预测。一般来说，深度学习方法在使用IHC图像的PSL任务中显示出很大的优势。我们应该注意到，与深度学习方法 AnnoFly ， ImPloc ， ML-GCN 和C-Tran 相比，DeepSLoc获得了显着的性能改进。所有结果表明，所提出的具有多边缘对比学习的DeepSLoc可以提高每个PSL的特征的区分度。4.5. 消融研究4.5.1对比学习在表3中，我们显示了基于不同骨干网络的有对比学习和无对比学习HPA-7ACCPrec召回F1VGG-1164.6866.4266.1665.53VGG-19 bn74.9577.1775.7075.82VGG-19 bn+con83.0586.6081.9283.83ResNet-1871.0273.7771.9471.79ResNet-18+con92.4493.4292.8292.88ResNet-10170.7573.2471.7571.38ResNet-101+91.2994.0390.7692.09ResNet-15269.2071.6268.6768.15ResNet-152+89.9393.2388.6690.38DenseNet-12167.3972.5167.1967.46DenseNet-121+con88.3292.1888.5989.77DenseNet-20163.1568.3063.0163.16DenseNet-201+con87.6391.8685.1687.27表3.使用HPA-7数据集上的不同主干仅使用裁剪的补丁输入的粗体表示比较方法中最好的。模型使用对比学习的结果已被强调。例如VGG（11和19 bn）[30]、ResNet（18，101，152层）[11]和DenseNet（121和201层）[12]来验证对比学习的有效性。HPA-7数据集上的分类结果表明，深度模型的复杂性对亚细胞位置预测的性能有显著影响。VGG-11的低性能表明浅层网络无法学习足够的有效特征。此外，没有对比损失的深度DenseNet和深度ResNet的结果都不好，复杂度高的深度网络并不能提高模型的精度。当网络优化的损失函数与对比损失相结合时，所有模型的性能都得到了显著改善。这些结果可以有力地证明，对比学习是非常有效的学习不同的PSL跨组织IHC图像的判别特征，通过将IHC图像裁剪成一定的补丁。4.5.2多边缘机制在图4中，我们尝试在HPA-8和HPA-18数据集上验证所提出的多边缘注意机制的有效性我们比较了所提出的方法与正常的方法和批量硬。正常是用所有三元组对训练深度架构的方法，而批处理硬通过选择离锚样本最远的阳性样本和离锚样本最近的阴性样本来训练深度架构。从图4中，我们可以观察到，使用多边缘注意力机制（表示为注意力）的方法在HPA-8和HPA-18中都具有最佳性能。与正常相比，我们可以观察到注意力在几乎所有情况下都取得了最好的表现。这表明，机制注意力机制可以20635HPA-8下采样HPA-18贴片HPA-8贴片HPA-18下采样ACCPrec召回F11.00 1.00970.980.98960.95950.960.96940.940.94930.900.920.90ACC精度召回F10.920.90ACC精度召回F192910.000.05零点一0.150.200.250.500.75Beta0.85-0.10.00.10.20.30.40.50.60.70.8Beta（a）结果（a）在HPA- 8中，（b）在HPA-8中对HCPAh-8中的P Atcchbn crh aa的结果（a）在H P A- 7中的不同β的结果（b）在Multi-H P A中的不同β的结果1.00.80.60.40.20.0注意正常批次-硬SAEAEP儿EFLALPLRLF1.00.80.60.40.20.0SAEAEP儿EFLALPLRLF图5.公式中不同β值的分类结果9.第九条。子集准确度和汉明损失是多标记亚细胞定位的度量仅使用下采样图像或裁剪块的模型产生类似的性能。当同时使用下采样图像和裁剪块时，所提出的方法可以分别在单标签和多标签数据集上实现显著的改进。结果表明(c) HPA-18中下采样分支的结果(d) 在HPA-18中，Rss su（d）ltsuoltfsoppaatcchbranbchriannHPcAh-18下采样图像和裁剪图像图4. HPA-8和HPA-18数据集中的下采样和补丁分支结果，使用多边缘注意力损失，正常三胞胎和批量硬三胞胎损失。SA、EA、EP、ER、EF、LA、LF、LR、LF分别表示子集准确率、基于示例的准确率、精确率、召回率、F1评分和基于标签的准确率、精确率、召回率、F1评分单标签HPA-7ACCPrec召回F1D96.1896.2896.1796.19P95.3695.5995.2995.37D+P97.9597.9897.9697.96多标签HPA-18子集例如例如标签标签ACCACCF1ACCF1D57.0263.6467.1587.3343.85P59.5066.5367.3887.3344.71D+P61.1268.0471.9088.9852.39表4.我们的方法使用下采样图像，裁剪补丁以及HPA-7和HPA-18数据集的D + P表示下采样图像和裁剪的补丁都粗体字表示比较方法中的最佳方法。生成对比样本，可以提高不同PSL的区分表示能力。与Batch-hard相比，Attention在LP上的表现稍差。原因是Batch-hard预测具有相同标签的所有样本。这表明多边缘注意机制可以提高深度网络的泛化能力。所有这些结果表明，多边缘注意机制在该方法中是必不可少的.4.5.3全局和局部特征的消融在表4中比较了三个模型，表示为D、P和D + P，它们分别表示仅具有下采样图像、裁剪面片和两者的模型。在单标记HPA-7和多标记HPA-18数据集上，斑块是互补的，这两者都有利于分类。更详细的实验结果可以在补充材料中找到。4.6. 参数β图5显示了DeePSLoc在单标签和多标签场景中的灵敏度，其中单标签和多标签数据集中的β值不同。图5清楚地表明，当β大于0.25时，DeeP-SLoc的性能迅速下降。虽然对比学习非常重要，但为了获得良好的性能，应该对其进行适当的加权。因此，对于实际应用，我们可以将β设置为0.25。5. 结论本文提出了DeePSLoc用于蛋白质亚细胞定位与IHC图像。在DeePSLoc中，来自下采样图像的全局特征和来自裁剪块的局部特征被融合用于预测。从下采样图像生成激活图以选择重要的补丁。使用这些补丁可以有效地学习局部特征。我们新提出了一种多边缘注意机制来软生成阳性和阴性样本，以便在图像级和块级进行更好的对比训练，这提高了不同组织图像的PSLs。实验结果表明，DeePSLoc是有前途的PSL。6. 致谢这项工作得到了国家自然科学基金 62006176 、62141112、41871243、湖北省科技重大专项（下一代人工智能技术） 2019AEA170 和湖北省自然科学基金2020CFB 241的部分支持。注意正常批次-硬注意正常批次-硬注意正常批次-硬子访问汉明损耗值值值值子访问ACC汉明损耗20636引用[1] Yichen Guo A，Ke Yan A，Hao Wu A，and Bin LiuAB. Refold-map：基于从profiles-sci- encedirect提取的特征的蛋白质远程同源性检测和折叠识别。分析生物化学，611：114013，2020。2[2] EfthaliaAngelopoulou ， YamNathPaudel ， andChristina Piedel.高迁移率族蛋白1（hmgb1）在亨廷顿舞蹈病发病机制中分子医学杂志，98（3）：3252[3] SebastianBriesemeisterJorgRahnenfuhrer 和 OliverKohlbacher。从哪里到为什么-蛋白质亚细胞定位的可解释预测。 Bioinformatics， 26 （ 9 ）：1232-1238 ，2010. 2[4] 法比安巴士克，斯特凡·梅奇克和迈克尔·波德恩。是时候了：蛋白质易位阶段模型中的信号识别。PatternRecognition，42（4）：567 2[5] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017. 3[6] Zhao-Min Chen ， Xi-Shen Wei ， Peng Wang ， andYanwen Guo.用图卷积网络进行多标记图像识别。在IEEE/CVF计算机视觉和模式识别会议论文集，第5177-5186页，2019年。6[7] 周国辰和沈宏斌。一种预测真核蛋白质单位点和多位点亚细胞定位的新方法：Euk-mploc 2.0。PLOS ONE，5（4），2010. 2[8] 周国珍关于分子生物系统中多标记属性预测的几点评论。 Molecular Biosystems ， 9 （ 6 ）： 1092-1100 ，2013。1[9] 安德烈亚斯·迪格雷和塞西莉亚·林斯科格。人类蛋白质图谱：健康与疾病中人类蛋白质组的空间定位。蛋白质科学，30，2021。2[10] Samir M Hanash，Christina S Baik和Olli Kallioniemi。新兴的分子生物标记--以血液为基础的癌症检测和监测策略Nature Reviews Clinical Oncology， 8 （3 ）：142-150，2011. 1[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在2016年IEEE计算机视觉与模式识别会议上CVPR，第770六、七[12] 高煌，刘庄，劳伦斯·范德马腾，和Kilian Q.温伯格密集连接的卷积网络。在2017年IEEE计算机视觉和模式识别会议上，CVPR，第2261-2269页7[13] Mien-Chie Hung和Wolfgang Link。蛋白质在疾病和治疗中的定位Journal of Cell Science，124（20）：33811[14] Edward L Huttlin，Raphael J Bruckner，Joao A Paulo，Joe R Cannon，Lily Ting，Kurt Baltier，Greg Colby，Fana Gebreab，Melanie P Gygi，Hannah Parzen，et al.Architecture of the human interactome defines proteincommunitiesanddiseasenetworks.Nature，545（7655）：505-509，2017. 120637[15] 今井健一郎和中井健太蛋白质亚细胞定位的预测：从何着手？Proteomics，10（22）：3970-3983，2010. 2[16] 达什纳湾Joshi，Jignesh Patel，and Hardik Bhatt.量化运动对糖尿病管理中表面γ 4易位的影响的计算机研究。2021. 2[17] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络进行Imagenet分类。神经信息处理系统进展， 25 ： 1097-1105 ，2012。3[18] 放大图

下载后可阅读完整内容，剩余1页未读，立即下载