没有合适的资源?快使用搜索试试~ 我知道了~
1981胚胎成型机:可变形Transformer与协同编解码在胚胎发育阶段分类中的应用Tien-Phat Nguyen1,4,Trong-Thang Pham*4,Tri Nguyen**7,Hieu Le*1,DungNguyen5,Hau Lam6,Phong Nguyen1,Jennifer Fowler8,Minh-Triet Tran2,3,4,Ngan Le91FPT Software AI Center,胡志明市,越南2越南国立大学胡志明市科学大学;3越南国立大学胡志明市4越南胡志明市越南国立大学约翰·冯·诺依曼研究所5IVFMD,My Duc Phu Nhuan hospital,胡志明市,越南6Olea Fertility,Vinmec Central Park International Hospital,胡志明市,越南7越南胡志明市My Duc医院HOPE研究中心8阿肯色州经济发展委员会,美国阿肯色州小石城,邮编722029美国阿肯色州费耶特维尔市阿肯色大学计算机科学与计算机工程系72703*平等贡献摘要体外受精(IVF)过程中早期胚胎细胞分裂的时间是胚胎存活率的关键预测因素然而,在时间间隔监测(TLM)中观察细胞分裂是一个耗时的过程,并且高度 依 赖 于 专 家 。 在 本 文 中 , 我 们 提 出 了 Em-bryosFormer,一个计算模型,自动检测和分类细胞分裂从原始的时间推移图像。我们提出的网络被设计为一 个 编 码 器 - 解 码 器 变 形 Transformer 与 协 作 头 。Transformer收缩路径预测每个图像的标签,并通过分类头进行优化。变换器扩展路径模拟胚胎图像之间的时间相关性,以确保单调非减约束,并通过分割头进行优化。收缩和扩展路径都由协作头协同我们已经在两个数据集上对我们提出的EmbryosFormer进行了基准测试:一个是8细胞期小鼠胚胎的公共数据集,一个是4 细 胞 期 人 类 胚 胎 的 内 部 数 据 集 。 源 代 码 :https://github.com/UARK-AICV/Embryos。1. 介绍生育障碍影响全球约8000万人,每六对夫妇中就有一对患有不孕症[1,27]。这就需要使用IVF来怀孕。在IVF过程中,刺激患者产生多个卵母细胞。然后,他们中的一小部分受精,一小部分继续生长,并在被移植到子宫之前作为胚胎正常由于与多胎妊娠相关的母体和胎儿风险增加,每次仅应选择一个具有最高存活力的胚胎进行植入[31,32]。在临床上,胚胎学家通过考虑形态特征和发育速度来人工选择潜在与传统的监测过程不同,在传统的监测过程中,胚胎在离散的时间点从孵化器中取出,延时监测(TLM)技术提供了对胚胎发育过程的更全面和不间断的观察,其中胚胎被安全地保存在它们的罪犯中,没有任何外部干预,而内置的显微镜系统定期捕获内部胚胎的数据[28]。然而,TLM仍然需要人类的专业知识和经验。因此,结果往往伴随着变化和巨大的劳动力成本。因此,有一个新兴的需求,开发一个自动化和时间效率的工具,以支持胚胎学家在选择过程中。在真实环境中的离散时间点捕获胚胎形态。 因此,胚胎的特征或位置可以从帧到帧快速且意外地变化。最近,深度神经网络(DNN),特别是卷积神经网络(CNN)在提供人类专家级别的决策解决方案方面取得了重大进展。他们的成功已经在诊断医学领域的不同领域和模式中报道[35,48],例如胸部X射线异常识别[9,19,18],提供1982··MRI图像上的肿瘤生物标志物[12,30,46],MRI图像上的器官结构分析[17,20,13,41]。DNN最近已被应用于对胚胎阶段发育进行分类的任务现有方法[21,23,24,25,26]将延时胚胎视频视为图像序列,并利用2D-CNN执行每帧分类,然后应用具有动态编程的后处理步骤,这样的方法处理跨类的高度不平衡,以及不能考虑时间信息。其他作品[24,23]介绍了双流网络,其结合了时间信息以解决不平衡问题,同时将单音调约束纳入学习阶段。尽管显示出有希望的结果,但这些方法一次处理固定大小的帧序列,这可能缺乏整个视频的全局上下文,并且还增加了推理时间。在这项工作中,我们利用变形Transformer [49]提出了一个编码器-解码器变形Transformer网络,用于胚胎阶段发育分类。我们提出的网络包含三个头,分别针对分类,分割和细化。我们的贡献是双重的,具体如下:数据集:我们进行了一个Embryos Human数据集,共有440个延时视频,包含148,918张图像,这些图像是从真实环境中收集的,并从不同数量的患者中收集的该数据集已被仔细预处理,注释和三个胚胎学家进行。这些数据将提供给研究界,请联系作者。方法:我们提出了EmbryosFormer,一个监测胚胎阶段发育的有效框架。我们的网络是建立在Unet的基础上与可变形的Transformer块的架构,并包含两个路径。 一条相反的道路(即可变形Transformer编码器)旨 在 预 测 每 类 标 签 , 而 扩 展 路 径 ( 即 , 可 变 形Transformer解码器)通过考虑时间一致性来对阶段级进行建模。编码路径上的特征编码由分类头优化,解码路径上的时间相干性由分割头训练。编码和解码路径都由协作头协作学习我们经验性地验证了我们提出的EmbryosFormer的有效性,据我们所知,它实现了优于所有当前最先进的方法的性能,这些方法以小鼠胚胎和人类胚胎两个数据集为基准。2. 相关工作2.1. 检测TransformerTransformer架构[42]背后的核心思想是捕获远程关系的自我注意机制船舶Transformer已成功应用于计算机视觉中丰富的全局信息[47,4,43,40]。当涉及到对象检测时,检测Transformer(DETR)[2]是最知名的方法之一,它将任务作为集合预测来执行。与基于卷积神经网络的方法[34,10]不同,检测变换器(DETR)[2]将任务作为集合预测来执行。即使DETR获得了良好的性能,同时提供了一种有效的方式来表示每个检测到的元素,它遭受了高计算复杂度的二次增长的图像大小和缓慢的收 敛 速 度 的 全 局 注 意 机 制 。 最 近 提 出 的 可 变 形Transformer [49]旨在解决这些局限性,同时通过合并多尺度特征表示和倾向于图像的稀疏空间位置来获得更好的性能。不仅在图像领域,而且DETR也成功地应用于视频领域,例如:密集视频字幕PDVC [44]。2.2. 胚胎阶段发育分类对胚胎发育阶段进行分类旨在为受精囊胚的质量评估提供线索,这除了识别发育阶段之外还需要对延时成像视频进行复杂的分析传统上,胚胎学家必须审查胚胎图像,以确定每个细胞阶段发育的分裂时间。这一过程不仅需要专业知识,而且需要经验,而且耗时。随着DNN的出现,CNN已被用于评估胚胎图像。通常,基于DNNs的胚胎阶段发育分类可分为两类:基于图像和基于序列。在第一组中,Khan等人,[14]利用CNN(即,AlexNet)[16]和条件随机场(CRF)[37]来计数前五个细胞阶段的人类胚胎细胞。Ng等人,[29]使用ResNet [11]结合动态编程算法进行后处理,以预测人类胚胎中的形态动力学注释。后来,Lau等人,扩展[29]与感兴趣区域(ROI)检测和LSTM [8]用于顺序分类。Rad等人,[33]提出了Cell-Net,它使用ResNet-50 [11]从胚胎图像中解析每个细胞的质心Leahy等人,[21]从延时视频中提取了五个关键特征,包括阶段分类,它利用ResNeXt101 [45]来预测每个图像的每类概率。Malmsten等人,[25]使用Inception-V3 [39]将人类胚胎图像分类为不同的细胞分裂阶段,最多8个细胞。虽然在使用DNN自动分类胚胎细胞阶段发育方面显示出有希望的结果,但基于图像的预测方法忽略了时间推移图像之间的时间相干性和训练期间的单调发育顺序约束。在第二组中,Lukyanenko等人,[24]合并CRF[37],以将单调条件纳入顺序阶段预测的学习过程中。洛克哈特1983巴贾利克--|∈c=1c=1l=1ΣΣ Σ∈∈--|--|例如,[23]提出协同损失并利用LSTM [8]和VGG-16[36]使网络能够识别和利用不同胚胎之间的阶段相似性。 Malmsten 等人 ,[25]提出CellDivision ,它 使用InceptionV3 [38]来提取视觉编码特征。在CellDivision中,错误分类由全局优化的后处理步骤处理我们的网络属于第二类。受DETR [2]成功的启发,我们用协作编码-解码来扩展可变形变换器[49],以改进延时胚胎阶段发育分类。和K采样偏移量Δp。 对应于在第l个特征图fl和第i个查询元素qi处的第a个注意头部,第k个采样位置由下式定义:palik=pl(.(1),其中,n(. 是将标准化的参考点投影到输入特征图F1的函数。palik是采样偏移w.r.t. 阿普尔(. )的情况。 多尺度可变形注意力被定义为如下所示:NaL Kf(qi,pi,X)=WaAalikWaxl(2)a=1l=1k =13. 该方法我们提出的网络如图所示1,包含收缩和扩张两条路径。收缩路径旨在对每个延时胚胎图像的视觉表示进行编码,并通过分类头进行优化。收缩网络设计为可变形的Transformer编码器。扩展路径对时间一致性进行建模,以通过将阶段分类处理为分割任务来确保延时胚胎之间的单调约束扩展网络被设计成一个变形的Transformer解码器,并通过分段损失进行优化.编码器和解码器网络在具有三个头的框架中协同学习:分类头、分段头和列头。3.1. 问题设置给定延时胚胎视频X,其被认为是胚胎图像的序列,即 X=[x1,x2,...,xT],其中a、l、k分别是注意力头部的索引、输入特征水平、采样位置。alik表示第a个关注头部、第l个特征级别、第i个查询元素和第k个采样位置的关注权重。Wa是关键元素的投影矩阵。3.3.特征编码特征编码网络将一系列延时胚胎图像X作为输入和输出编码特征Fenc。与视频不同,胚胎形态是在离散时间捕获的。也就是说,延时胚胎图像已经通过由内置相机和显微镜组成的培养箱系统收集,该培养箱系统在每个特定时间拍摄胚胎的图像。因此,众所周知的视频特征编码方法,例如C3D和I3D可能不是合适的方法,因为附近胚胎图像的胚泡特征非常不同。在这项工作中,我们首先采用预先训练的2D CNN模型(Resnet50作为实例)来提取视觉特征hi∈R2048的每个个体胚胎图像xi。作为一个重新-其中T是序列长度,我们的目标是预测结果,延时胚胎图像X ={xi}|T代表-逐图像阶段标签序列=[y=1,y=2,.,y[T],由Ti=1其中,RC,C是级数。 在训练期间,每个胚胎图像xi与标签yiRC相关联,并且延时胚胎视频X具有其对应的地面实况标签Y=[yi,y2,., yT]。 标签受单调非递减约束,因此,地面实况标签Y也由一组分段Y={sc}表示|C,其中sc=[xk ,xk+1,...,xk+t]H= hii=1。为了丰富多尺度特征的表示,我们用TEM处理特征图步幅为2的poral卷积层为了提取跨多个尺度的图像间相干性,我们然后将多尺度胚胎特征与它们的位置嵌入[42]编码到可变形的自我注意力[49]中。特别地,我们将等式2中定义的多尺度可变形注意力应用到特征H中。 因此,我们得到编码fea-其中t是第c个片段sc中的图像的数量,并且真实Fenc∈RT×C ×denc,其中denc是编码器嵌入。Y=scC,其中sc=[xk′,xk′+1,.,xk′+t′],其中t′是预测片段s中的图像的数量。每个胚节以其宽度和中心位置表示。3.2.变形Transformer:一项订正给定多尺度输入特征图F = flL,其中flRCl× Hl×Wl,为第l层的每个特征图和第k个关注头生成K个感兴趣的采样位置。 对于查询qi,通过参考点pi∈[0,1]2估计采样位置的坐标D是维数,C是级数。特征编码网络通过分类头提取每个个体胚胎的视觉表示及其对应的图像级标签。然而,没有考虑时移胚胎图像的单调第3.5节给出了分类头的更多详细信息3.4. 分段解码解码网络考虑时间一致性,以解决单调非递减约束,1984∈∈∈i=1∈ΣCc=1我 i=1Dec∈∈Dec--|∈...协作负责人CNNs交叉注意~变形变压器编码器分段负责人分类负责人变形变压器解码器~图1.我们提出的用于胚胎阶段发育分类的EmbryosFormer的总体流程图。EmbryosFormer是一个有三个头的框架:分类头、分段头和协作头。在特征编码路径中,首先通过将2D CNN应用到延时胚胎图像X中来提取图像级特征H。然后通过将可变形Transformer编码器应用于图像级特征H来获得编码特征FencRT×C×d。特征编码是在分类损失上训练的。在解码路径上,采用可变形Transformer解码器,在该阶段查询Q和编码特征Fenc分别作为查询和关键字,得到FdecRC×d。解码是在分割丢失上训练的。编码特征Fenc和解码后的查询特征Fdec都被输入到一个交叉注意力中,以产生一个注意力权重WAttRT×C,该注意力权重由一个协作头协同训练。将胚胎发育阶段分类作为胚胎阶段分割任务进行。在这种设置中,每个单音调阶段被认为是一个片段,并以可学习的嵌入查询q c为条件。研发得双曲余切值.[1,C],其中C是细胞阶段的数量。 具体来说,每个查询都是分配到特定的舞台中心。位置嵌入[42]被添加到解码器输入以将标签信息注入到每个查询中。在这种设置中,解码网络包含一堆可变形的交叉注意层[49],其中编码特征F enc用作键,阶段查询定义为Q={q}|C∈RC× d. 通过同时处理单调约束和预测阶段级标签,协作头用单调非减约束加强图像级标签。EmbryosFormer的总体流程图如图1所示。分类头:虽然时间信息包含阶段检测的有价值的信息,独立胚胎图像也包含表征其阶段的特定形态特征。因此,将逐图像分类头添加到特征编码路径。通过图像级交叉熵学习分类头损失 给定一个延时胚胎图像X={x}|T通过[49],阶段查询Q用作对的初始猜测,其中T是图像的数量,预测的图像级别胚胎查询特征的输出表示为FdecRC×ddec,并通过分段头进行优化,这在第3.5节中详细介绍。对于一个简单的设置,我们为编码和解码路径设置相同的隐藏大小,ddec=denc=d。也就是说,来自可变形Transformer编码器的编码特征是Fenc∈RT×C ×d,并且解码查询特征从变形Transformer解码器Fdec∈RC×d。3.5. 多头协作学习我们提出的EmbryosFormer被设计成一个类似于Unet的框架,由三个头学习:分类头用于预测图像级标签,分割头用于标签Y=伊吉·T通过将前馈网络(FFN)然后将softmax函数应用于编码特征Fenc来计算RT × C,如下所示:Y=Softmax(FFN(Fenc))(3)分类头通过图像级交叉熵函数学习,如下所示:不Lcls=−yilogyi(4)i=1分段头:解码的查询特征Fdec旨在通过采用1985--C∈×±±×我我 ∈⊙=cPOS我我i=1我我我POS考虑到单调约束 每个第c阶段的开发都分配了一个分段sc=xk,xk+1,...,xk+t,其由分段宽度ywidth=t申报的EmbryosFormer由三个头部训练,损失L定义如下:C帧和中心位置ypos=k+t/2。段-在FFN到正常之后,tion头包含softmax层-L=L CLS +L分段 +Lcol(十一)调整并将阶段级预测转换为单位分数。因此,为了强制执行遵循单调非减约束的预测,解码网络将输入序列划分成阶段级片段的列表,而不需要任何后处理技术。所有C阶段级段的预测分段宽度和中心位置定义如下:y_w_idth=Softmax(FFN(Fdec))(5)基于预测的载物台宽度的累积和计算载物台中心位置:ypos=Cu mulati veSum(ywidt h)−ywidt h/2(6)其中ywidt h,yposRC。分段头通过L1损失学习如下:Lseg=ywidth−ywidth1+ypos−y pos1(7)协作负责人:该头部利用包含全局信息的阶段级解码查询嵌入Fdec作为引导上下文来细化图像级特征Fenc。我们利用交叉注意机制[42]来对齐图像级预测及其相应的阶段级预测。 具体地说,图像级嵌入以Fenc∈ RT × C × d为查询,以阶段级嵌入Fdec∈RC× d为关键元素,采用交叉关注度获得关注度权重Wattn={wattn}|T,其中wattn∈RC. 最终帧级分类4. 实验结果4.1. 数据集小鼠胚胎数据集我们使用纽约大学小鼠胚胎数据集[6],其中包含100个发育中小鼠胚胎的视频。胚胎数据集[6],包含100个发育中的小鼠胚胎序列。每个延时胚胎成像是由480 480张图像组成的,每7秒拍摄一次。平均而言,每个序列由每个胚胎314个图像和8个发育阶段组成我们遵循[24]将数据随机分为80/10/10进行训练,验证和测试。人类胚胎数据集该数据集包括440个卵胞浆内单精子注射(ICSI)的延时胚胎,收集自112名患者,女性和男性的平均年龄分别为33.0、4.40和38.27.47年,分别。此外,培养箱系统ASTEC CCM-iBIS在设备中的多个培养皿之间移动时捕获图像。 因此,延时胚胎中的所有图像都没有很好地对齐,并且包含冗余的背景,如图2(顶部)所示。我们通过去除所有未覆盖胚胎细胞的图像并剪切冗余边界来预处理数据,经过预处理后,我们收到了至少每15分钟捕获一次的大小约为400 400的平均每个延时胚胎图像由339个图像和4个发育阶段组成。人类胚胎数据集是Ycol={ycol l}|不预测如下:由三位胚胎学家进行预处理和注释。i i=1y=Softmax(wpos=wattn)(8)其中是元素乘法。位置权重wpos从第i帧和预测的阶段片段的相对距离计算RC具体而言,giv en预测的阶段段宽度yid h∈RC且分段位置y∈RC,位置权重w第i帧的第i个帧的第我们将每个数据集随机分为80/10/10,用于训练、验证和测试。表1显示了小鼠胚胎和人类胚胎数据集上所有图像的细胞阶段4.2. 度量我们使用三个常见的指标,即精确度,召回率和准确度,在整个视频的全局级别和每类级别上评估所提出的方法,如下所示:一等位置,cy_w_idth+α|+α|+α(九)全局准确度:每个实例的准确度,即胚胎图像总数中的真实预测数量每类精确率/召回率:由于某些阶段占主导地位,其中,α是监控重量的温度常数分布协作损失被计算为协作预测标签Y_col与地面实况标签Y_col之间的交叉条目。不在胚胎发育过程的各个阶段,计算每类的查准率和查全率,取其平均值进行综合比较。4.3. 实现细节Lcol=−yilogycol(十)我们遵循[24],每个数据集分为80/10/10用于训练/验证/测试。为了进行公平的比较,i,cW1986i=11987····阶段1阶段1阶段3阶段4裁剪删除裁剪图2.在四细胞阶段发育人类胚胎的例子,每个图像顶部的捕获时间。上图:培养箱系统的原始图像。底部:预处理后的胚胎图像(即裁剪和移除)。表1.小鼠胚胎和人类胚胎数据集中每个细胞阶段的数据分布。细胞鼠标总人类总阶段123456781234火车4,03313,3086547,05337765168216026,91822,39357,43414,58124,132118,540Val4521,62662863463457203,1602,5928,0471,7752,93715,351测试5171,5981129045812074203,4032,9787,0061,8353,20815,027总5,00216,5328288,82048180581320027,96372,48718,19130,277在SOTA现有方法的基础上,我们使用ResNet-50 [11]对我们的Em- bryosFormer进行了基准测试,作为在ImageNet上预训练的CNN特征编码器[16]。我们使用了两层可变形Transformer与两个级别的多尺度可变形的注意。可变形Transformer在前馈层中使用512和512的隐藏大小。整个网络的训练批量为32和250 epoch。我们使用Adam [15]优化器,10−4权重衰减,线性预热和余弦退火衰减计划(即,学习速率在前20个时期中遵循0到10 − 3之间的线性预热时间表,随后是10 − 3到0之间的余弦退火时间表)。4.4. 性能比较在本节中,我们将我们提出的EmbryosFormer与现有的SOTA方法(包括CNNs-CRF [24]、ESOD [23]和CellDivision [25])进行性能比较。为了进一步研究我们提出的方法的有效性,我们对具有如下不同配置的Em-bryosFormer进行基准测试:CNN(基线):在此基线设置中,每个胚胎图像的视觉特征由ResNet-50 [11]提取,分类由softmax函数进行。CNNs-Trans:在这种网络配置中,每个胚胎图像的视觉编码特征由ResNet 50提取[11]。图像之间的时间关系由Transformer [42]建模。CNNs-Trans-CRF:类似于之前的网络,即,CNNs-Trans,其中视觉特征由ResNet 50 [11]提取,时间关系由Transformer。在这个网络设置中,我们进一步包括胚胎单调约束,遵循CNNs-CRF [24]。建议的EmbryosFormer:为了与现有的工作进行公平的比较,每个胚胎图像的视觉特征我们提出的胚胎-成形器配备了一个编码器-解码器可变形的Transformer,并通过三个头的协作学习来训练。每 个 现 有 的 工 作 CNNs-CRF [24] , ESOD [23] 和CellDivision [25]都已经在随机分割上进行了评估。为了公平地将我们提出的EmbryosFormer与其他现有的SOTA作品进行比较,我们在相同的数据分割上对Em-bryosFormer和其他作品进行了基准测试。所有模型都经过训练,直到收敛200个epoch,除了ESOD需要400-500个epoch。表2显示了总体准确度、精确度和召回率的总体性能,而表3和表4分别提供了Embryos Mouse数据集[6]和Embryos Hu-man数据集的每个阶段精确度和召回率的详细分类性能。在每张表中,最佳性能以粗体突出显示。我们在各种网络设置上的实现已经表明,我们的CNNs-Trans和CNNs-Trans-CRF的性能略好于胚胎小鼠数据集上的CNNs-CRF[24]和ESOD [23]。与 CNNs-CRF[24] 和 CellDivision [25] 相 比 , 我 们 的CNNs-baseline和CNNs-Trans在Em-bryos小鼠数据集上兼容一般来说,CNN(基线),CNNs-Trans和CNNs-Trans-CRF的网络配置在两个数据集上都与CNNs-CRF[24],CellDivision [25]竞争,甚至CellDivi。1988我们·表2.全球准确性(Global Acc.)的总体性能每类精度的平均值(Avg Pre.)和回忆分数(平均Rec.)在小鼠胚胎[6]和我们内部的人类胚胎数据集上。所有评分均以%报告。最好的分数以粗体突出显示。方法会场特征小鼠胚胎人类胚胎全球AvgAvg全球AvgAvgAcc.↑前↑。 Rec↑.加计↑。前↑。 Rec↑.[24]第24话97.391.881.188.686.882.2[25]第二十五话App'21 InceptionV3(& A97.892.885.289.286.387.1[23]第二十三话97.580.376.091.689.191.1我们CNN(基线)ResNet-5096.884.282.390.187.689.2CNNs-TransResNet-5097.693.282.691.586.081.1CNNs-Trans-CRFResNet-5097.791.484.791.888.787.5EmbryosFormerResNet-5098.495.390.294.392.992.4表3.胚胎小鼠数据集的每类精密度性能比较[6]。所有评分均以%报告。最好的分数用粗体突出显示,第二好的分数用下划线表示。方法特征1234↑5↑678[24]第二十四话ResNet-5099.6/9999.8/9997.3/82.698.3/100100/54.967.6/54.784.4/43.487.5/55.0[25]第二十五话InceptionV3百分百99.6/10095.5/94.6100/99.190.0/62.167.4/96.789.8/59.5100/70.0ESOD [23]VGG-1698.9/10099.6/99.6100/93.898.9/10094.1/27.674.4/99.276.5/87.80.0/0.0CNN(基线)ResNet-5099.6/9999.5/99.997.6/97.396.3/99.252.6/48.372.7/80.089.5/48.787.5/85.0CNNs-TransResNet-50百分百99.9/99100/88.498.5/99.959.7/51.779.7/97.577.3/63.5100/60.0CNNs-Trans-CRFResNet-5099.4/99.699.8/9997.7/97.396.0/10030.0/74.169.5/92.562.5/44.680.0/70.0EmbryosFormerResNet-50100/99.699.8/99.999.1/98.2百分百97.6/69.071.8/97.593.9/62.2100/95.0sion [25]基于InceptionV3,需要更长的时间来训练和推理。ESOD [23]基于附近相似阶段之间的协同比较。因此,它需要更多的时间来收敛。然而,它用LSTM建模时间相关性,LSTM仅限于消失的梯度和对不平衡类敏感。例如,Em-bryos Mouse数据集仅包含阶段#8的160个图像和阶段#2的13,308个图像,ESOD在阶段#8上表现不佳,精度为0.0%,召回率为0.0%,而在阶段#1上达到99.6%的精度和99.6%的召回率,如表3所示。基 于 表 2 , 首 先 , 可 以 观 察 到 , 我 们 的 方 法EmbryosFormer的性能在两个数据集上的所有度量中以很大的幅度优于其他SOTA方法。表3进一步显示了Em-bryosFormer在处理不平衡数据方面的优势。例如,在Embryos Mouse数据集上,CNNs-CRF [24]、CellDivision [25]和ESOD [23]上细胞阶段#2和细胞阶段#8 之 间 的 精 确 度 / 召 回 率 差 距 分 别 为 12.3/44.8% 、0.4/30.0%、99.6/99.6%,而EmbryosFormer上的差距为0.2/3.2%。4.5. 消融研究我们进一步分析了我们提出的Em-bryosFormer的有效性,首先,我们比较网络计算复杂度,如表5所示,然后我们研究每个头部的影响,如图所示在表6中。在 第 一 个 消 融 研 究 中 , 我 们 比 较 了 我 们 的EmbryosFormer与其他人在推理过程中的推理时间。表5报告了在两个数据集上测试CNNs-CRF [24]提供了一种将单调约束嵌入学习过程的有效方法然而,计算整个输入序列需要很长时间使用InceptionV3作为特征提取的主干,CellDivision [25]获得了潜在的结果。然而,它遭受不足的训练和推理时间消耗。使用ResNet-50作为视觉编码的骨干网络,EmbryosFormer仅需1.79s(秒)即可预测由300多张图像(分别为小鼠胚胎314张图像和人类胚胎339张图像)组成的延时视频的胚 胎 阶 段 与 ResNet- 50 基 线 相 比 , 我 们 的EmbryosFormer推理时间仅相差0.03s。所提出的方法不仅在性能上是有效的,而且在推理时间上也是有效的,与现有的工作[24,23,25]相比,其小于0.47s,0.79s,0.48s在第二个消融研究中,我们比较了以下实验的整体准确率,每类精确率和每类召回率的平均值。实验#1:分类头-我们删除解码器分支,只使用编码器输出来执行图像-明智的分类1989···表4.在我们的Embryos Human数据集上进行的每类准确性性能比较。所有评分均以%报告。最好的分数用粗体突出显示,第二好的分数用下划线标出。精准召回我们CNN(基线)ResNet-5098.993.462.296.094.189.278.994.7CNNs-TransResNet-5099.391.465.687.793.997.150.583.1CNNs-Trans-CRFResNet-5098.192.575.188.993.695.766.394.6EmbryosFormerResNet-5099.794.780.696.794.496.482.796.1表5. 每段延时录像平均推理时间的比较。分数以秒为单位。表6.不同设置下EmbryosFormer有效性的消融研究。分类、分割和协作被表示为Cls.,分段和Col.ExpHeads性能Cls.隔离区上校全球账户↑平均精度↑vgRec.↑#1✓✗✗93.692.590.8#2#3✗✓✓✓✗✗93.293.692.192.389.9九十点六#4✓✓✓94.392.992.4实验#2:分段头-我们删除编码器分支中的Classifica-tion头,并使用分段输出作为最终预测。实验#3:分类头分段头-我们的设置与实验#2相同,但具有分类头。实验#4:分类头分段头Col-协作头-这是我们提出的EmbryosFormer,其将来自分类头的粗略预测与来自分段头的单调非递减约束对齐,并将它们合并到协作头中。实验间性能比较的烧蚀研究如表6所示。 从这一点来看-表,实验#2,#3证明了我们设计的分割头的有效性。不需要任何后处理方法,我们有效地产生序列预测,并在足够的处理时间内实现比现成方法(表2,表5)更好的性能。此外,与单独的分类头(实验#1)相比,协作头(实验#4)在全局准确度上将逐图像预测提高了0.7%,在平均精度和重新调用上分别提高了结论讨论本文介绍了EmbryosFormer,一个具有协同头编码-解码的胚胎阶段发育分类框架。建议的胚胎基于三头变形Transformer实现。分类头的目标是预测每图像的标签,而不考虑单调非减约束,然后由分割头处理。协作头合并来自分类头的每图像预测和来自分割头的每类预测。对小鼠胚胎和人类胚胎两个基准数据集的实验和消融研究表明,Embryos-Former可以准确预测胚胎阶段发育,并超越最先进的方法。未来的研究可能会针对更好的技术,直接从孵化器系统收集的原始图像工作。空间注意力的技术,如[7,22]和自我监督学习[5,3]也是性能改进的潜在扩展。确认本 材 料 基 于 国 家 科 学 基 金 会 ( Award No OIA-1946391 和 NSF 1920920 ) 支 持 的 工 作 。 Tien-PhatNguyen 由 Vingroup JSC , Vingroup 创 新 基 金 会(VINIF),大数据研究所,VINIF.2021.ThS.JVN.04资助。Trong- Thang Pham由Vingroup JSC,Vingroup创新 基 金 会 ( VINIF ) , 大 数 据 研 究 所 ,VINIF.2021.ThS.JVN.05 资 助 。 Minh-Triet Tran 由Vingroup资助,并得到Vingroup创新基金会(VINIF)的支持,项目代码为VINIF.2019.DA19。方法特征信息时间↓[24]第24话我的世界[25]第二十五话ESOD [23] VGG-16CNN(基线)ResNet-50 1.76CNNs-Trans ResNet-50 2.06CNNs-Trans-CRF ResNet-50 2.57EmbryosFormerResNet-50 1.79我们方法会场特征123↑412↑34[24]第二十四话MICCAI'21ResNet-5090.490.171.295.687.195.455.990.3[25]第二十五话Neu.Com.& App'21(& AInceptionV397.491.562.493.993.689.469.795.9ESOD [23]MICCAI'21VGG-1697.092.675.397.195.994.073.196.41990引用[1] sartcorsonline.com(2019)SART国家总结报告。https://www.sartcorsonline.com/rptCSR_PublicMultYear.aspx?ClinicPKID=0。访问时间:2021-06-15。[2] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在欧洲计算机视觉会议上,第213-229页。Springer,2020年。[3] MathildeCaron , HugoTouvron , IshanMisra , Herve'Je'gou , Julien Mairal , Piotr Bojanowski , and ArmandJoulin.自我监督视觉转换器中的新兴特性。IEEE/CVF计算机视觉国际会议论文集,第9650-9660页,2021年[4] Hanting Chen,Yunhe Wang,Tanyu Guo,Chang Xu,Yiping Deng,Zhenhua Liu,Siwei Ma,Chunjing Xu,Chao Xu , and Wen Gao. 预 训 练 的 图 像 处 理Transformer。在IEEE/CVF计算机视觉和模式识别会议的论文集,第12299-12310页[5] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架国际机器学习会议,第1597-1607页。PMLR,2020年。[6] Marcelo Cicconet,Michelle Gutwein,Kristin C Gunsalus和Davi Geiger。基于二维延时图像的无标记细胞追踪和分裂检测用于早期胚胎发育谱系分析。生物学和医学中的计算机,51:24[7] Jean-Baptiste Cordonnier、Aravindh Mahendran、AlexeyDosovitskiy 、 Dirk Weissenborn 、 Jakob Uszkoreit 和Thomas Unterthiner。用于图像识别的可微分块选择在IEEE/CVF计算机视觉和模式识别会议论文集,第2351-2360页[8] FelixAGers,JürgenSchmidhube r,andFredCummins. 学会忘记:用lstm进行连续预测。神经计算,12(10):2451[9] Sebastian Guendel , Sasa Grbic , Bogdan Georgescu ,Siqi Liu,Andreas Maier,and Dorin Comaniciu.学习用位 置 感 知 密 集 网 络 识 别 胸 部 x 光 片 中 的 异 常 。 在Iberoamerican Congress on Pattern Recognition,第757-765页。Springer,2018.[10] KaimingHe , GeorgiaGkioxari , PiotrDolla'
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功