没有合适的资源?快使用搜索试试~ 我知道了~
医学信息学解锁26(2021)100723深度学习在医学成像中和r'esAnaya Isazaa,d,LeonelMera-Jim'enezb,d,*,MarthaZequera-DiazcaPontificiaUniversidadJaveriana,110231,Bogota',哥伦比亚b哥伦比亚麦德林安蒂奥基亚大学工程学院,生物工程专业,邮编:050010c工程学院,BASPI/FootLab(生物工程,信号分析和图像处理研究小组),PontificiaUniversidadJaveriana,110231,Bogota',哥伦比亚dINDIGOResearch,110221,Bogota',ColombiaA R T I C L EI N FO保留字:卷积神经网络深度学习医学成像递归神经网络变压器A B S T R A C T深度学习(DL)是近年来呈指数级增长的人工智能分支之一。由于DL的多功能性、高性能、高泛化能力和多学科用途以及许多其他品质,科学界一直将注意力集中在DL上。此外,大量的医疗数据和更强大的计算机的发展也培养了人们对这一领域的兴趣。本文概述了当前的深度学习方法,从最简单的概念开始,但伴随着这种智能功能背后的数学模型。首先,介绍了人工神经网络的基本概念,逐步涵盖卷积结构、递归网络、注意力模型,直到称为Transformer的当前结构。其次,介绍了培训所涉及的所有基本概念和建筑设计中的其他常见元素。第三,在现代网络的医学图像分类和分割的一些关键要素。随后,回顾了在过去几年中实现的一些应用程序,其中突出了与DL相关的主要功能。最后,展望了深度学习的前景和未来展望。1. 介绍人工智能的概念并不新鲜;伟大的天才,如莱昂纳多·达·芬奇试图创造模仿人类任务的自动机。今天看来,这已经成为现实。我们越来越接近Nicolas de Condorcet [2]提到的奇点,它被认为是重要人工智能的假设出现,新的智能可以递归地自我改进,引发人工智能的指数增长。尽管目前很少有智能系统能够自我调整,但我们已经看到人工智能的指数增长,特别是在医学信息学方面。 不断增长的发展主要是由于向深度学习(DL)系统的范式转变,由于当前模型的效率和“简单性”,对大多数研究人员具有吸引力。事实上,对于大多数实现,将DL系统视为一个黑盒子就足够了,我们向其提供输入和输出数据作为所需训练(监督学习)的参考[5]。当前人工智能系统的核心概念是人工智能,神经网络[6].网络由许多独立的单元组成(人工神经元或感知器),从与之交互的输入中模拟生物神经元的激活状态[7]。像生物逻辑神经网络一样,神经元通过人工神经网络中的训练过程修改它们之间的连接[8]。虽然连接没有被停用或激活,但严格意义上说,连接权重会被修改,直到实现所需的任务[8]。训练由DL的一种基本算法执行,称为反向传播,它确定了每个神经元的误差,从而可以有效地调整网络参数[9]。网络的复杂性使其能够操纵大量数据来解决类似人脑的问题。此外,深度学习方法已经成功地将神经层按层次顺序聚类,以解决更具挑战性的问题,而无需提取特征或定义有关感兴趣数据的假设[10]。DL的优势立即凸显出来,并且开发不会等待,在广泛的任务列表中显示了其在分割,分类,检测,模式搜索,自然语言处理和自动识别等任务中的高性能[11* 通讯作者。工程学院,生物工程项目,安蒂奥基亚大学,050010,麦德林,哥伦比亚。电子邮件地址:leonel.mera@ udea.edu.co(L. Mera-Ji m'enez).https://doi.org/10.1016/j.imu.2021.100723接收日期:2021年7月13日;接收日期:2021年8月19日;接受日期:2021年8月31日2021年9月4日网上发售2352-9148/©2021的 自行发表通过Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页:www.elsevier.com/locate/imuA. Anaya-Isaza等人医学信息学解锁26(2021)1007232对深度学习的兴趣体现在频繁的电话、挑战、会议或全球所有研究小组展示他们的结果[14]。新的发展不断出版,各种贡献使当前的模型越来越有效[15]。此外,大量数字数据的产生,强大的计算基础设施,图形处理单元(GPU)和云计算也促进了DL在各个科学领域的增长,其中医学也不例外。例如,癌症诊断中使用的大量数据使得能够有效整合DL算法[18]。一般来说,智能学会将临床、放射学或病理学图像分类为预设类别[19]。一般来说,这需要基于专家人员提取的病理特征进行培训,从而解决严重程度[20]、类型(恶性或良性)[21,22]、特定诊断[23]甚至患者生存概率[24]等复杂问题。在癌症的情况下,可能成功的实施的影响mentions是显而易见的。拥有诊断辅助系统将有助于放射科医生或专业专家的任务,并减少诊断时间,甚至导致更准确的诊断和及时的治疗[[25],26]。此外,这将对公共卫生产生重大影响,因为癌症是全球第二大死亡原因,9.6根据世界卫生组织(WHO)的数据,死亡人数为100万人[27]。例如,参考一些病例,乳腺癌是20-50岁女性的主要死因,根据美国癌症协会2019年的数据,仅在美国,估计有268,600例浸润性到2020年,全球死亡人数达到684,996人,成为女性癌症死亡的主要原因[30,31]。即使在2021年初,世界卫生组织(WHO)报告称这种病理学是全球最常见的癌症,超过肺癌[32],仅占全球癌症的10.4%同样,肺癌是最具侵袭性的病理之一,产生约22%的死亡,即,它是癌症死亡的主要原因之一[27]。数据显示,在美国,2020年估计约有13.5万例死亡,约有22.8万例新确诊病例[33]。一般来说,肺癌的死亡率非常高,其中90%的患者的预期寿命不超过5年,其中约一半患有晚期或转移性癌症[34]。同样,脑肿瘤会对神经系统造成严重 损害 , 导致 生 存率 降 低( 40 岁 以上 人 群的 五年 生 存率 低 于21%[35])。幸运的是,科学界和医学界正在加大努力,从不同的研究领域,人工情报将不被needed.此外,委员会认为,与随着不同图像采集系统的进步,当前图像的分辨率比几十年前高得多[36]。因此,我们才刚刚开始通过人工智能,或者更具体地说,通过深度学习,充分利用诊断辅助系统的相关优势。深度学习在医学图像上的应用是最近的。事实上,转折点可以追溯到2012年(不到十年),当时神经网络开始超越传统的计算机视觉方法。ImageNet大规模视觉识别挑战赛是展示这些新策略优势的主要活动[37]。以来 在这一点上,医学成像领域的DL研究呈指数级增长[4]。目前,具有更快、更深、更高效网络的新调查正在出现。从这个意义上说,对这一领域感兴趣的科学界应该更新并了解基本概念和最新发展,如最近的相关评论所示[38,39]。按照这种思路,在本次审查中,我们解决两个重大挑战。第一个是澄清深度学习的细节和概念,包括网络操作背后的主要数学模型,并提供概念的直观描述以及当前最先进的网络。其次,我们对最近发展,主要集中在医学成像和面向癌症病理学的深度学习。这篇综述强调了重要的主题,研究问题或观察,未来的预测,以及尚未涉及的潜在研究领域特别是,从黑盒的角度来看,DL是通用的和直接的。然而,从模型的设计到训练和实现,涉及到许多概念,需要清楚地理解它们才能充分利用人工智能。在这个意义上和方法来解决上述挑战,本文重点介绍了关键要素,不同的架构,以及最新的实现在医学成像。本文组织如下:第2节介绍人工神经网络背后的基本思想。第3节展示了最早的神经网络之一,称为多层感知器或全连接网络。第4节涉及为图像处理开发的卷积神经网络。部分 图5展示了为时间相关数据设计的循环网络。第6节概述了注意力模型背后的直觉,这是理解第7节中讨论的变形金刚所必需的概念。第8节展示了与人工神经网络相关的所有基本概念。随后,在第9节中,我们概述了当前的神经网络,在第10节中以医学成像及其应用结束,在第11节中以前景和未来展望结束。2. 人工神经网络人工神经网络(ANN)是第一个基于人脑功能的生物启发系统之一。原则上,大脑的复杂性是由构成大脑结构的数百万个神经元和数万亿个连接控制的。然而,功能是每个神经元贡献的结果。神经元接收来自其他神经元的电化学信号或来自组成我们所有感官的不同组织(如视觉)的信号。信号由每个神经元处理,并取决于与其他神经元的相互作用,可以达到动作电位,使神经元的轴突极化,并允许电信号的传输继续(突触)。在人工神经网络中,感知器是网络的主要元素,也被称为基本单元或人工神经元。类似地,感知器连接到其他感知器,从它们接收信息,通过称为激活函数的数学元素产生神经元的激活(见8.6节)。因此,不同的激活通过网络传播,生成对感兴趣的任务的响应。同样地,该任务由组成人工网络的所有神经元的贡献产生,其中大多数神经元由等式(1)的简单模型控制。y=f(b+α(xi))( 1)在这个模型中,f是激活函数(非线性函数),b是常数,α是训练权重或参数的函数[40]。在最简单的版本中,可以将ANN理解为具有隐藏训练参数的黑框,其可以像人脑一样进行训练或学习,即,人工网络还需要学习,它通过许多示例执行的过程(监督学习)[41]。一旦模型或网络经过充分训练,它就可以在新的示例中生成自动响应,如图1.一、3. 多层感知器或全连接网络有许多人工神经网络类型,多层感知器或全连接网络是最简单的版本。该网络由一个输入层、一个输出层和一个或多个隐藏层创建的分层结构组成。每一层包括与相邻层(输入和输出)互连但在同一层的单元之间没有连接的若干单元。一般来说,网络层只由几个称为人工神经网络的单元组成。A. Anaya-Isaza等人医学信息学解锁26(2021)1007233=[]∈4=[]⎡⎢⎢⎥⎤⎣⎦=b w w wwFig. 1. 人工智能被表示为黑盒子--监督学习的一个例子。神经元,或者说感知器如前所述,基本单元或感知器类似于神经元的生物模型。感知器将输入值乘以表示生物神经元的突触相互作用的权重进行求和。权重被称为训练参数,并在网络的训练中进行调整。最后,加权和被引入到激活函数(非线性函数),模拟激活,或生成每个感知器的输出(见图2)。 2)的情况。虽小由于构成多层感知器结构的元件数量,该架构可以设计为具有无限配置,因为对每层感知器和每网络层没有限制[ 40]。简单的感知器模型可以覆盖到一个鲁棒的和复杂的数学模型,按比例的许多层和感知器,层.例如,给定输入向量xx1,x2,x3,.,x n x iR1可以写出第一个感知器的输出y1,如等式(2)所示。y1(x,w1,b1)=f(b1+∑w1ixi)(2)y1(x,w1)=f(w1tx)(6)由于感知器是相似的,因此它们中的每一个的输出可以如等式(7)至(10)所示来写。y2(x,w2)=f(w2tx)(7)y3(x,w3)=f(w3tx)(八)y4(x,w4)=f(w4tx)(九)⋮ym(x,wm)=f(wmtx)(十)因此,如果输出被矢量地组织,则第一层将由数学等式(11)或其等效物来支配(12)以包括与偏置相关联的术语y=[y1,y2,y3,i=1yy yy y.y 第一年(12)其中w= [0,1,2,3,,m],0=1w11,w12,w13,.,w 1 n和b 1是训练参数,f是激活函数。等式(2)也可以写成:如等式(3)中的内积或点积的合成。y1x,w1)=f(b1+w1tx)(3)另一方面,如果第一层中的所有感知器具有相同的激活函数,则可以通过对矩阵X(13)中的m个(1000...0B111岁以下W1213岁以下儿童...w1n这里,超索引t表示向量的转置此外--此外,如果x和w1被重写为等式(4)和(5),则等式(3)将采用等式(6)中表示的形式。Wb2W21W22W23...W2 N⎢3313233.3n(十三)x=[x0,x1,x2,x3,w1=[b1,w11,w12,w13,A. Anaya-Isaza等人医学信息学解锁26(2021)10072341 除了计算资源产生的限制。⋮ ⋮ ⋮ ⋮⋱⋮BMWM1Wm2wm3...wmn因此,第一层的输出将采用等式(14)中所示的形式。y=f(Wx)(14)由于网络层是相似的,因此等式(14)可以是:A. Anaya-Isaza等人医学信息学解锁26(2021)1007235图二. 人工神经感知器与多层感知器。一般化为任何隐藏层,如等式(15)所示。y(l)=f(l) 。W(1)y(1-1))(15)其中,y(l)表示第l个隐藏层的输出,W(l)和f(l)表示同一层的训练参数(权重)和激活函数,y(l-1)表示当前层的输入(前一层的输出),即,当对所有层重复该过程时,所生成的输出将是下一层的输入。应该注意的是,MLP模型的序列性适用于所有类型的人工神经网络[42]。4. 卷积神经网络DL的大部分增长主要归功于以下方面的进步:计算机视觉事实上,在这个领域中使用最广泛的算法之一该网络可以破译或学习一组图像中存在的最复杂的模式,并通过卷积来实现从根本上说,卷积由一个双函数运算符、图像和滤波器或内核组成该函数获取图像的一部分,并通过将图像片段的每个点与过滤器元素相乘来突出显示图案对结果进行加权,并将生成的值放置在与图像片段对应通过在整个图像上移动过滤器来重复该过程,从而创建具有取决于过滤器结构的突出特征的图像。在CNN的情况下,卷积以相同的方式执行由卷积生成的图像被称为特征图。此外,这里还包括对每个map元素的偏置,并且每个map都图3.第三章。a)分别具有2个和3个滤波器的双层卷积神经网络的描述。(2)同一网络的紧凑表示A. Anaya-Isaza等人医学信息学解锁26(2021)1007236̃̃A(il-1)*K(l)+b(jl)H受到激活函数的作用,满足等式(1)的描述。在这种情况下,网络的训练参数是与所有滤波器相关联的权重,即,网络学习最佳滤波器以突出收敛到期望任务的高级特征。这个过程是重复层后层创造越来越抽象的功能。此外,CNN架构还可以与其他类型的网络一起实现,例如完全连接或注意力模型(见第6节)。图3示出了卷积过程的图形描述,其中输入图像根据该层的滤波器的数量生成一个或多个特征图,即,如果网络在第一层中具有两个滤波器,则在输出中将生成两个特征图。类似地,每个层可以具有任何过滤器大小和所需的步幅数。步幅是过滤器沿网络移动的跳数。应该注意的是,每个过滤器生成独立于输入图的数量的新特征图。然而,滤波器深度改变以匹配图的数量,如图10所示。3.第三章。应当澄清的是,虽然图3a是更具描述性的图,但是通常,卷积网络方案如图3a中所示。 3 b,仅限于滤波器的大小、数量和步长。CNN层中的卷积过程由以下数学表达式(16)控制。上一次的输出(yt-1)。该术语被称为隐藏状态,通常表示为ht-1。类似地,项Wxh、Whh和bh是训练参数,即,模型的权重和偏差f是激活功能。此外,由于习惯上使用多个观测值,因此等式(18)通常用等式(19)中的矩阵表示。Ht=φ(XtWxh+Ht-1Whh+bh)( 19)同样,网络层是由几个神经元组成的,如图4所示,与图2不同,该网络在同一层的神经元之间有连接具有时间依赖性的设计通常提供准确的结果;然而,存在两个主要问题。首先是大多数顺序数据没有固定的大小。例如,脑电图可以在5kHz的采样率下有2分钟的记录,或者在相同的采样率下有10分钟的记录。其次,在前面的几个步骤中有许多隐藏状态可能会超过网络的能力,甚至会由于消失梯度的影响而产生模型权重的不稳定性。从这个意义上说,已经提出了几种解决方案来解决这个缺点,门控递归单元(GRU)和长短期记忆(LSTM)是最常见的[46,47]。与传统的递归神经元不同,GRU被设计为控制隐藏状态激活,即,他们认为,A1=fMi=1Xi*Ki1+b1)(十六)更新或恢复该状态。例如,如果第一个如果一段数据具有高重要性,则单元学习在该段数据之后不更新隐藏状态。 同样,该单位学会省略不相关的观察或恢复潜在状态。 神经元具有其中,对于M个特征图,* 表示在图等效深度处第i个图Xi和滤波器Ki1之间的卷积同样,在这种情况下,b1和f分别是偏置和激活函数类似地,遵循与前一节类似的推理,由网络的第l层中的第j个内核生成的每个特征图由以下数学表达式(17)管理。三个门来执行这个过程,从输入生成,即复位门,更新门,和隐藏状态候选(见图5)。重置门允许控制记住多少先前状态以生成候选隐藏状态,而更新门控制多少状态只是先前状态的副本,基于候选状态生成隐藏状态。隐藏的(M∑(l-1))i=1IJ状态Ht在数学上由等式(20)表示。(十H不(二- Zt) t-1+(1tt=此外,MLP中描述的数学顺序性也可以在这种架构中实现,其中对于每个给定的层,其输入是前一层的输出[435. 递归神经网络递归神经网络(RNN)是具有能够保持序列特征的前馈回路的网络,即, 它们可以处理时间依赖性的问题。主要的应用程序集中在翻译(文本序列),音频和视频,其中最常见的问题。在医学中,它们可以是与病理学研究相关的时间信号,例如肌电图信号或纵向记录,以研究病理学的演变。RNN可以通过隐藏状态存储来自先前数据的信息,并与当前输入一起计算与该序列相关联的输出。RNN可以被认为是“记忆”初步信息,以在实践中达到所需的预测。这些信息被驱动通过不同的层,集中在与任务性能相关的输出上,例如预测或分类。RNN遵循与MLP和CNN网络相同的原则,唯一的区别是网络在神经网络模型的第一个定义之后,数学-在时间t处的RNN的数学模型可以如等式(18)所示形式化。yt=f(xtwxh+yt-1whh+bh)(18)方程(18)类似于神经网络的第一个定义(参见方程(1)),但是这个定义具有与以下相关联的附加项:Z t是更新门,H t是候选隐藏状态,由等式(21)和(22)控制。Zt=φ(Xt Wxz+Ht-1Whz+bz)(21)H t= tanh(X t W xh+(R t<$H t-1)W hh+ b h)(22)这里,R t是由等式(23)描述的复位门。Rt=φ(Xt Wxr+Ht-1Whr+br)(23)与前面的模型一样,W和b项表示训练与每个门相关的参数。Xt是给定时间t的输入,Ht-1是前一个隐藏状态,λ是Hadamard乘积或元素乘积,φ是激活函数[48,49]。LSTM的行为与GRU相似,尽管它们早于GRU,但要稍微复杂一些。LSTM有四个门;第一个门将先前的隐藏状态、输入和先前的内存(Ct)组合起来,产生新的隐藏状态,称为输出门。第二个(输入门)决定候选存储器的激活状态。第三个是恢复单元内容的系统(遗忘门)。最后,需要一个门来生成一个记忆候选,这被认为是神经元的另一个隐藏状态(见图11)。 6)。像GRU一样,每个门的输出由当前输入、先前的隐藏状态和训练参数控制,如等式(24)这些方程分别描述了遗忘门、输入门、存储器候选和输出。Ft=φ。XtWxf+Ht-1Whf+bf)(24)(∑A(jl)=f(l)A. Anaya-Isaza等人医学信息学解锁26(2021)1007237It=φ(Xt WXi+Ht-1Whi+bi)(25)A. Anaya-Isaza等人医学信息学解锁26(2021)1007238Ct=tanh(XtWxc+Ht-1Whc+bc)(26)不不 XOt-1何O见图4。 神经层有四个简单的递归人工神经元。图五. 计算封闭递归单元(GRU)中的隐藏状态。图六、 具有长短期记忆或LSTM的递归网络。分别由等式(28)和(29)表示。O=φ(X W +HW +b)(27)Ct=Ft<$Ct-1+It<$Ct(28)A. Anaya-Isaza等人医学信息学解锁26(2021)1007239然后,神经元输出的记忆Ct和隐藏状态HtHt=Ot tanh(Ct)(29)A. Anaya-Isaza等人医学信息学解锁26(2021)10072310̂[∑)]∑u2Ku)=e()下一页.)√̅̅̅d̂同样,在等式(24)至(29)中,存在项W和b与每个门相关联的训练参数。Xt是给定时间t的输入,Ht-1是前一个隐藏状态,λ是Hadamard乘积或元素乘积,φ是激活函数[50]。6. 注意力模型等式(30)是注意力机制的最一般化形式,其中xi和yi被称为n个观察的键值对,x是查询,α是注意力权重。该解决方案由Nadaraya-Watson提出,通常称为核回归,并且原始版本在等式(31)中示出。注意力机制是另一种生物启发系统。注意力模型的原理是基于视觉的视神经ny=j=0K.x-xj-1ni=0时K(x-xi)yi(31)系统眼睛的视网膜从这将远远超过人类大脑其中K由等式(32)给出的高斯核组成。幸运的是,并非所有感知到的信息都具有相同的重要性。大脑将注意力集中在感兴趣的物体上。为1(2π-二(三十二)例如,作为人类的一种生存机制,大脑已经进化到将注意力集中在潜在的危险物品上,例如捕食者的眼睛。即使是现在,当你读这段文字时,你的注意力也集中在文字所传达的信息上,忽略了周围的其他元素。在人工智能中,这一概念导致了注意力机制的发展。如果你有大量的信息,为什么不集中在相关的信息?事实上,这是一种直觉,跳出来给你。例如,在磁共振成像中,图像是正方形的,大脑的轴向切片位于中心,这意味着与背景相关的大量信息(无关信息)。在这些前提下,科学家们开发了几种注意力机制,甚至可以省去卷积或递归网络。正如本节开头所指出的,当我们将注意力机制与日常人类任务联系起来时,它就很容易理解了但是,从数学的角度来看,在实现中需要更严格一点。模型最简单的情况之一是对单个变量的预测例如,假设一个数据集x和y属于实数。对于每个观测值x,有一个输出y。在这个意义上,如果希望知道特定x的新输出,可以对所有ys输出求平均以生成这样的预测(参见图7a)。该解决方案将导致任何新观察的单一值,并且效率不高。相反,遵循注意力模型的原理,人们可以更多地关注接近查询值的输出,即,根据到查询点的距离为输出分配权重上述的一般形式可以由等式(30)[51]、[52]表示。∑在图7a中可以看到这种实现的清楚示例,其中对于从0到7变化的数据集,值是该集的函数(蓝点)。观测是计算新观测或查询值的模型的部分描述。例如,在具有高斯核的Nadaraya-Watson模型中查询5.6将生成青色曲线中显示的权重分布。接近查询的值将在加权和中具有更大的权重以预测新值。换句话说,关注的是接近查询的值[51]。人工智能注意力机制的框架可以使用相同的模型来建立,如图7b所示。在这种情况下,网络具有键和注意力得分函数,该函数生成偏向于感兴趣的查询的值。这些值受到激活函数f的影响,该函数将建立最终输出总和中每个值的相关性或贡献。同样,评分函数将与模型的训练参数相关,这些参数将被调整以生成优化所需任务的权重分布。正如预期的那样,注意力得分a q,k并不是单一的函数。然而,两个最常用的功能是:附加注意力和缩放产品注意力。前者由等式(33)控制。a(q,k)=WvtanhWqq+Wkk( 33)缩放的乘积注意力由等式(34)描述,并且是称为变压器的新网络的中心概念,将在下一节中介绍。a(q,k)=softmax(qk)v( 34)y=i=0时α(x,xi)yi(30)在等式(33)和(34)中,q是查询,k是键,v是值,W是训练参数[53]。见图7。a)查询的高斯注意力模型中的权重的可视化(X值)。b)基于值的加权平均计算注意力模型的输出。nA. Anaya-Isaza等人医学信息学解锁26(2021)10072311我我我我我√̅̅̅̅̅[54],注意力模型的思维方式发生了变化,∈我我我这个过程称为嵌入,每个标记都表示为德拉克·德拉7. 变形金刚到目前为止,已经提出了全连接神经网络,卷积,递归和注意力模型。然而,截至2017年,随着Vaswani等人发表的著名文章每个输入嵌入向量、三个权重矩阵生成每个报头中的键、查询和值。例如,设为嵌入向量x∈Rd,其中d是模型的维度,则查询、键和值由等式(38)Q=xW qW q∈ Rd×dq(38)就是现在的变形金刚从本质上讲,Transformers仍然保留了相同的注意力模型直觉,但省去了卷积和递归网络。首先,对Transformer的评估可能会有些不及时。K i=xW kWk∈ Rd×dk(39)V i=xW vW v∈ Rd×dv(40)由于构成它的许多元素以及每个元素背后的所有数学模型,此外,该模型中使用的术语使其更加令人不安;然而,一旦理解了一步一步,Transformer就相当友好,是人工智能中的一个强大工具。图8示出了由编码器和解码器组成的Transformer的一般结构。编码器又由几个堆栈和四个子层组成,其中多头注意层是模型的基本基础。最初,架构接收通常是文本序列的输入。文本被划分为标记(一个称为标记化的过程),然后表示为模型使用的向量dq、dk和dv是第i个报头的矩阵的列,它们具有相同的值。以上在图8b中示出并且对应于由线性块生成的输出。在这一步之后,过程变得简单了一点,查询和键矩阵之间的标量积(QiKT)被执行,缩放(除以dk),通过softmax函数,并且最后,该值与值的向量相乘,以便获得注意力分数,其在图8c中示出并由等式(41)表示。(QiKT)K通过由开发人员预定义的大小的向量,通常基于令牌可以具有的最大大小(参见图8e)。随后,嵌入通过位置编码,这是与递归模型的主要区别。在递归模型中,单词的顺序对于执行模型的预测至关重要,因为在一个位置或另一个位置的单词可以改变句子的上下文。然而,对于Transformer的情况,顺序是不必要的,因为通过位置编码包括了单词位置,避免了生成和存储递归网络的隐藏状态。Vaswani等人提出的位置编码(PE)[54]非常简单。它根据标记的位置(等式(35)和(36)中的pos)和嵌入向量的每个元素来分配正弦或余弦值。生成的值(见图8d)被添加到嵌入的每个元素中。用正弦函数对偶数元素进行赋值(见等式(35)),用余弦对奇数元素进行赋值(见等式(36))。此外,三角函数的幅角由取决于每个元素的角频率(wi)调节(i)维度d模型的嵌入向量(参见等式(37))。PE(pos,2i)=sin(wi*pos)(35)PE(pos,2i+ 1)=cos(wi*pos)(36)对每个报头重复该过程,并将其连接以生成第一子层的输出(见图8c)。该操作由等式(42)表示。MultiHead=级联(Head1,Head2,其中,WoRdkh×d是图8b中所示的线性运算的矩阵,h是N个堆栈中每个堆栈的报头数量8. 人工神经网络上一节展示了不同类型的人工神经网络,所有这些都有一些标准参数,称为参数和超参数。参数是不同模型中涉及的所有变量,可以通过训练来学习,即,参数是模型的权重。超参数是可以改变但不能学习的不同元素;它们可以根据手头问题的特定标准手动选择[55]。例如,观测值的大小(称为批处理)可以根据自己的选择而变化。然而,大批量将需要更高的内存容量,而小批量则需要更高的迭代次数来训练模型,即,这需要更多的训练时间[56]。在w=12我(三十七)接下来,我们将讨论与人工神经网络相关的所有关键要素。我 10000d模型这种编码背后的直觉是保持词序,即,给定的分配可以等同于连续的数字分配。然而,通过三角函数的分配在计算上更有效,因为它可以利用浮点数据生成的十进制值。此外,它将允许模型学习相对位置,因为固定位移可以表示为位置编码的线性函数[54]。理解了位置编码之后,我们现在可以继续讨论“注意力就是你所需要的一切”。上述模型为我们提供了Transformer如何工作的基础。简单地说,自我注意力从输入数据中生成键、查询和值,为每个输入创建一个相应的加权输出,该输出是从信号的先前状态(递归)生成的。Transformer使用相同的自衰减概念,从输入生成键、查询和值。然而,主要区别在于它不依赖于先前的状态,因为它隐含在位置编码. 因此,可以使用单个注意力模型,或者,网络.8.1. 损失函数在上一节中,我们直观地和数学地描述了人工神经网络的行为;然而,我们认为训练参数w的值是理所当然的。每个神经网络可以有数百、数千或数百万个训练参数(取决于深度),这些参数是搜索最佳值以达到网络最佳性能所必需的这个过程最好通过确定模型适应性的度量损失函数量化实际值和预测值之间的距离一般来说,损失是一个正数,其中较小的值可以产生更好的预测,或者,如果失败,通过达到零来实现完美的预测,前提是模型没有过拟合。回归问题中最常见的损失函数之一是平方误差或均方误差。假设对于第i个观测值,实际值yI与预测值yI相匹配,生成公式(43)给出的平方误差。或者,并行使用多个注意力模型。 使用lΘ1 (yxΘy)2(43)多个模型被称为多头注意力。换句话说,对于()2=i(,)-i头i=softmax第五章(4见图8。a)Transformer及其主要元件的一般结构。b)多头注意力模块。c)基于自我注意力模型的标量积。d)为25个输入(单词)和512个特征的嵌入长度e)输入的令牌化和嵌入A. Anaya-Isaza等人医学信息学解锁26(2021)1007239A. Anaya-Isaza等人医学信息学解锁26(2021)10072310̂∑11()=y+1̂̂ ̂̂̂̂ ̂中国(48)̂n̂n()=n2i(i,)--我这里,yi是输入x和训练参数θ的函数。此外,假设n个观测值,整个集合的误差是通过对各个贡献进行平均来获得的,如等式所示(44).DL(y,y)=1-2y,y+1(47)nJ Θni=12(x,Θ)-yi)(四十四)其中,y是实际数据集,y是预测集。应当注意,等式(47)在分子和分母中修改为1,确保即使在极端虽然二次误差是最早的损失函数之一,但它的使用更广泛地扩展到回归模型,因为许多损失函数在分割或分类问题中具有更显着的特性[57]。下一节展示了五个现代损失函数,用于人工智能中不同类型的应用8.2. 损失函数损失函数是有效训练模型的基本要素之一。因此,在一个或另一个功能之间的选择可能会导致网络性能的显著差异例如,许多应用程序侧重于分类;然而,如果一个元素高于其他元素,则使用均方误差会产生错误的性能该网络将学习将所有项目分类为频率最高的项目,如果该项目对应于90%的数据,则即使所有项目都被分类在一个类别中,网络也会得到相同的分数。类似地,分割任务包括将像素分类为不同的元素,通常与背景和感兴趣的对象相关联(例如,脑肿瘤)。元素跨越的区域之间的差异(数据不平衡)通常会导致网络偏向更重要的元素。因此,有必要选择考虑这种数据不平衡的损失函数[57]。在下一节中,我们将介绍五种最常用的8.2.1. 二进制交叉熵二进制交叉熵是双峰问题中最常用的损失函数之一。准确地说,该函数测量两个概率分布之间的差异,计算与每个类或元素相关的熵该原理可以应用于图像,其中每个像素像素被认为是两个分布元素之一(例如,背景和感兴趣的组织)[58]。该函数在训练模型时非常高效。但是,它容易受到类不平衡的影响,因此不建议在这种情况下使用它二进制交叉熵(LBCE)在数学上被定义为如等式(45)所示。其中,y是实际数据集,y是预测集。8.2.2. 加权二进制交叉熵与前面的情况一样,加权二进制交叉熵用于测量两个分布之间的差异。然而,这些变量对集合进行加权,允许消除数据不平衡的偏差[59]。加权二进制交叉熵在数学上定义,如等式(46)所示。LWBcE(y,y)=-(βylog(y)+(1-y)log( 1-y))(46)这里,y是实际数据集,y是预测集,β是加权系数,用于调整假阳性或假阴性。其中y和y等于零。8.2.4. 特沃斯基损失Tversky指数是集合之间非对称相似性的度量[61]。该函数可以被视为数学表达的Dice系数的推广YYTI(y,y)=yy+β(1-y)y+( 1-β)y( 1-y)等式(47)通过系数β对假阳性和假阴性权重进行加权。与Dice系数一样,Tversky指数也可以拟合到损失函数,如公式(49)[62]所示TL=1-TI( 49)通过降低单个示例的权重并通过调制因子γ[63]将训练集中在硬否定项上,可以将损失函数修改为焦点损失,如公式(50)所示。FTL=∑(1-TIC)γ(50)这里,调制因子必须满足γ>0的条件。8.2.5. 对数余弦骰子损失Dice系数在计算机视觉中被广泛应用于常规图像。然而,由于其非凸性质,最近提出了使用双曲对数余弦的平滑版本[64]。损失函数在数学上定义为等式(51)。LDL=log(cosh(DL))( 51)这里,DL是具有在等式(46)中设置的Dice系数的损失。在这一点上,我们有两个深度学习的基本要素第一个是不同的网络类型和损失函数,主要建立产生的错误量。此外,上一节中描述的每个模型都是以下函数的函数:训练参数称为权重和偏差(W和b),即,在给定任何人工神经网络的情况下,存在一组训练参数Θ,其可以被调整以优化期望的任务。所以,问题是:我的任务的最佳值是什么,我如何计算它们?目前,算法用于获得训练参数;然而,在本节中,我们将描述反向传播算法的解析解,以更清楚地了解网络的训练。8.3. 解析解假设对于一个人工网络,有预测输出和与输入向量xi∈R的第i个观测相关联的yi。此外,假设均方误差作为损失函数,则生成的总误差将由每个观测值的贡献给出,如等式(52)中所给出的。8.2.3. 骰子损失Jw1∑1(yxwy)2(52)i=1两个样本。它的使用可以通过比较空间匹配像素之间的相似性扩展到图像[60]。该系数也被包括作为损失函数,并且被数学地定义,如等式(47)所示。现在,从等式(1),输出的一般形式是已知的。然而,如果假设线性激活函数,则输出将采用等式(53)。yi(xi,w)=xi w(53CDice系数是一种统计量,用于计算2A. Anaya-Isaza等人医学信息学解锁26(2021)10072310)̂ 因此,通过以矩阵形式布置等式(52),可以得到A. Anaya-Isaza等人医学信息学解锁26(2021)10072311.)....))Wn-2mi=1an双氢吡喃双氢吡喃--公式(54)。在单变量的情况下,损失函数呈凹形J1T最小值(Global Minimum)因此,梯度可以(w)=2n(Xw-y)(Xw-y)(54)如上所述,等式(54)提供了由模型生成的误差,即,该函数给出的值越低,网络的性能越好。在这种情况下,我们将处理一个经典的优化问题。因此,可以导出方程公式(54)中关于w并且等于零的函数的最小值,以找到如公式(55)中给出的该函数的最小值。DJ达到尽可能低的成本。然而,应该澄清的是,损失函数不具有这种行为,因此,梯度可能达到局部最小值,从而限制了模型8.5. 反向传播虽然梯度下降对于寻找最优解非常有用,虽然模型参数的值是有限的,但是实现仍然需要大量的计算来通过模型传播误差但这是(w)=1. (Xw-y)T(Xw-y))=0(55)显著 减少 通过 的 反向传播 法 后退-传播指的是 的 计算方法 梯度 的经过一系列的数学运算(见图1),所以-由表达式(56)给出的解将被达到[65]。w=.XTX)-1XTy(56)8.4. 数值方法(梯度下降)虽然分析方法似乎是最快的解决方案,但通常情况并非如此。上述解决方案基于许多假设,尽管这些假设可以满足,但找到矩阵的逆并不是一个容易的过程,特别是在人工神经网络中,其中有许多特征和观察。然而,有更多的独特的解决方案,如随机梯度下降(SGD)。SGD背后的直觉非常简单,并且包括迭代地减少损失直到达到最小值,如表达式(57)所示Θτ+1=Θτ-ητ(Θτ)(57)为了更详细地理解,假设损失函数具有单个训练参数w(参见图9a)。如果初始选择w的随机值,则损失函数可能具有高值。另神经网络参数
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功