深度学习正则化技术在基因组数据中的应用

140 浏览量更新于2023-12-05 收藏 12.35MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

“”“”“”0深度学习正则化技术应用于基因组数据0Harouna Soumare a，b，*，Alia Benkahla b，1，Nabil Gmati c，10a 数学建模和工程科学数字实验室，突尼斯国立工程学院，突尼斯埃尔曼纳尔大学，Rue B � echir Salem Belkhiria Campus Universitaire，B.P. 37，1002，突尼斯Belv � ed � ere，突尼斯 b生物信息学，生物数学和生物统计实验室，突尼斯巴斯德研究所，13 Place Pasteur，B.P. 74 1002，突尼斯，Belv � ed � ere，突尼斯 c理学院和阿卜杜勒拉赫曼本费萨尔大学基础与应用科学研究中心，沙特阿拉伯达曼，邮政信箱1982，314410A R T I C L E I N F O0关键词：深度学习过拟合正则化技术 Dropout 基因组0A B S T R A C T0深度学习算法在许多领域取得了巨大成功，其中使用大规模数据集。然而，在高维数据上训练这些算法需要调整许多参数。避免过拟合问题很困难。正则化技术，如L1和L2，用于防止训练模型的参数过大。另一种常用的正则化方法称为Dropout，在训练阶段随机删除一些隐藏单元。在这项工作中，我们描述了一些深度学习算法的架构，解释了训练它们的优化过程，并试图建立L2正则化和Dropout之间的理论关系。我们通过基因组数据集实验比较了这些技术对学习模型的影响。01. Introduction0在过去的十年中，深度学习（DL）算法在许多领域取得了巨大成功，其中使用大规模数据集，如生物信息学[2，13，50，62，88，94]，自然语言处理[5，15，28，47，71]，计算机视觉和语音识别[1，4，29，34，37，56，65]。在这项工作中，我们回顾了一类称为前馈神经网络（FNN）的DL算法[54，68，91]，其中信息通过顺序操作从输入到输出向前传递，称为“层”。这些模型是逻辑回归模型的泛化，逻辑回归和FNN都广泛用于生物信息学和生物医学科学中进行分类和诊断任务[8，20，21，24，27，44，48，70，73]。在大多数情况下，我们寻找一个变量y和一组变量x之间的非线性映射y =f（x）。f的形式取决于所研究问题的复杂性。逻辑回归定义了一个低复杂度模型，使用简单的非线性映射从输入到输出。而FNN定义了输入和相应输出之间更复杂的映射，因此得到的模型具有较高的复杂性和灵活性，以及更好的预测能力。然而，增加预测模型的复杂性也会增加过拟合问题的风险，这会产生不良影响0是训练模型很好地适应训练数据集，但在未见数据集上失去了其预测能力。防止过拟合问题是训练这些算法的一个主要挑战。然而，有许多处理过拟合问题的技术，称为“正则化技术”。机器学习（ML）社区中最常用的正则化技术是L10L2正则化的[53]。其思想是通过向损失函数添加一个补充项来防止模型的权重过大。这种惩罚的效果是使学习算法更倾向于学习较小的权重。这种方法使模型更简单，避免过拟合的风险。另一种常用的正则化技术称为“Dropout”，由Hinton等人开发[33]，在训练阶段随机删除一些神经元（在隐藏层）。这迫使隐藏单元从输入数据中提取有用信息，并减少隐藏单元之间的共适应性，从而使模型对神经元的特定权重不太敏感。Dropout技术允许在合理的时间内训练指数数量的（稀疏化的）网络[33]。在测试阶段，取不同（稀疏化的）网络的平均预测相当于在所有隐藏神经元上进行测试的单个网络[6]（不丢弃任何单元）。为了补偿在Dropout下学习权重的事实，每个神经元的输出权重的结果0*通讯作者。突尼斯国家工程学院数学建模和工程科学数字实验室，突尼斯埃尔曼纳尔大学，Rue B � echir Salem Belkhiria Campus Universitaire，B.P. 37，1002，Tunis Belv � ed �ere，突尼斯。电子邮件地址：soumare.harouna@enit.utm.tn（H. Soumare），Alia.Benkahla@pasteur.tn（A. Benkahla），nmgmati@iau.edu.sa（N.Gmati）。1这些作者贡献相同，按字母顺序排列。0ScienceDirect提供的内容列表0数组0期刊主页：www.elsevier.com/journals/array/2590-0056/open-access-journal0https://doi.org/10.1016/j.array.2021.100068 2020年11月28日收到；2021年3月26日收到修订稿；2021年5月10日接受在2021年5月24日在线发布 2590-0056/ © 2021Elsevier Inc.出版本是根据CC BY许可证的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。0Array 11（2021）100068f : Rd → Rx → z ¼ x � w þ b :Where w and b are respectively the weight vector and the bias term. Thesymbol “�” is the dot product between two vectors. Another simple su-pervised learning algorithm called logistic regression is used for theclassiﬁcation problems where the target function takes discrete values.Given an input data x, the logistic regression [18,19,39,74,86] applies anon linear function to its corresponding linear regression output z, toproduce classes membership probabilities. For example, in a binaryclassiﬁcation task, given x and it corresponding class C1, logisticregression algorithm outputs the conditional probability PðC1jxÞ of xgiven C1. This probability is given by sigmoid function σðzÞ ¼11þe�z. In thecase where there are more than two classes, the conditional probabilityPðCijxÞ is given by the softmax function softmaxðzÞi ¼…class probabilities sum up to 1, i.e.…aðlÞj¼ φ�zlj�;(1)zlj ¼Xiwlijaðl�1Þiþ blj ¼ aðl�1Þ � wlj þ blj;(2)…C ¼ 1nCx;(3)Pðy ¼ yijxiÞ ¼ aLðxiÞyi�1 � aLðxiÞ1�yi�:“”H. Soumare et al.Array 11 (2021) 10006820隐藏层的权重将乘以该层的辍学率，这在计算时间方面是一种优势。然而，这种近似的质量仍然鲜为人知。已经探索了许多理论辍学分析[6, 23, 31, 49，055, 58, 75, 79,81]。Baldi等人[6]表明了该技术如何作为自适应随机梯度下降。Wager等人[79]分析了辍学作为广义线性模型（GLM）的自适应正则化器。Ma等人[46]试图明确量化辍学的训练和推断阶段之间的差距，并表明该差距可以用来正则化标准的辍学训练损失函数。本文解释了训练DL算法的数学，并试图进一步建立辍学与其他正则化之间的理论关系，主要是L2范数。我们通过两种不同的基因组分类数据集实验比较了正则化技术对模型训练的影响。人类DNA是一个长达30亿个碱基对的链，其中大部分功能是未知的。一些名为基因的DNA片段编码了在生命中至关重要的化学过程中发挥重要作用的蛋白质。基因中的一些变化会导致相应蛋白质的产生功能失调，这可能导致遗传疾病。最常见的基因变化称为单核苷酸多态性（SNPS），是由于基因组中某个位置的一对碱基变为另一对碱基而引起的。已经证明一些SNPS参与了几种人类疾病，并可以用来预测人类对某些药物的反应[27]。在我们的实验中，我们首先使用逻辑回归对癌症数据集进行分析，这些数据集来自癌症表达项目（EXPO）[60]。然后，我们对一个1000基因组计划数据集进行了FNN训练，以根据其基因型预测个体祖先[59]）。所有个体都通过其SNPS型[14]在两个数据集中进行了表示。本文的组织如下：第2节描述了FNN的体系结构和背后的数学；第3节介绍了梯度下降算法；第4节描述了传统的正则化技术和辍学；第5节描述了材料和方法；第6节介绍了实验结果，其中使用了不同的正则化技术。02.深度学习：前馈神经网络（FNN）0在这项工作中，我们讨论了前馈神经网络（FNN）[42, 54，057, 69, 76,91]或多层感知器（MLP）。在这种网络中，信息仅从输入传输到输出（见图2），没有任何循环。这种模型主要用于监督ML任务，如回归或分类任务，其中目标函数是已知的。基本的监督学习算法是线性回归[12, 51,82]，在这个任务中，算法学习通过线性变换将输入数据x 2 Rd映射到一些实际值y0k ¼ 1 e zk . 其中0ð z 1 z 2 … z n c Þ 以及zi ¼ x � wi þbi。wi和bi分别是第i类Ci的权重向量和偏置项。nc是类别数和0i ¼ 1 softmax ð z Þ i ¼ 1. Fig. 10最简单的可能神经网络（NN），它包含一个与输入输出映射完全对应的神经元。具有S型输出函数的神经元等效于逻辑回归。FNN是一个非线性函数，它也由几个更简单的函数（神经元）组成，其中神经元的输出可以用作另一个神经元的输入。这些函数中的每一个都提供了输入数据的新表示。它由一个输入层，一个或多个隐藏层和一个输出层组成。02.1. 监督神经网络0让我们考虑一个L个隐藏层的前馈神经网络，其中n个输入训练样本X ¼ x 1；x2； …；x n被标记，即给定输入xi，模型的相应输出是已知的，并表示为yi或y ðx i Þ。其中y是包含标签的向量。标准神经网络可以描述如下：0其中 z l j，b l j和a l j（a 0 j ¼ x j，对于d维输入x ¼ ð x 1 x 2 … x d Þ T）0层到第l层的第j个单元。w l j和a ð l � 1 Þ 分别是0X0图1. 逻辑回归 “ 神经元 ” .0假设夫妇 ð x i ; y i Þ ，i 2 f 0 ; … ; 1 g是独立的，似然函数给出…P Pðy ¼ yijX!(4)Training the NN consists to maximize the likelihood function which isequivalent to minimize the crossentropy loss function deﬁned bynnn…xi → φi →hð iÞ ;φXni¼1kxi � φ’∂Cx∂wlij:(8)30y j X Þ ¼ � Y n0¼ � Y n0训练NN了最大化于最小化熵损失函似然函数0i ¼ 1 a L ð x i Þ 为标签，ð x i Þ 1 � y i � : (5)0C ¼ 1n0i=1 yi log a L(xi) + (1 − yi) log (1 − a L(xi)): (6)0现在考虑一个多类分类问题，标签是相互排斥的。在这种情况下，(6)变成了0C ¼ � 1n0i=10k=1 yk(xi) log a L k(xi): (7)0a L k(xi)是满足0≤a L k(xi)≤1且Pnck=1a Lk(xi)=1的softmax函数。在本文的其余部分，C表示由(3)定义的损失函数。02.2. 无监督神经网络（自编码器）0到目前为止，我们已经描述了监督学习情况下的FNN。在这里，我们假设输入样本X¼fx1;x2;…;xng是未标记的，其中xi∈Rd。自编码器是最常用的无监督学习算法之一[41,52,77,83,93]。自编码器是一个设计成以一种原始输入可以从压缩版本中重构的方式学习身份函数的NN。这样的网络将允许发现输入数据的更有效和压缩的表示。它由两部分组成，一个编码器和一个解码器。编码器将输入样本映射到一个0隐藏表示和解码器尝试从编码器中重构输入，因此它至少包含一个隐藏层。在自编码器网络中，每个输入样本x的目标y(x)是它本身，即y(x)=x，对于所有x∈Rd。最终输出的大小与输入相同。自编码器的主要目标是自动捕获输入数据的最相关特征。它也被用作非线性降维技术[32,66,80]，将高维数据转换为低维数据。数学上它由以下应用定义：0o:Rd→Rd0W01�φW1(xi);�xi∈Rd0其中φW1和φ0W01是编码和解码函数参数0由W12Rd→h和W01∈Rh→d参数化，并定义如下：0φW1:Rd→Rh0W01:Rh→Rd0a h(xi) → o(xi):0其中ah和o分别是隐藏层和输出层的输出向量。参数(W1;W01)通过最小化网络输入和输出之间的重构误差来学习0L ¼ 12 n0W01�φW1(xi)k22:0在自编码器训练后，解码层被移除，编码层被保留，学习到的矩阵W1然后被用作监督网络的第一层参数（见图3）。0或者，可以通过最小化CT来联合学习(W1;W01)对(见图4)进行分类网络[22,61,92]，其中CT的损失函数如下0CT ¼ C +γ2n0i=1 kxi − ^xik22:0其中^xi¼φ0W01�φW1(xi)，^X是由^xi组成的矩阵，γ是一个调节参数。03. 梯度下降0一旦损失函数被定义，通常使用梯度下降策略来最小化它。梯度下降是非线性最小化问题的一阶优化策略[17]。损失函数C通过梯度下降方法[3]进行迭代最小化，给定如下0wl ij → wl ij− αn0x∈X0其中α是学习率。为了简化起见，我们假设0没有偏差项b l j，或者简单地将其视为额外的0w l j的组成部分。在每次迭代中，我们必须计算部分的0对于每个训练输入x的C x的偏导数，然后平均它们来更新权重w lij。不幸的是，这种方法可能非常昂贵和0当训练输入的数量很大时，学习速度很慢。这种学习速度慢的问题可以通过随机梯度0图2.分类网络。0图3.自动编码器0图4.分类网络和自动编码器。0H. Soumare et al. Array 11 (2021) 100068…Xx2Xm∂Cx∂wlij¼ δljðxÞ ∂zlj∂wlij¼ δljðxÞal�1iðxÞ:…δLj ¼ ∂Cx∂aLj¼yj � aLjφ0 zLj(10)∂zlþ1k∂zljδlþ1k∂alþ1k∂zljδlj ¼ φ0�zlj�Xx2XmXnhj¼1δljðxÞal�1iðxÞ:(12)●…●●……mx2XmCλ ¼ C þ λΩðWÞXni¼1H. Soumare et al.Array 11 (2021) 10006840下降（SGD）方法。03.1. 随机梯度下降0随机梯度下降[9,10,40,89]的想法是在每次迭代中仅估计一个小的随机选择样本Xm的偏导数，称为小批量，并用它进行训练。0w l ij → w l ij� α m0∂ C x ∂ w l ij：(9)0然后我们取另一个随机选择的小批量Xm和在其上更新权重参数，直到训练输入耗尽，这称为一个训练周期。在这一点上，我们再次开始一个新的周期。为了计算每一层的偏导数，∂ C x ∂ w lij，我们应用0链式法则：0其中δ l j ¼ ∂ C x ∂ z l j代表第l层中第j个神经元的误差函数，对于0一个输入x。为了简单起见，我们只写δ l j和a l � 1 i而不是0δ l j ð x Þ和a l � 1 i ð xÞ。这个表达告诉我们，对第l层中第j个神经元的加权输入进行微小改变如何改变损失函数的整体行为。反向传播算法用于计算每一层的δ l j。03.2. 反向传播0反向传播[30,84,85]是在最小化前馈神经网络损失函数中广泛使用的算法。它使用链式法则从输出层到输入层迭代计算网络中每个神经元的误差。输出层的误差：让我们从计算δ L j开始；i 2 f 1；…；cg，最后一层L中神经元的误差。通过使用链式法则，我们有0∂ a Lj ∂ zL j0因为损失函数仅依赖于z L j，通过a L j。0任何隐藏层的误差：任何隐藏神经元j的误差δ l j在任何0层l。隐藏层l的加权输入z l j与损失0通过所有加权输入ð z l þ 1 k Þ k到下一层的函数。0δ l j ¼X0∂ C x ∂z l þ 1k0¼ X0∂ z l þ1 k ∂z l j：0使用链式法则，我们有0∂ z l þ 1 k ∂ z l j ¼ ∂z l þ 1 k ∂ a l j0¼ w l þ 1 jkφ 0 � z l j �：0k w l þ 1 jk δ l þ 1 k：(11)0上述表达告诉我们，任何隐藏层的误差函数都由下一层的误差函数的加权和给出。哪个0意味着误差是向后计算的，因此称为反向传播。通过写偏导数∂ C x ∂ w l ij关于δ lj，0梯度下降更新规则被重新书写0w l ij → w l ij� α m0其中，nh是第l层的神经元数量。通常，在DL算法中，SGD算法与反向传播相结合，需要计算要最小化的损失函数的梯度，针对大量数据进行。该算法的实现分为以下几个步骤：01. 提供一组训练示例2. 对于每个示例x：给出a 1 ðxÞ，并执行以下步骤：●进行前馈传播：对于l ¼ 2；3； …； L计算z l ðxÞ ¼ Wlal � 1 ðxÞ þ bl，其中alðxÞ ¼ φ ðz l ðxÞÞ。● 输出误差函数δL：计算δL ðxÞ ¼ rCx � φ 0 ðzLðxÞÞ。● 反向传播误差：对于l ¼ L � 1；L � 2； …； 2计算0δ l ð x Þ ¼ ðð W l þ 1 ÞT δ l þ 1 ð x ÞÞ � φ 0 ð z l ð x ÞÞ 3. 梯度下降：对于l¼ L；L � 1； …； 2，根据以下方式更新权重0根据公式Wl → Wl � α m P x 2 X m δ l ðxÞðal � 1 ðxÞÞT。我们还可以展示0通过小的计算，可以得到向量bl的更新公式0包含任何l层偏差项的更新规则为：bl → bl �0为了实现随机梯度下降，需要一个外部循环来生成小型训练示例，并需要一个外部循环来遍历几个训练周期。但是，为简单起见，这些被省略了。04. 正则化技术0在训练ML模型中最严重的问题之一，特别是对于NN，是过度拟合。当训练模型过于复杂时，就会出现这个问题。04.1. L 1和L 2正则化技术0用于减少模型复杂性的一种广泛使用的技术是向损失函数C添加正则化项[26]。新模型损失函数Cλ定义如下：0这些，通过添加另一个称为正则化项的项来更新一般成本函数，其中Ω是L 1或L2范数，w是NN权重参数。04.1.1. L 2正则化 L2正则化项，通常称为权重衰减。这种技术的想法也被称为岭回归或Tikhonov正则化[78]，是在要最小化的函数中添加一个L 2项，以此来0在这种情况下，ΩðWÞ ¼ 1 2 k Wk 2 2。L2范数中的这个额外项强制权重位于半径与正则化参数[26]λ成反比的球体内。在这种情况下，使用梯度下降策略的更新规则为0wl ij → � 1 � λ n0� wlij � αn0∂ C x i ∂ wlij：（13）0这意味着，在每次迭代之后，权重都会乘以一个略小于1的因子。这倾向于使模型更偏好小的权重。Xni¼1…:(16)1nXx2X��yðxÞ � aL�1ðxÞWL��22(17)1nXx2XEδL�1�yðxÞ ��δL�1ðxÞ � aL�1ðxÞ�WL�22:(18)1nXx2X��yðxÞ � EδL�1��δL�1ðxÞ � aL�1ðxÞ�WL ��22þ1nXx2XVar��δL�1ðxÞ � aL�1ðxÞ�WL ¼1nXx2X��yðxÞ � pL�1aL�1ðxÞWL��22þ1nXx2XWLVar�δL�1ðxÞ � aL�1ðxÞ�ðWLÞT:H. Soumare et al.Array 11 (2021) 100068504.1.2. L 1正则化 L 1正则化通过添加L 1项，即ΩðWÞ ¼Pw2Wjwj，修改损失函数。这种技术的背后思想是通过从训练模型中删除无关特征来使损失函数正则化。在这种情况下，更新规则写为0wl ij → wl ij � α λ n sgn �wlij � � α n0∂ C x i ∂ wlij：（14）0其中，sgnðwlijÞ是wlij的符号。两种类型的正则化都试图0在必要时通过缩小来惩罚大的权重，但缩小的方式不同[26]。当使用L2正则化时，权重按比例wlij收缩，而在L 1正则化中，权重按常数收缩0向零的数量。如图5（左侧图表）所示，在二维空间中，L1范数定义了由原点边界的参数空间的平行四边形。在这种情况下，损失函数很可能会击中平行四边形的顶点，而不是其边缘。L1正则化去除了一些参数，因此L1技术可以用作特征选择技术。另一方面，L2正则化定义了一个半径大小与正则化参数成反比的圆（见图6）。04.2. Dropout技术0在训练NN时，Dropout技术通过以一定概率丢弃一些隐藏单元来对学习进行正则化。这相当于修改[72]NN，将一些隐藏激活函数设置为零。使用Dropout，我们可以正式地定义NN如下：0~alj = δljalj; (15)0在每个隐藏层l中的每个神经元j处，输出激活alj被采样变量δlj乘以，从而产生稀疏的输出激活~alj。然后这些稀疏函数被用作下一层的输入，并且在每一层都应用相同的过程。这种应用等同于从一个更大的网络中对子神经网络进行采样。其中δlj是伯努利0通过采样变量δlj，对每个隐藏层l中的神经元j进行稀疏化输出激活~alj。然后这些稀疏函数被用作下一层的输入，并且在每一层都应用相同的过程。这种应用等同于从一个更大的网络中对子神经网络进行采样。其中δlj是伯努利0随机变量（δlj�Bernoulli（pl））的参数pl，即在第l层的神经元中的一个0第l层的每个神经元以pl的概率保留，并以01 -pl。Srivastava等人[72]建议，将Dropout应用于具有n个单元的NN可以看作是对具有权重共享的2n个子网络进行采样。在测试阶段，由于取2n个模型的平均值并不总是可行的，因此使用了一种近似平均方法。其思想是通过一个没有Dropout的单个NN来近似指数多个网络。为了纠正在保留神经元的概率p下获得层的出站权重的训练事实，权重简单地乘以p。这种近似已经被证明适用于逻辑回归和线性回归模型[72，79]。但是，对于深度神经网络DNNs，单个确定性模型的预期输出与指数子网络的输出之间存在未知的差距。Ma等人[46]表明，在对输入数据进行一些假设的情况下，可以控制这种差距，并且可以用来对单个NN进行正则化。0在这项工作中，没有对输入数据做任何假设，我们明确量化了差距，然后展示了它与L2正则化的关系。04.2.1.将Dropout应用于线性网络为了更清楚地看到L2正则化之间的关系，我们首先研究一个非常简单的情况，即模型中的所有激活函数都是线性的。考虑一个NN，其中所有单元都是线性的（即al =al-1Wl，其中al和Wl分别是第l层的输出向量和权重矩阵，l∈{1，…，L}）。Dropout NN的损失函数为01n0X0x ∈X0y（x）≈ a L-1（x） ~ W L-1 202 + 1 - pL-10p L-10��ΣL-1 ~WL-1 20y（x）是给定输入向量x的输出向量。ΣL-1 =01 n diagðaL-1（X）（aL-1（X））T（X））- 1 2，~WL =pL-1WL。给定矩阵A，我们0通过diagðAÞ表示，一个与A大小和对角线元素相同的对角矩阵。在每一层l，我们定义一个矩阵al（X），其列对应于激活函数al在输入数据X上取得的值：al（X）=（al_i（x_j）），1 ≤ i ≤ m，1 ≤ j ≤n，其中al_i（x_j）是第j个输入的第i个输出神经元，m是该层中的神经元数量。0证明 .训练一个没有丢弃神经元的标准神经网络是通过最小化以下损失函数完成的：0Dropout修改了训练过程和损失函数，（17）中的损失函数变为0其中 δ L � 1 是层 L � 1 的随机向量， δ L � 1 i � Bernoulli ð p L � 1 Þ and �代表Hadamard乘积。使用公式0E ð X 2 Þ ¼ ð E ð X ÞÞ 2 þ Var ð X Þ 对于随机变量 X，我们证明（18）等于0图5. L 1 和 L 2 正则化的二维图解。1�pL�1pL�1function of 11nXx2XEδL�1��yðxÞ � φ��δL�1ðxÞ � aL�1ðxÞ�WL��22:(20)1nXx2X��yðxÞ � φ�aL�1ðxÞ ~WL��22 þ 12n�1 � pL�1pL�1�Xx2Xkφ00�aL�1ðxÞ ~WL�Σx ~WLk22::Dataset#of samplesClass 1Class 2# of SNPS60如 Var ð δ L � 1 ð x Þ � a L � 1 ð xÞÞ ¼ �0� a L � 1 ð x Þ a L � 1 ð x Þ T , 我们得到0期望结果。在假设输入层遵循标准差为 σ的高斯分布的情况下，Dropout在期望上等同于 L 2 -正则化。正则化参数 λ 是0p L � 1 σ 2 它随着输入的方差增加（或减少）而增加。0输入层 σ 2 (或者 p L � 1)。因此，Dropout正则化包括检测具有更大方差的输入并收缩它们的权重。04.2.2. 将Dropout应用于非线性网络在这里，我们试图将Dropout和 L 2-正则化之间的关系推广到具有非线性单元的网络。考虑具有非线性激活函数的NN ，即 a l ¼ φ ð a l � 1 W L Þ 。Dropout训练的期望损失函数由以下给出0其中 Σ L � 1 x ¼ � a L � 1 ð x Þð a L � 1 ð x ÞÞ T � 1 2 and ~ WL ¼ p L � 1 W L .0证明 . 我们知道非线性Dropout网络训练损失被定义为0使用三角不等式，（20）被限制为0�� 现在，通过对 φ 在 E δ L � 1 a L � 1 � δ L � 1 ð x Þ W L Þ � ¼ p L � 1 a L � W L 进行二阶泰勒展开，并且假设 Z ¼ ð a L � 1 ð x Þ �0δ L � 1 ð x ÞÞ W L � p L � 1 a L � 1 ð x Þ W L , 我们有 φ ðð a L � 1 ð x Þ � δ L �ð x ÞÞ W L Þ ¼ φ ð p L � 1 a L � 1 ð x Þ W L Þ þ φ 0 ð p L � 1 a L � 1 ð x Þ WL Þ 0然后 E δ L � 1 ð x Þ � φ ðð a L � 1 ð x Þ � δ L � 1 ð x ÞÞ W L Þ � � φ ð p L � 1 a L � 1 ð x Þ W L Þ ¼ 1 2 φ 000ð p L � 1 a L � 1 ð x Þ W L Þ Var ð ZZ T Þ . 因为 Z 是居中的，即 E δ L � 1 ð x Þ ð Z Þ0因此，（20）的上界由以下给出0在这里，Dropout可以被视为正则化器，其中正则化器代表了应用Dropout产生的指数稀疏网络的期望输出与单个确定性网络的输出之间的差距0在这种情况下，辍学训练模型可以被视为L2正则化，其中正则化器λ取决于：辍学率；每个输入和输出层的方差。04.2.3. 辍学与其他正则化技术辍学已知在与其他正则化技术结合使用时可以提高训练模型的性能。批量归一化是由Ref.[35]引入的一种正则化技术，用于加速训练并提高深度神经网络的性能。在训练DNN时，每一层的输入分布会随着其前面所有层的参数变化而变化。这可能需要较小的学习率和谨慎的参数初始化。给定用于更新参数的样本批次，批量归一化通过重新居中和重新缩放（减去均值并除以批次标准差）来归一化每一层的输入。因此，批量归一化可以防止层的输入具有较大的标准差[35]。实验证明，批量归一化结合较大的学习率可以显著加快训练，因为它可以消除辍学的需要。事实上，正如在第??节中讨论的那样，辍学寻找具有更多变化并缩小其权重的层的输入，批量归一化的应用大大减少了这0本工作中的所有模型都是使用Keras和Tensorflow开源库[38]构建的。逻辑回归是使用无隐藏层的前馈分类网络构建的，该模型可以根据需要扩展为更复杂的分类网络，具体取决于0使用批量归一化[25,35,43]可以提高DNN的预测准确性。已知当辍学与其他正则化方法（如最大范数[72]和权重归一化[67]）结合使用时，辍学正则化会显著改善。与L2正则化约束每层权重矩阵不同，这些方法约束每个权重矩阵的每一列，以防止任何隐藏神经元具有非常大的权重。最大范数正则化约束每个隐藏神经元的输入权重向量位于半径为c的球体内，其中c是一个超参数。权重归一化约束传入的权重向量具有单位范数。01 n05. 材料和方法0x 2 X0图6. 退出。0X0�X0y ð x Þ � φ �� ~ W L � T a Lx Þ ��01 n0� 1 � p0x 0x 2 X k φ 00 � a L � 1 ð x Þ ~ W L � Σ L � 1 x ~ W L k 2 2 : (19)0X0x 2X0X02 þ1 n0X0x 2X0X0表1 本研究中使用的不同数据集。0乳腺-肾604 344 260 10937 结肠-肾546 286 260 10937 乳腺-结肠630 344 286 10937结肠-前列腺286 69 355 109370H. Soumare等人。数组11（2021）10006870问题的复杂性。在所有实验中，随机梯度下降被采用作为优化策略。我们的实验中包括两种类型的数据集，分别用于训练逻辑回归和FFN模型的肿瘤表达项目（expO）癌症数据集和1000基因组计划人种数据集。所选数据集中的个体是由其SNPS列表表示的人类。每个SNP都是在特定位点的基因型（即遗传信息）表示。在二倍体生物中，每个位点有两个等位基因，一个来自父亲，另一个来自母亲。因此，对于二倍体生物，基因型在给定位点上取三个值：0（纯合参考）、1（杂合）和2（纯合替代）。纯合参考指的是在参考基因组中找到的碱基，纯合替代指的是在该位点找到的任何与参考不同的碱基，当两个等位基因不同时，基因型在给定位置被称为杂合。模型的输入是大小为n×d的矩阵X，其中n是研究中包括的个体数量，d对应于特征数（SNP S）。输出y取0到1之间的离散值。05.1. Expression Project for Oncology（expO）癌症数据集0本研究中包括的不同癌症样本（见表1），是从Ref.[11]下载的。原始数据集可以从癌症表达项目（expO）中获得，该项目存储在基因表达杂项数据库（GEO）[7]的Expression Project forOncology（expO）中，访问号为GSE2109。expO的目标是获取癌症组织样本并对其进行基因表达分析，并整理患者的长期临床结果。05.2. 1000基因组计划数据集01000基因组计划[16]利用了下一代测序（NGS）的发展，使得DNA和RNA的测序速度和成本大大加快。这是第一个对来自不同地区和国家的大量人群进行基因组测序的项目。在本研究中，n=3450是来自26个种群的全球个体的样本数量，d=315345是SNP的数量。模型的期望输出是一个向量Y∈R^c，其分量对应于26个种群的类别（即c=26）。该模型由一个输入层、一个输出层和两个大小相等的隐藏层组成。给定输入矩阵X，模型输出是一个向量a∈R^c。在两个隐藏层中使用了relu激活函数，然后是一个softmax层进行祖先预测。06. 实验0在本节中，我们将展示正则化技术对不同数据集的训练模型的影响（见表1）。06.1. 使用逻辑回归进行癌症数据集分类0尽管简单，无正则化逻辑回归模型在这些癌症数据集上表现出良好的分类准确性。为了提高当前模型的预测能力，添加了一个惩罚项，并在L1和L2正则化添加项的情况下得到了结果，分别在表3和表4中呈现。我们可以从这些表中观察到，适当的正则化参数对分类准确性有所提高。例如，当使用L1正则化并设置正则化参数λ=10^-3时，Breast-Kidney数据集的分类准确性从96.53提高到99.01。同样，当应用L2惩罚（λ=10^-3）时，Breast-Colon数据集的预测准确性从未经正则化的情况下的94.44增加到99.44。06.2. 使用多层感知机（MLP）进行祖先预测0在本小节中，FNN被用于1000基因组计划的种群数据集上，以预测个体的祖先。与前一小节一样，我们首先使用简单的逻辑回归模型，其预测准确率为54.64%。为了获得更好的预测结果，构建了一个隐藏单元相等的MLP，并通过改变模型复杂度得到了结果，报告在表5中。正如预期的那样，随着模型复杂度的增加，模型的预测准确性开始提高，直到某个水平（每个隐藏层有100个单元），然后开始下降。因为在这个阶段之后，训练模型被认为过于复杂，出现了过拟合。06.2.1.自编码器进行分类我们首先使用一个具有50个隐藏单元和重构路径的分类网络。这给出了84.85%的准确率。当在隐藏表示ah和输出层aL之间添加另一个50个神经元的隐藏层，如图4所示（其中MPL=½50�）。这最后给出了85.36%的准确率。由于输入数据的高维度，训练具有重构路径的分类网络是困难的。0表2 无正则化逻辑回归0数据集准确性（%）0乳腺-肾 96.53 结肠-肾 97.82 乳腺-结肠 94.13 结肠-前列腺97.460表3 逻辑回归与L1范数。0数据集正则化 L1 准确度（%）0乳腺-肾 λ = 10^-2 97.360λ = 10^-3 99.01 结肠-肾 λ = 10^-2 95.820λ = 10^-3 97.45 乳腺-结肠 λ = 10^-2 94.44010^-3 93.17 结肠-前列腺 λ = 10^-2 98.590λ = 10^-3 98.030表4 逻辑回归与L2范数。0数据集正则化 L2 准确度（%）0乳腺-肾 λ = 10^-2 98.180λ = 10^-3 98.02 结肠-肾 λ = 10^-2 98.180λ = 10^-3 98.91 乳腺-结肠 λ = 10^-2 92.860λ = 10^-3 99.44 结肠-前列腺 λ = 10^-2 97.180λ = 10^-3 96.620表50MLP准确度与其大小。0隐藏层的单位数准确度（%）0[50] 81.33 [50-50] 81.68 [100] 90.68 [100 × 100] 92.70[

下载后可阅读完整内容，剩余1页未读，立即下载