基因-环境相互作用和基因-基因相互作用引起遗传疾病的研究方法及其应用

69 浏览量更新于2023-12-09 收藏 1.05MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

埃及信息学杂志21（2020）13一种发现基因-环境相互作用和基因-基因相互作用引起遗传病Mohamed A. 拉希迪埃及Menoufiya大学电子工程学院计算机科学与工程系阿提奇莱因福奥文章历史记录：收到2019年2019年9月13日修订2019年10月8日接受在线提供2019年保留字：遗传疾病特征选择方法Relief算法遗传算法分类决策树A B S T R A C T遗传性疾病是人类社会面临的最严重的疾病之一，其风险在于遗传特征从一代传递到另一代，这些特征的不平衡导致不健康的后代，这对后代的努力及其对社会的服务产生负面影响。遗传性疾病是由脱氧核糖核酸（DNA）突变引起的，这些基因突变是由两个或多个基因和/或环境暴露之间的非线性相互作用产生的。本文的目的是发现基因-环境交互作用和基因-基因交互作用引起的遗传疾病，所提出的方法是基于过滤器和包装器的特征选择方法，它使用过滤器方法使用救济算法来检测基因-环境交互作用，包装器方法使用遗传算法来发现基因-基因交互作用，分类决策树算法生成基因-基因交互作用的条件规则。在四个基准数据库上使用多种不同的分类器模型进行了评估，并将其性能与用于生成基因-基因相互作用规则的Apriori算法进行了比较，所提出的方法在所有包含受基因-环境相互作用或基因-基因相互作用或基因-环境和基因-基因相互作用影响的患者的数据库上都获得了最高的性能和更好的分类准确率。©2019 Elsevier B.V.制作和托管代表开罗计算机和信息学院大学这是一篇CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍遗传疾病对卫生保健系统有重大影响，是增加新生儿、儿童和成人死亡率的一个有效因素。基因是生命的基石，因此它们携带脱氧核糖核酸（DNA）和与蛋白质制造相关的有时，一个或多个基因可能暴露于某种诱变变化，这会影响制造蛋白质的相关基因的指令，这会阻止蛋白质正常发挥功能或可能失去其完全发挥功能的能力，从而导致遗传疾病，如癌症，世界上近13%的死亡是由癌症引起的电子邮件地址：mohamed. el-eng.menofia.edu.eg开罗大学计算机和信息系负责同行审查。因为癌症遗传病被定义为由一个人的遗传物质异常这些疾病是非常复杂的疾病，其中许多现象可以导致基因突变，包括两个或多个基因之间的非线性相互作用了解这些相互作用在更好地理解这些复杂疾病的发展中起着重要作用。因此，近年来，全基因组关联研究（GWAS）一直致力于研究和理解全基因组相互作用的研究。从那时起，有几项研究旨在描述导致遗传疾病的基因-基因（G-G）相互作用和基因-环境（G-E）相互作用的影响[1]。存在与理解这些相互作用相关的许多挑战，主要挑战是需要分析的遗传数据的高维性，这导致分析大规模遗传数据的传统统计方法的高计算复杂性[2]。https://doi.org/10.1016/j.eij.2019.10.0011110-8665/©2019制作和主办由Elsevier B. V.代表开罗大学计算机和信息学院这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页：www.sciencedirect.com14M.A. El-Rashidy/埃及信息学杂志21（2020）13最近，已经完成了许多基于替代建模和机器学习方法的研究，以克服不同科学领域的挑战，如自主机器学习平台[3]，动态用户平衡的基于代理的替代建模[4]，机器学习在植物对射频响应的研究中的应用[5]，使用机器学习方法设计锂离子电池电极的中尺度结构[6]，开发用于预测卤代酚形成潜力抑制和水臭氧化过程中雌激素活性减弱的替代指标[7]，药物开发[8]和使用机器学习方法的医疗诊断[9，10]，人工智能（AI）方法的集成以解决癌症基因检测和诊断中的可扩展性和高维数据的挑战[11]。基于机器学习方法克服理解突变变化的挑战的研究分为两类，第一类是对选择与基因-环境相互作用相关的基因子集感兴趣已经提出了新的人工蜂群方法来寻找与基因-环境相互作用相关的基因的最佳子集，它基于独立成分分析方法来减少数据的大小和人工蜂群方法来优化减少的基因[12]。用于基因选择的递归模因算法（RMA）模型已经开发出来，它是模因算法（MA）的变体，并且比MA和遗传算法性能更好 [13] 。已经实施了双峰无监督降维算法（BOUNDER），以在将其输入学习方法之前，考虑到所有样本的多样性和冗余性，确定用于下游分析的最佳基因子集[14]。提出了一种新的用于基因选择的马尔可夫覆盖嵌入遗传算法（MBEGA），它基于模因算子从遗传算法（GA）解决方案中添加或删除基因，以快速改进解决方案并微调搜索[15]。基于教学学习的优化（TLBO）和模拟退火（SA）算法与支持向量机的新组合，以识别有助于准确检测癌症的最具信息量的基因子集[16]。另一种类型的研究关注的是发现基因间相互作用的规律蚁群优化方法已用于发现全基因组关联研究数据中的基因-基因相互作用[17，18]。已经开发了聚类和关联规则挖掘方法，用于分析阿尔茨海默一种新的SNP并行关联规则提取器已被实现为用于从组学数据集提取关联规则的频繁模式增长（FP-Growth）算法的优化版本的多线程版本[20]。一种新的计算方法，使用深度学习模型来预测仅基于序列特征的增强子-启动子相互作用[21]。通过避免过度拟合以进行基因-基因相互作用的密集搜索来改进深度神经网络[22]。以往不同类型的研究主要集中在受某一种突变改变影响的疾病上，选择与基因-环境相互作用相关的基因子集，或发现基因-基因相互作用的规律，而忽略了同时受基因-基因（G-G）和基因-环境（G-E）相互作用影响的复杂遗传疾病。本研究的目的是以最低的复杂度和最高的准确度发现基因-环境相互作用和基因-基因相互作用引起的疾病，这有助于更好地理解受各种类型的诱变变化影响的复杂遗传疾病，包括G-G相互作用，或G-E相互作用，或G-G和G-E相互作用，它考虑了导致遗传疾病的所有原因，而不是忽视其中的一些原因拟议的方法包括三个阶段：数据预处理，发现导致疾病的基因-基因和基因-环境相互作用，以及考虑所有诱变变化的遗传病病例分类。所提出的方法是基于救济算法来选择与基因-环境相互作用相关的基因子集，遗传算法来发现与基因-基因相互作用相关的基因子集，分类决策树算法来生成基因-基因相互作用的条件规则。它已被评估使用四个基准数据库的基因微阵列，可在基因组学数据库的NCBI数据库中，所提出的方法已实施的所有数据集基因的值，与基因-环境相互作用和发现的基因-基因相互作用的规则有关的选定的子集基因的值利用SVM、朴素贝叶斯、决策树和k近邻算法构建基因-环境交互作用分类器模型，并与Apriori算法生成基因-基因交互作用规则进行比较，验证了该方法的有效性.所提出的方法实现了最好的分类准确率的所有数据库包含的样本受基因-环境相互作用或基因-基因相互作用或基因-环境和基因-基因相互作用。论文的其余部分描述了所提出的方法，提出并讨论了实验结果，最后，最后一节总结了这项研究。2. 拟议方法致病基因突变的鉴定是基于基因型-表型关系，表现为遗传变异与环境的相互作用，包括基因-环境和基因-基因相互作用中的一种或两种。所提出的方法的目的是发现导致疾病的基因-环境和基因-基因相互作用，这有助于更好地理解和实现更高的分类精度的复杂遗传疾病。所提出的方法由三个阶段组成，如图1所示，第一阶段将数据预压缩为质量数据，第二阶段减少数据维度以减少过拟合，提高分类精度，并减少训练时间，它还分析所选基因值与输出预测以发现基因-环境和基因-基因相互作用，第三阶段考虑所有诱变变化对测试样本进行分类。2.1. 第一阶段：数据预处理基因表达数据库DD由于集成了来自多个异构数据源的数据而极易受到噪声和不完整数据的影响，其庞大的数据量、噪声和不完整的数据将导致数据分析和知识发现的低质量结果。有几个数据预处理技术，包括数据清洗和转换过程，用于获得高质量的数据。数据清洗过程用于分析数据差异，用于检测和去除异常值，并填充不完整的数据，如图所示。二、异常值通过聚类技术检测和移除，其中相似的数据对象被分组到聚类中，落在聚类之外的数据对象被认为是异常值并被移除。不完全数据的处理采用回归技术，即将数据对象的值编译成一个线性函数，并使用一个或多个基因来预测其他不完全基因的值。M.A. El-Rashidy/埃及信息学杂志21（2020）1315-.联系我们技术是一种流行的数据离散化方法[23]，它考虑了基因值的分布，而不是其他离散化技术的分区边界的假设值。每个基因有两个可能的等位基因{A，B}，这导致三种可能的基因型（AA，AB/BA和BB）[1]。因此，应用K-means算法将每个基因的值划分为三个聚类，并且将聚类号1、2和3的每个基因值分别替换为标签L1、L2和L32.2. 第二阶段：模型构建模型构建阶段包括两个步骤，第一步用于选择与环境相互作用的基因子集，并构建基因-环境相互作用的分类模型第二步是提取与其他基因相互作用的基因子集，并发现基因-基因相互作用的条件规则。Fig. 1. 拟议方法流程图。2.2.1. 第一步：基因-环境相互作用与环境相互作用的基因“G-E相互作用”彼此无关，但它们中的每一个都与外部环境效应有关，这导致它们中的每一个都单独地因此，使用特征选择过程的过滤器方法来选择对输出预测贡献更大的基因-环境相互作用，这取决于每个基因对输出预测的重要性，其为每个基因表达给出分数，分数值越高指示与输出预测值越相关。Relief算法由于其简单性和有效性而成为用于特征选择的最常见的过滤器技术之一[24]，它被应用于根据基因G对输出预测值的重要性对基因G进行排名，它为每个基因g计算基因权重Wg以估计基因与输出预测的相关性，其范围可以从S（最差）到+S（最佳），其中S是样本的数量，它使用欧几里得距离找到样本S的最近两个邻居，一个来自称为最近命中NH的相同类别，另一个来自称为最近未命中NM的相反类别，每个基因的权重Wg计算为：Wg¼ Wg差压Sg-NMgO2-差压Sg-NHgO 2-差压1数据转换的目的是使基因值更准确、更有效，更适合挖掘算法的输入。差值Ag Bg0;值AgBg0;值AgBg01;否则ð2Þrithms，应用于清洁数据集CD的数据归一化，以给予所有基因的值相等的权重。基因的“ND数据集”的归一化值因此，转换过程用于将基因数据从连续值转换为离散值。聚类其中diff（Ag-Bg每个基因g的权重通过在所有样本上迭代来计算，并且从Wg = 0开始[24]。因此，它的复杂性时间是O（G*S），其中G是基因的数量，S是样本的数量根据Wg到RG列表对基因进行排序，其中RG={RG1，RG2，RGn}，RG1是基因图二. 数据预处理阶段。16M.A. El-Rashidy/埃及信息学杂志21（2020）1322222RGn是具有最高权重的基因表达，RG n是具有最低权重的基因表达，并且n是基因的数量。与环境相互作用的基因的子集SGE = {RG 1，RG2，. . .， RG k}，其中k是RG列表中实现最高分类准确度的排名基因的最少数量。通过对训练数据集的学习，构造了基因-环境交互作用的分类器模型，训练数据集的每个样本由k维基因RG1，RG2，..标记阳性输出模型由数学公式或决策树或人工神经网络表示，这取决于学习过程中应用的分类算法。2.2.2. 第二步：基因-基因相互作用规则提取受基因-基因相互作用类型“G-G相互作用”影响的基因特征选择过程的滤波器方法取决于每个个体基因对输出预测的重要性，而不考虑每个相关基因子集对输出预测值的重要性从相关基因子集的巨大概率中搜索相关基因子集的过程是Eq.（3）是NP-hard问题。Apriori算法在最近的许多研究[19，25，26]中用于提取与输出标签相关的数据集基因的所有频繁值，并将最小置信度设置为1，以最小化分类过程的百分比误差，并指示频繁集与输出预测之间的密切关系。应用Apriori算法计算每个挖掘出的可能规则的支持度和置信度值，并对挖掘出的规则进行过滤以应用支持度和置信度Apriori算法是昂贵的，因为有指数级的规则，可以从一个数据集提取更具体地说，从包含U个唯一值的数据集中挖掘出的可能规则的总数是[27]。可能的规则1/3u- 2/1/1/1/6/2SGG数据集的每m个维度的唯一值的数量是3个，其中m个维度的每个值离散化标签{L1，L2，L3}，输出属性的唯一项目的数量是2个，其每个值输出类标签{P，N}。因此，SGG数据集的唯一值的总数是（3*m + 2），并且根据等式（1），（6）利用Apriori算法提取“G-G交互”规则集联系我们你好！ð3ÞO.33ωm2-23ωm31ð7Þ我的天！遗传算法GA是一种搜索和优化技术，用于解决众多的非确定性多项式时间的NP难组合优化问题。因此，遗传算法被用作包装器方法，以选择的子集的相关基因，是最密切相关的输出预测从子集的巨大的概率。一个简单的遗传算法使用染色体的人口来解决一个给定的问题。基因的每个子集被编码为染色体，在那里它是问题的一个可能的遗传算法开始生成由随机染色体组形成的初始种群，这可以被视为解决问题的第一次猜测初始种群通过适应度函数进行评估，并为每个染色体给出一个适应度值，以反映与之相关的解的质量。在每一步中，遗传算法从当前种群中随机选择个体，并将其用作父母，为下一代产生孩子。在连续的几代中，种群朝着最优解进化。基因-基因相互作用的适应度函数集中在与输出预测最密切相关的相关基因的子集上，基因子集选择的质量由分类错误率度量eq.其中FS是不正确分类样本的数量。基因SGG 的子集={SGG 1，SGG2，. . .，选择具有最低分类错误率的SGG m }作为优化解。分类错误率1/4 FS=样本总数1/4 FS与输出预测值相关的条件规则“G-G相互作用规则”的集合与输出标签"P“或" N“相关联（5）、SGGx100mg/kg;SGGy 100mg/kg; ！产品介绍空间条件！预测器105其中，x和y是m维的，C1和C2是离散化标签{L1，L2，L3}，O是输出标签{P，N}，这些规则反映了m维基因的每个频繁子集“维条件”与输出预测“预测器”之间近年来研究的Apriori算法用于提取基因-基因交互作用规则的操作方法是基于基因频繁值的概念，其输出为P和N。这个概念是挖掘所有可能的规则，而不考虑相关基因的输出，其中值的变化的维条件‘‘因此，使用Apriori算法挖掘的规则发现不可靠实现基因-基因相互作用意义的独特规则。因此，在这一步中提出的方法是精心设计的，以找到两个输出之间的区别规则，指示基因-基因相互作用。该方法基于类别分类树构造SGG数据集的决策树，并从所构造的决策树中生成区别性规则“基因-基因相互作用规则”。分类树的复杂性时间为O（Smd），其中S为训练样本数，m为维数，d为分类树的深度。在平衡分类树的最佳情况下，d将等于logS，但是分类树在不考虑平衡的情况下分割训练数据。这意味着d的最坏情况将等于N。因此，分类树的时间复杂度介于O（SmlogS）和O（S2m）之间。该方法利用分类树提取基因-基因交互规则，在复杂度、时间和准确度方面均优于Apriori算法，并将SGG数据集两个分类输出之间的m维差异值作为构建分类树模型的分裂数据过程的条件.该方法以支持度和置信度作为约束值对分类树的条件规则进行过滤，将误差最小的规则提取到第三阶段，过滤后的规则按置信度和支持度排序，得到基因-基因相互作用规则列表2.3. 第三阶段：模型构建在第三阶段中，构建的基因-环境相互作用的分类器模型和从第二阶段发现的基因-基因相互作用的规则用于分类测试数据。nM.A. El-Rashidy/埃及信息学杂志21（2020）1317利用基因-基因交互作用规则对每个测试数据样本的基因值进行测试并进行分类，如果SGG基因值不符合基因-基因交互作用规则，则利用构建的基因-环境交互作用分类器模型对SGE基因值进行分类。3. 结果和讨论四个基准的基因微阵列的二进制分类数据库，包括GSE25070，GSE9476，GSE10950，和GSE6919被用来评估所提出的方法。数据可在NCBI数据库的基因组学数据库中获得。表1显示了这些数据库的详细描述拟议方法的第一阶段已应用于四个数据库，对数据进行预处理，以获得无异常值和缺失数据的高质量数据，预处理数据库已离散化，以适应拟议方法的第二阶段输入该方法的性能是通过使用5重交叉验证技术将每个离散数据库划分为独立的训练和测试数据集来测量的，测试数据集已被用来评估所提出的方法的预测精度，精度度量是最常用的分类性能度量之一，它测量测试数据集正确分类样本的百分比还测量了不正确分类的样本的数量，以指示需要更多开发方法来发现它的复杂疾病病例的数量，其中该数量的减少指示与其他预测模型相比用于检测复杂疾病病例的预测模型该方法的第二阶段已被应用于训练数据集，用于构建基因-环境相互作用的分类器模型，并发现基因-基因相互作用的规则。它由两个步骤组成，第一步使用Relief算法对训练数据集的基因根据其对输出预测值的重要性进行排序，排序列表中的连续基因的每个子集的分类准确率是不同的，这可以从图1中看出。三比六所提出的方法选择在排名列表RG中实现最高分类准确度的最少数量的连续基因的子集，其表示与环境相互作用并负责输出变化的基因的子集，最少数量的连续基因实现表2中列出的每个数据库的最高分类准确度。利用所选基因的值训练基因-环境交互作用的分类器模型第三阶段的建议方法已被应用到测试数据集，建议的方法进行了评估表1数据库的描述数据库数量的基因数量的样本描述GSE2507024,5265226例结直肠癌GSE947622,283642011年6月3日公开的肿瘤患者和26名正常供体38例正常人GSE1095022,184482007年11月1日，26名急性髓细胞白血病（AML）患者和捐赠者。24例正常人2008年3月29日，捐赠者和24名结肠肿瘤患者GSE691912,6251462007年1月30日公开的81名正常捐赠者和65名前列腺肿瘤患者的基因表达数据集并与在所有数据集基因的值、与基因-环境相互作用相关的基因子集以及基因-基因相互作用的规则上训练的不同分类器模型进行比较图三. GSE 25070数据库上RG列表中连续基因的不同子集的分类准确率百分比。见图4。在GSE9476数据库上RG列表中连续基因的不同子集的分类准确率百分比。图五. GSE 10950数据库上RG列表中连续基因的不同子集的分类准确率百分比。见图6。GSE6919数据库上RG列表中连续基因的不同子集的分类准确率百分比。18M.A. El-Rashidy/埃及信息学杂志21（2020）13表2排序列表RG中的最少数量的连续基因实现最高的分类精度。阶段II的第二步已被应用于发现基因-基因相互作用的规则，它使用遗传算法来选择与输出预测值最密切相关的相关基因的子集，表7显示了负责基因-基因相互作用的所选基因的数量。所提出的方法基于分类决策树算法，以从所选基因SGG的集合生成基因-基因相互作用的条件规则，表8给出了Apriori算法和决策树算法的比较每个数据库具有不同的支持值通过使用不同的分类算法SVM，朴素贝叶斯，决策树和k近邻算法来构建分类器模型，验证了所提出的方法的有效性。表3-6示出了用所有数据集基因的值训练的分类算法的准确性，以及用每个数据库的G-E相互作用的选定基因的值训练这些算法的另一个实验。使用测试数据集对构建的分类器模型进行了评估，结果的突出显示的粗体字体表明，使用G-E相互作用的选定基因的值训练的分类算法比使用所有数据集基因的值训练这些算法获得了更高的分类准确率。结果还表明存在不正确分类的实例，尽管与基于所有数据集基因的分类器模型相比，分类精度有所提高，但这些迹象表明，仅依赖于与G-E相互作用相关的选定基因在分类过程中是不够的。患者的病理情况可能会因G-E或G-G相互作用而改变。因此，所提出的方法阶段基于G-E和G-G交互，以尽可能地克服错误分类的样本。通过测量生成规则的数量、验证生成规则的测试样本数量以及错误分类的样本数量来评估这些生成G-G交互规则的算法，其中生成规则的数量随着验证这些规则的测试样本数量的增加而减少，这表明随着模型计算复杂度的降低而提高了性能从结果可以看出，决策树算法比Apriori算法性能更好，但决策树算法生成的规则数量远远少于Apriori算法。采用决策树生成规则代替Apriori算法，在支持度不同的情况下，不仅在复杂度上有了很大的改善，而且在分类精度上也有了很大的提高结果表明，支持度越大，错误分类的样本数越少，因此，该方法将每个预测值的支持度设置为训练样本的50%，这反映了生成规则与输出预测值的鲁棒性关系。表12-表3对数据库GSE 25070进行了基于所有数据集基因的分类器模型和基于G-E互作的选定基因的分类器模型的分类准确率比较分类算法使用所有基因的数据进行训练使用选定的G-E基因的数据进行精度分类错误的样本精度分类错误的样本SVM百分之九十六点一五2百分之九十八点零八1朴素贝叶斯百分之九十六点一五2百分之九十六点一五2决策树84.62%8百分之九十六点一五2k最近百分之九十四点二三3百分之九十六点一五2表4对数据库GSE 9476进行了基于所有数据集基因的分类器模型和基于G-E互作的选定基因的分类器模型的分类准确率比较分类算法使用所有基因的数据进行训练使用选定的G-E基因的数据进行精度分类错误的样本精度分类错误的样本SVM百分之九十五点三一3百分之九十五点三一3朴素贝叶斯百分之九十五点三一3百分之九十五点三一3决策树81.25%12百分之九十五点三一3k最近百分之九十二点一九596.88%2表5对数据库GSE 10950进行了基于所有数据集基因的分类器模型和基于G-E互作的选定基因的分类器模型的分类准确率分类算法使用所有基因的数据进行训练使用选定的G-E基因的数据进行精度分类错误的样本精度分类错误的样本SVM百分之九十三点七五3百分之九十五点八三2朴素贝叶斯百分之九十五点八三2百分之九十五点八三2决策树百分之九十三点七五3百分之九十三点七五3k最近百分之九十三点七五3百分之九十五点八三2数据库通过排序基因排序基因数GSE25070百分之九十八点零八2GSE9476百分之九十五点三一16GSE10950百分之九十五点七五85GSE6919 71.92%38M.A. El-Rashidy/埃及信息学杂志21（2020）1319表6对GSE 6919数据库进行了基于所有数据集基因的分类器模型和基于G-E互作基因选择的分类器模型的分类准确率比较分类算法使用所有基因的数据进行训练使用选定的G-E基因的数据进行精度分类错误的样本精度分类错误的样本SVM百分之六十五点七五5071.92%41朴素贝叶斯69.86%4473.29%39决策树54.11%6766.44%49k最近56.85%6369.18%45表7使用遗传算法计算负责G-G相互作用的相关基因的数量数据库数量的基因GSE250709GSE947619GSE109507GSE691979表8Apriori算法和决策树算法生成GSE 25070数据库的G-G交互规则的比较约束Apriori决策树值G-G规则数量申请样品数量错误数量G-G规则数量申请样品数量错误数量相互作用抽取规则地分类的采样相互作用抽取规则地分类的采样辅助= 10%&275525781置信度= 100%Sup = 20%&138515581置信度= 100%Sup = 30%&69454240置信度= 100%Sup = 40%&31344240置信度= 100%Sup = 50%&7161240置信度= 100%表9Apriori算法和决策树算法在GSE 9476数据库G-G交互规则生成中的比较约束Apriori决策树值G-G规则数量申请样品数量错误数量G-G规则数量申请样品数量错误数量相互作用抽取规则地分类的采样相互作用抽取规则地分类的采样辅助= 10%&47,1194611751置信度= 100%Sup = 20%&1200316651置信度= 100%Sup = 30%&253266541置信度= 100%Sup = 40%&59194541置信度= 100%Sup = 50%&1159130置信度= 100%表10Apriori算法和决策树算法在GSE 10950数据库G-G交互规则生成中的比较约束Apriori决策树值G-G规则数量申请样品数量错误数量G-G规则数量申请样品数量错误数量相互作用抽取规则地分类的采样相互作用抽取规则地分类的采样辅助= 10%置信度= 100%Sup = 20%&17385453833103000置信度= 100%Sup = 30%&48302000置信度= 100%Sup = 40%&28180000置信度= 100%Sup = 50%&15100000置信度= 100%20M.A. El-Rashidy/埃及信息学杂志21（2020）13表11Apriori算法和决策树算法生成GSE 6919数据库的G-G交互规则的比较约束Apriori决策树值G-G规则数量申请样品数量错误数量G-G规则数量申请样品数量错误数量相互作用抽取规则地分类的采样相互作用抽取规则地分类的采样辅助= 10%置信度= 100%Sup = 20%&396175897827232464527148置信度= 100%Sup = 30%&7956123143置信度= 100%Sup = 40%&3943102102置信度= 100%Sup = 50%&132242102置信度= 100%表12基于G-E交互的SVM分类器模型和两种不同的生成G-G交互规则的方法的分类准确率支持度为50%，置信度为100%。基于Apriori算法的G-E交互数据库分类器模型及G-G交互基于决策树算法的G-E交互分类器模型及G-G交互精度分类错误的样本精度分类错误的样本GSE25070百分之九十六点一五2百分百0GSE9476百分之九十五点三一396.88%2GSE10950百分之九十五点八三2百分之九十五点八三2GSE691972.60%4076.03%35表13基于G-E交互的朴素贝叶斯分类器模型和两种不同的生成G-G交互规则的方法，所提出的方法的分类准确率为支持度50%和置信度100%。基于Apriori算法的G-E交互数据库分类器模型及G-G交互基于决策树算法的G-E交互分类器模型及G-G交互精度分类错误的样本精度分类错误的样本GSE25070百分之九十四点一二3百分之九十八点零八1GSE9476百分之九十五点三一396.88%2GSE10950百分之九十五点八三2百分之九十五点八三2GSE691973.29%3976.71%34表14基于G-E交互的决策树分类器模型和两种不同的G-G交互规则生成方法，对所提方法的分类准确率进行了测试，支持度为50%，置信度为100%。基于Apriori算法的G-E交互数据库分类器模型及G-G交互基于决策树算法的G-E交互分类器模型及G-G交互精度分类错误的样本精度分类错误的样本GSE25070百分之九十六点一五2百分之九十六点一五2GSE9476百分之九十三点七五4百分之九十五点三一3GSE10950百分之九十三点七五3百分之九十三点七五3GSE691965.07%5169.86%44表15基于G-E交互的k近邻分类器模型和两种不同的G-G交互规则生成方法的分类精度分别为支持度50%和置信度100%。基于Apriori算法的G-E交互数据库分类器模型及G-G交互基于决策树算法的G-E交互分类器模型及G-G交互精度分类错误的样本精度分类错误的样本GSE25070百分之九十四点二三3百分之九十八点零八1GSE9476百分之九十五点三一396.88%2GSE10950百分之九十五点八三2百分之九十五点八三2GSE691965.07%51百分之七十三点九七38M.A. El-Rashidy/埃及信息学杂志21（2020）1321见图7。GSE 25070数据库上不同分类方法的比较。见图8。GSE9476数据库上不同分类方法的比较。见图9。GSE10950数据库上不同分类方法的比较。见图10。GSE6919数据库上不同分类方法的比较。第二阶段实验采用Apriori算法生成G-G交互规则，两个实验集支持度均为50%，置信度均为100%，基于决策树的G-G交互规则生成方法获得了较高的分类准确率和最低的误分类样本数。在所有数据库上使用不同的分类器模型取得了这些结果，验证了所提出的方法在不同分类算法下的有效性。图图7- 10示出了使用所有数据集基因的值训练的分类器模型、使用G-E相互作用的选定子集基因的值训练的G-E分类器模型、使用Apriori算法的G-E分类器模型和G-G相互作用规则以及基于G-E分类器模型和使用决策树算法的G-G相互作用规则的所提出的方法之间的分类准确性的比较。从图中可以看出，与其他技术相比，所提出的方法对数据库GSE 25070、GSE 9476和GSE 6919实现了更高的实验结果还表明，该方法在GSE 10950数据库上与G-E分类器模型的分类精度相当，表明该数据库不包含受基因-基因互作影响的样本。结果表明，所提出的方法实现了最好的分类精度的所有数据库包含受基因-环境相互作用或基因-基因相互作用或基因-环境和基因-基因相互作用的影响的样本。从所获得的结果中还可以看出，所提出的方法的准确性在不同的数据库之间存在差异，这种差异是由于每个数据库的数据特性。DNA包含数百万个基因，并且可用的遗传数据库包含与其总数相比很少的基因，数据库中可用的基因可能影响疾病的发生率，并且它们可能是影响的一部分，而其他部分与数据库中不可用的基因有关。因此，为了达到尽可能最好的准确性，遗传数据库必须具有大量可能的基因，以研究和理解基因与遗传疾病的最大数量的可能原因4. 结论本文提出了一种基于Relief算法、遗传算法和分类决策树算法的遗传病诊断方法，该方法可以检测出导致DNA中所有不同基因突变采用SVM、朴素贝叶斯、决策树和k近邻分类算法对4种不同的遗传病进行分类该方法取得了更高的性能比Apriori算法和最好的分类精度与不同的分类算法的所有数据库包含受基因-环境相互作用或基因-基因相互作用或基因-环境和基因-基因相互作用的影响的患者竞争利益一个都没有。22M.A. El-Rashidy/埃及信息学杂志21（2020）13引用[1] 作者：Jiangsu S，Jiangsu S，Jiangsu S.高维基因组数据中SNP相互作用的检测方法综述。IEEE/ACM Trans Comput BiolBioinf 2018;15（2）.[2] Koo Ch，Liew M，Saberi M，Salleh A.遗传流行病学中使用机器学习方法检测基因-基因相互作用的综述。 BiomedRes Int 2013. 四三二三七五[3] Lee K，Yoo J，Kim S，Lee J，Hong J.自主机器学习平台。Int J InfManage 2019.出版社，更正的证据。[4] 葛Q，福田D，韩科，宋W.基于水库的动态用户平衡代理模型。Transp ResProcedia2019;38：772-91.[5] 放大图片作者：Halgamug M.机器学习在植物对射频响应研究中的应用。环境研究2019;178：108634。[6] 作者：Jiangsu T，Jiangsu T，Jiangsu T.用于设计锂离子电池电极的介观结构的机器学习方法。电池2019;5（3）：54。[7] 黄勇，郑世，吴勇，吴军，李勇，霍忠，等.臭氧氧化过程中卤代酚生成抑制和雌激素活性降低的替代指标研究. 北京：中国环境科学出版社， 2003. 水研究2019;161：152-60。[8] [10]杨文，李晓.药物开发中的机器学习：使用高斯过程回归，敏感性分析和不确定性量化来表征30种药物对QT间期的影响。计算方法应用机械工程2019;348：313-33。[9] Pan Ch，Liu J，Tang J，Chen X，Chen F，Wu Y，et al. A machine learning-basedpredictionmodelofH3K27Mmutationsinbrainstemgliomasusingconventional MRI and clinical features. Radiother Oncol2019;130：172-9.[10] [10]李文，李文，李文.基于机器学习衍生成像特征的精确诊断。磁共振成像2019.出版社，更正的证据。[11] Xu J，Yang P，Xue Sh，Sharma B，Martin M，Wang F，et al. Translatingcancergenomicsintoprecisionmedicinewithartificialintelligence：applications，challenges and future perspectives.Genet 2019;138（2）：109-24.[12] 吴伟杰，王伟杰，王伟杰.用于高维微阵列数据分类的新型机器学习方法，软计算，方法学和应用，2019。[13] [10]高希M，贝古姆Sh，萨卡尔R，查克拉博蒂D，毛利克U.递归模因算法用于微阵列数据中的基因选择。专家系统应用2019;116：172-85。[14] 杨伟杰，王伟杰.从癌症数据中的高维DNA甲基化水平估计基因表达：一种双峰无监督降维算法。计算机工业工程2019;130：348-57。[15] Zhu Z ， Ong Y ， Dash M. 基于马尔可夫覆盖的基因选择遗传算法。 PatternB.2007;40：3236-48.[16] 放大图片作者：Shukla A，Singh P，Vardhan M.一种新的混合包装TLBO和SA与SVM方法的基因表达数据。 Inf Sci 2019;503：238-54.[17] Sapin E，Keedwell E，Frayling T.全基因组关联研究中基因-基因相互作用检测的蚁群优化和禁忌列表方法。IEEE Comput Intell Mag2015;10（4）：54-65.[18] 王Y，刘X，Robbins K，Rekaya R. AntEpiSeeker：使用两阶段蚁群优化算法检测病例对照研究的上位相互作用。BMC Research Notes2010;3：117.[19] Quéau B，Shafiq O，Alhajj R.利用聚类和关联规则挖掘分析阿尔茨海默病基因表达数据集。IEEE第15届信息重用与集成国际会议论文集，2014年。[20] 杨伟杰，王伟杰.基因组数据关联规则的并行提取。应用数学计算2019;350：434-46。[21] Singh Sh，Yang Y，Poczos B，Ma J.用深度神经网络从基因组序列预测增强子-启动子相互作用。定量生物学2019;7：122-37。[22] Uppu S，Krishna A，通过改进深度学习模型对高阶基因-基因相互作用的密集搜索在：IEEE第18届生物信息学和生物工程国际会议（BIBE），2018年。[23] Han J，Kamber M，Pei J.数据挖掘：概念和技术。第三版，2012年。[24] Saethang Th，Prom-on S，Meechai A，Chan J.样本过滤救济算法：特征选择的鲁棒算法。 2008年神经信息处理国际会议论文集。[25] Mallik S，Mukhopa

下载后可阅读完整内容，剩余1页未读，立即下载