没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报基于Firefly和受控遗传算法的M. Sharmaa,P.,G.辛格湾河辛格湾a印度贾朗达尔DAV大学计算机科学与应用系b印度阿姆利则Guru Nanak Dev大学计算机科学系阿提奇莱因福奥文章历史记录:接收日期:2018年2018年6月4日修订2018年6月13日接受在线提供2018年保留字:临床DSS查询优化Divergence受控遗传算法萤火虫算法回归分析系统资源A B S T R A C T两个自然启发的计算技术,即萤火虫和受控遗传算法在一个限制的发散环境已被结合起来,提出了一个改进的临床决策支持系统(CDSS)查询优化器。该模型的目的是为了得到更好的查询执行计划,将减损的输入输出,处理和通信欲望的CDSS查询的执行。CDSS查询优化器框架的融合使用将在连续两代中产生此外,建议的CDSS 查 询 优 化 器 的 结 果 进 行 了 测 试 对 其 他 遗 传 算 法 的 CDSS 查 询 优 化 器 的 效 果 实 验 结 果 表 明 , 使 用RDFG_CDQO算法的查询优化结果分别比使用简单、新颖、受限和基于熵的受限遗传算法设计的CDSS查询优化器的查询优化结果好13%、10%、7%和3.5%为了使用RDFG_CDQO获得最佳可能的解决方案,发散率的值应设置为50%。此外,统计上批准所提出的框架,使用RDFG_CDQO得到的结果进行验证,使用不同的回归分析措施,即假设的线性,独立性和恒定方差。©2018作者制作和主办:Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍临床决策支持系统(CDSS)是一种自动化医疗保健系统,它包括大量的临床数据,可帮助研究人员、病理学家、医生和其他医疗保健专业人员进行分析。 CDSS是一种综合智能系统,被认为在健康相关的人类疾病诊断的不同阶段提供惊人的帮助(Shahsavarani等人,2015年)。此外,它是一个动态的信息系统,因为重要的数据定期被附加。物联网、嵌入式设备、传感器、移动应用程序、手动数据输入和在线来源是CDSS的一些重要数据收集模式。毫无疑问,CDSS支持的数据明显有助于人类疾病的早期诊断及其有效性。*通讯作者。电子邮件地址:manik10143@davuniversity.org(M. Sharma)。沙特国王大学负责同行审查制作和主办:Elsevier治疗。然而,这个巨大的数据量正在为CDSS查询执行带来一个未加修饰的问题。广泛而繁杂的CDSS查询可能会消耗大量的系统资源和处理时间。为了优化资源,加快临床数据检索和分析过程,CDSS查询应进行有效优化。查询优化是产生不同的操作站点分配(OSA)方案来执行查询的过程。 OSA问题旨在寻找一个更好的查询执行计划,考虑到响应时间或系统的吞吐量。“成本模型”、“搜索空间”和“搜索策略”是三个主要组成部分查 询 优 化 器 ( Ceri 和 Pelagatti , 1982; Tamer 和 Patrick ,2009)。成本模型负责设计不同的成本系数和目标函数。在OSA问题中,输入输出设备的速度、网络介质、基数和块大小等因素对目标函数有很大的影响。搜索空间表示查询的一组备选查询执行策略。此外,搜索策略被用来通过探测搜索空间来挖掘最有前途的查询执行方案(Tamer和Patrick,2009)。早些时候,几个数据库和确定性优化技术被用于查询优化。确定性方法只适合于简单的CDSS查询如今,https://doi.org/10.1016/j.jksuci.2018.06.0071319-1578/©2018作者。制作和主办:Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comM. Sharma等人/沙特国王大学学报799由于有希望的计算智能潜力,自然启发计算(NIC)已经被用于解决CDSS查询优化问题。NIC计算技术有一个庞大的列表;其中一些是基于人类遗传学,昆虫,鸟类,动物,音乐和水。 最受推崇的NIC是遗传算法(GA)(Goldberg,2009; Sharma,2013; Holland,1992),萤火虫算法(FA)(Yang et al., 2010),蚁群优化( Geetha 和 Srikanth , 2018 ) , 灰 狼 算 法 ( Mirjalili 等 人 ,2014 ) 、 Cuckoo Search ( Joshi 等 人 , 人 工 蜂 群 ( Verma 和Kumar,2013)等。此外,最近开发的NIC技术中的一些是蚂蚁狮子优化器(Mirjalili,2015)、海豚回声定位(Wu等人,2016)、Ray Optimization ( Ray , 2014 ) ; 和 Grasshopper 优 化 算 法(Mirjalili等人,2017年)。在阅读了现有的查询优化文献后,我们发现人们对优化分布式CDSS查询的关注并不多。因此,需要一种创新的CDSS查询优化器这一努力的关键问题是提出一个混合和随机CDSS查询优化器使用萤火虫和受控遗传算法的创新融合在一个限制发散环境。建议的CDSS查询优化器有助于找到一个最佳的查询执行方案,最大限度地减少了I/O,处理和通信资源的组合使用。一个拟议的框架的设计和工作,使其难以-与其他查询优化器不同。在这里,一个FA和GA的混合CDSS查询优化器已被提出,以加快数据检索操作,帮助研究人员,病理学家和其他医疗保健专业人员快速获取和分析的诊断数据的巨大体积。同样,所提出的CDSS查询优化器也可以用于加速由分布在全国各地的大量分支机构组成的银行的大型和多方面的数据检索任务的处理。在股票分析中,每天执行数百万或数十亿的交易。因此,数据检索操作是资源密集型的,需要优化。任何查询优化器的基本动机都是生成不同的操作站点分配计划,然后从中选择最佳计划。在提出的CDSS查询优化器框架中,使用FA和GA的融合来获得CDSS查询的不同查询执行计划。在设计染色体时,假设CDSS查询的选择和投影操作在同一台机器上执行。染色体的生长受到限制,以产生不同的和有效的父母,使新的后代有最大的变化。这种受控的染色体设计被实现以减少CDSS查询的选择和投影操作的输入-输出和处理成本。此外,FA与GA的融合支持获得高度变异的新一代,这有助于在较少的代数中找到更好的解决方案。本文的创新之处在于融合、控制染色体方法、遗传算法与模糊算法的融合以及限制发散环境。所提出的CDSS查询优化器框架产生的结果,然后与不同的查询优 化 器 模 型 的 设 计 使 用 穷 举 和 GA 的 四 种 不 同 的 变 体 的 结 果 。RDFG_CDQO的性能进行了测试,对其他CDSS查询优化器设计使用穷举和GA的变种。此外,还研究了发散度变化率对RDFG_CDQO性能最后,使用回归分析技术对结果进行了验证2. 相关作品传统的查询优化方法主要是穷举法和动态然而,这些技术未能在合理的时间量内破译该问题(Ghaemi等人,2008; Jyoti等人,2012年)。Hevener和Yao(1979)是第一个认识到查询优化需求的人。在20世纪80还使用随机化策略优化查询(Steinbrunn等人,1997年)。March和Rho(1995)提出了一种分布式数据库查询优化的代价模型。基于不同的策略,即副本识别、连接顺序、站点选择和半连接操作的使用,作者提出了一个基于遗传算法的查询优化框架。在优化查询时,重点是查询的总成本。 Kumar等人(2011)提供了另一种基于GA的查询优化解决方案。但是,为了降低处理和通信成本,作者建议使用基于较少站点的查询执行方案,而不是包含更多网站不同的交叉和突变概率的影响也进行了检查。Sevinc和Cosar(2011)还设计了一种新的基于GA的查询优化器框架来优化OLTP查询。在综合数据库时,采用了复制的方法. Sevinc和Cosar发现,使用新的GA显着改善了查询执行方案。Mishra和Patnaik(2011)利用遗传算法对不同查询执行计划的代价进行了评估。阐述了在分布式数据库系统中,并行处理可以提高查询Sharma等人(2015)设计了两个不同的DSS查询选项,基于约束遗传算法的混合器框架以及约束遗传算法与信息论的融合作者指出,DSS查询是更复杂和数据密集型的查询。作者还比较了他们的算法与其他确定性和随机查询优化模型的性能。作者发现,使用遗传算法和信息论的优化设计的DSS查询优化器的性能产生更好的结果比简单和新颖的基于遗传算法的查询优化器模型。 Goncalves等人(2014)使用非穷举技术优化了集中式数据库查询。结合进化方法和Agent的特点作者发现,使用基于进化的多智能体系统有助于找到更经济的查询成本计划相比,其他过程。Asghari et al.(2008)建议应该使用进化技术来优化大型和复杂的查询。作者使用遗传算法和学习自动机的混合方法来获得最优的查询分配计划。作者发现,所提出的混合方法给出了更好的结果,并避免陷入局部极小值的问题。Joshi和Srivastava设计了一种基于Cuckoo和Tabu Search的混合方法来优化多连接查询。Joshi和Srivastava认识到,他们提出的方法取得了更好的效果。作者比较了执行时间的ACO方法用于优化查询。与ACO相比,布谷鸟和禁忌搜索的混合方法产生了更健康的结果(Joshi和Srivastava,2013)。Wagh和Nemade使用修改后的ACO来优化查询。作者优化了三种不同的查询优化器模型,即。启发式,蚁群算法和改进的蚁群算法优化五种不同的查询。将蚁群算法的特点与禁忌搜索相结合,设计了改进的蚁群算法作者发现,优化查询所需的计算时间是不祥的更少,在修改ACO相比,启发式和简单的ACO技术。手稿似乎非常简单,没有进行批判性或广泛的分析(Wagh和Nemade,2017)。 Raushan和Welekar设计了基于混合蚁群算法的查询优化器模型来优化分布式查询。作者结合GA和ACO。Raushan和Welekar发现,与其他方法相比,他们提出的方法需要更少的时间来产生最佳查询执行方案(Raushan和Welekar,800M. Sharma等人/沙特国王大学学报n我G12015年)。此外,还设计了几种基于能量的查询优化器,其试图在资源利用和能量消耗之间取得平衡(Roukh等人,2016; Guo等人,2017; Rosemark等人,2007; Lang等人, 2011年)。3. 方法遗传算法是最早的仿生计算方法之一。它允许由许多独立染色体组成的种群在划定的选择规则下进化。选择操作符帮助从当前世代中挑选两个不同的染色体。这两个染色体的遗传特性被混合以产生更好的后代。这种混合机制称为交叉。进一步改变家族的染色体设计以改善其特征(Goldberg,2009;Holland,1992)。遗传算法被用来解决数据挖掘、任务分配、图像处理、农业和医学科学的不同问题(Sharma,2013)。此外,遗传算法已被广泛用于设计查询优化。一些研究人员仍在使用遗传算法及其变体来优化查询。萤火虫算法是目前最流行的优化技术之一。英足总的灵感来自萤火虫的闪光行为。世界上有2000多种萤火虫。不同种类的萤火虫的闪光模式是不同的。然而,所有萤火虫在一个物种中产生类似类型的闪光闪光有助于吸引其他萤火虫。吸引力受闪光频率、两次闪光之间的时间间隔和重复闪光的影响。当从位于一定距离处的光物体测量光强度I时,遵循平方反比定律D.该定律指出,当距离d减小时,光强度将增加,反之亦然(Yang等人,2010年)。在数学上,强度表示为:Ia1=100000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000其中手电筒是用来在萤火虫之间传递信息的。在FA中,目标函数以闪烁光的形式表示,并且努力优化该光函数。Firefly算法的工作基于以下假设。- 萤火虫据称是中性的,即萤火虫的性别没有任何影响。- 亮度较低的萤火虫会对亮度较高的萤火虫着迷。- 两个萤火虫之间的距离会影响亮度。图 1表示分布式查询优化器的处理。查询分解、数据本地化、局部和全局优化是分布式查询优化器的四个主要层次全局优化层处理分片查询.这一层可能负责决定地点和操作顺序即,它确定子操作将被执行的位置。本文的研究工作主要集中在这一层。RDFG_CDQO的工作模型、使用的参数、算法和假设将在本节的剩余部分进行解释。3.1. 融合Firefly和遗传算法的CDSS查询优化器在受限发散环境中(RDFG_CDQO)Fig. 1. CDSS查询优化器的层。RDFG_CDQO框架是为解决DSS查询的OSA困境而设计的。创新之处在于在限制发散环境中混合使用受控染色体设计和萤火虫算法与其他穷举算法和基于GA的优化算法相比,在发散受限的环境下,控制GA和FA的融合有助于获得更好的CDSS查询操作站点分配方案在这里,受控遗传算法是用来找到更好的查询执行布局的一组十种不同类型的CDSS查询。控制染色体的设计,以减少输入输出和处理成本的选择和投影操作的CDSS查询。在设计染色体时,假定CDSS查询的选择和投影操作在同一台机器上执行。FA进一步用于避免或最小化当前代中相似后代的创建。引入了模糊遗传算法,解决了遗传算法收敛速度慢的问题。FA的使用有助于以最少的生成次数获得最优的CDSS查询执行计划,即它也加快了查询优化过程。Kullback-Leibler(KL)分歧是用来创建显着的变化,在连续两代的控制GA也已纳入。KL散度是相对熵的度量之一。给出了熵的一般数学方程(Contreras-Reyes,2012年)DrateKLG1jjG2-kXpG 2:1:21/1在这里,随机CDSS查询优化器的工作模型,使用受控GA和FA的混合在一个受限制的发散环境中的第一次提出。图2描述了RDFG_CDQO的工作模型。的参数,算法和所提出的框架的创新功能,然后简要阐述。0和1是KL发散率的两个指标在这里,0和1分别表示前代和当前代中呈现的所有染色体是相同的和不同的。在下一代中,至少有一半的染色体与上一代不同。因此,在RDFG_CDQO中,KL发散的范围已被固定为0.5,即百分之五十M. Sharma等人/沙特国王大学学报801-MSYS通YSQ图二、RDFG_CDQO的工作模型3.2. RDFG的创新功能RDFG_CDQO算法有效地逼近了CDSS的OSA问题它的一些创新特点是:RDFG的创新功能染色体的约束设计保证了染色体的发散范围。I/O和处理成本无可争议地降低了限制染色体设计。RDFG_CDQO的工作仅依赖于少量的参数和操作员利用萤火虫算法进一步改进了当前代的染色体变异。通过对发散率的限制,有效地探索了搜索空间,这有助于为下一次迭代创建更好的轮盘赌的使用和GA、FA在受限发散环境下的融合,最大限度地避免了局部RDFG_CDQO可以在较少的代数中生成最优解。RDFG_CDQO的设计是通过加强限制发散,使染色体中的冗余可以被控制或减少到最佳状态。萤火虫和GA的融合有助于获得更好和更快的解决方案相比,其他基于GA的优化。3.3. RDFG_CDQO参数对于实验,分布式CDSS已被认为是整个数据库应该是在几个网站上提供。这里Z和N分别代表一些碱基关系和位点。在此优化过程中,假设每个基本关系在任何两个不同位置上可用。基关系和一些位点被表示为奇异矩阵,如下所示其中Z N.RDFG_CDQO- q表示来自查询集“Q”的CDSS查询- y表示CDSS查询“q”的子操作q表示由查询'q'的子查询y d访问的基本关系'B'的存储块的数量。- JCC- ICC- PCC- CMCC- DAbs如果站点DAbs= 1其他DAbs= 0end if- OAqs是如果一个查询q的操作可以在站点的'上执行,那么OAqs=1,否则OAqs=0结束,如果Q是如果查询“q”的子操作其他[B1; B2; B3; B4;Bz]........................S1;S 2;S 3;S 4;SN]...........................end ifSQ ¼0-S802M. Sharma等人/沙特国王大学学报jjXXI¼P在CDSS查询优化过程中使用的输入-输出和处理成本系数以一维矩阵的形式表示,如下所示:IC C 1;IC C2;IC C 3;IC C4;IC C5. :ICCN]PCC1;PCC2;PCC3;PCC4;PC CN]...........................使用N X Z阶的矩阵来描述数据分配变量。每个基本关系存储在CDSS数据库的两个不同站点上。七个站点和六个基本关系的数据分配变量的原型如下所示:数据分配变量(DAbs)110000001100000011000000110000001100000011这里,1和0表示在相关位点上存在和不存在碱基关系。与数据分配矩阵不同,通信成本矩阵被描述为N × N阶的方阵。CMCC11CMCC12CMCC13CMCC14CM CC...CM CC...........CM CC1NCMCC21CMCC22CMCC23CM CC24CM CC...CM CC....CM CC2NCMCC31CMCC32CMCC33CMCC34CM CC...CM CC...........CM CC3NCMCC41CMCC42CMCC43CMCC44CMCC...CMCC.............CMCC4NCMCMCMCMCMCC...CC... CC13第四步:对于I = 1到PopSize基于选择和投影操作将被分配到同一站点的限制,随机创建后代NoSo = PojoI = I+1步骤5结束对于I = 1至MaxGen//当前生成状态对于J = 1到Popsize选择任何两个染色体的基础上轮盘赌轮选择。应用一点交叉和变异,使染色体上的限制保持不变。//健身调查T CostsCDSS1/4T CostsioCPU成本T Costs CPU成本Fitness_value = T_CostsDSS/常数因子。端//Firefly基于T_CostsCDSS,计算每条染色体的亮度(Firefly)对于J = 1到Popsize如果强度(J)强度(J +1),则将J向J+1Endif端最后,选择顶部P最亮的染色体(萤火虫)用于下一代。DRateKLPjjC-kPn1piC 1:5CMCCN 1CMCCN 2CMCCN 3CMCCN 4CM CC...CM CC...CMCCNNCDSS查询的总成本是本地处理成本和通信成本的总和如果(DRateKLP C<50然后转到当前生成状态如果结束,则结束NoSoNopoNoSoNopo这里,发散的主要概率度量之一T成本sCDSS<$$>XIccωFi<$XIccωFj<$XPccωFi<$XPcc称为该概率1/1诺日第1页1/1第1页计算偏差的度量以找到两代随机产生的染色体。最初ωFjCMccLPO;JOωLPFii¼1诺日CXCMccCXLPO;JOCXRPFi1: 31/1其中NoJo、NoPo和NoSo表示连接、投影和选择操作的数量。JO、LPO和RPO表示连接操作的具体位置,连接操作的左操作和右操作。此外,子操作的左片段和右片段被表示为LPF和RPF。3.4. 基于受限发散的随机临床大数据查询优化器(RDFG_CDQO)RDFG_CDQO的算法版本如下:计算初始种群和第一代之间的差异。然后,在下两代之间进行计算,直到过程继续。此外,为了避免染色体设计中的任何类型的重复,染色体的生长受到限制。为了便于阅读,不同的CDSS查询优化器的性能,十种不同的CDSS查询被认为是。实验查询的详细结构基于Sharma et al.(2015),Nambiar and Poess(2006)的工作。选择、投影和连接是大数据检索查询的三个主要操作。在CDSS查询中,连接操作具有比选择和投影操作更大的权重。因此,在这项工作中,不同类型的实验CDSS查询的限制,由于连接操作的强度引入的复杂程度。查询是根据表1所述的DSS数据库的统计数据设计和制定的。元组的基数、元组的大小和关系的大小都是有效的上述CDSS数据库具有以下属性:第1步:读取Clinical_DSS_Query步骤2:将查询分解为不同的子操作第三步:读取成本系数,Icc(I/O)、Pcc(Processing)、CMcc(Communication)、Pop_Size(PopSize)、NoGen(Generations)。of big大data数据.在这里,DSS数据库(大数据)分布在20多个不同的站点。在优化CDSS查询时,首先将其分解为选择、投影和连接等子操作,然后在不同的CMCMCC11CC12CC14CC1N(C、P为当前和前几代)M. Sharma等人/沙特国王大学学报803一B表1大数据DSS的统计数据S. 号参数值1.相关度102.关系的基数50,00,0000,00003.元组的大小(单位:字节)1204.关系大小58,593,750,0005.数据块大小(KB)86.块中关系的大小7,324,218,7507.关系大小(TB)54.51分布式CDSS存在用于将子操作映射到分布式系统的不同站点的若干排列和拟议框架旨在选择一种操作现场分配计划,它最大限度地减少了I/O、处理和通信资源的组合使用。4. 结果在本节中,我们使用了不同的查询优化器来找到最佳的查询执行计划,并通过执行时间和系统资源来评估不同查询优化器模型此外,发散率对CDSS查询优化器的解质量的影响也已被检查。最后,使用回归分析对结果进行了验证表2总成本分析(百万秒)。CDSST_成本DSSEA_CDQOT_CostsDSS SG_CDQOT_成本DSSNG_CDQOT_成本DSSRS_CDQOT_成本DSSERS_CDQOT_CostsDSS RDFG_CDQO查询(in百万秒)(in百万秒)(in百万秒)(in百万秒)(in百万秒)(in百万秒)CDSS_156.0164.4161.6159.9357.0756.9CDSS_2130.78150.40143.86139.94133.37132.7CDSS_3185.43213.25203.97198.41188.34187.12CDSS_4238.30276.43262.13254.98243.27241.1CDSS_5269.82312.99302.20288.71278.55275.2CDSS_6323.00377.90364.98348.83338.70331.45CDSS_7376.50444.27432.97414.15395.32388.8CDSS_8435.20513.53500.48478.72460.24443.2CDSS_9512.19614.63583.90573.66542.93523.1CDSS_10573.38688.05659.38642.18618.98598.2图3.第三章。(a):临床DSS查询优化器的分析(b)不同CDSS查询优化器的分析注意:所有基于GA的 CDSS查询优化器的值都不可见,因为与基于穷举的CDSS查询优化器的值相比,这些值非常小804M. Sharma等人/沙特国王大学学报图四、不同大数据查询的分析表3发散率对T_Costs的影响CDSS。查询公司简介NG_CDQORS_CDQOERS_CDQO(15%)RDFG_CDQO(15%)RDFG_CDQO(10%)RDFG_CDQO(5%)CDSS_186.9690.9193.4697.198.9499.2499.27CDSS_286.9590.9193.4598.0698.5598.8599.05CDSS_386.9590.9193.4698.4599.199.499.434CDSS_486.2190.9193.4697.9698.8499.1499.174CDSS_586.2189.2993.4696.8798.0598.3598.384CDSS_685.4788.5092.6095.3697.4597.9597.984CDSS_784.7586.9690.9195.2496.8497.3497.374CDSS_884.7586.9690.9194.5696.7997.2997.63CDSS_983.3386.2189.2894.3496.1296.6296.96CDSS_1083.3386.1089.2992.6395.8596.3596.694.1. 执行时间和系统资源表2表示使用不同查询优化模型获得的一组分布式临床查询的总成本(以百万秒为单位)在 表 2 中 , 十 种 不 同 类 型 的 CDSS 查 询 被 表 示 为 CDSS_1 至CDSS_10,其中数字表示CDSS查询中涉及的连接操作的数量。各个表值表示执行相应CDSS查询所需的总时间量(输入-输出、处理和通信时间之和)。使用EA_CDQO获得最低总成本(总时间),因为它探索了操作站点分配计划的所有可能组合。换句话说,EA_CDQO总是为CDSS查询生成最佳解决方案。图3(a)描绘了总成本的最佳可能值的图形表示(以一百万秒),用于使用不同的基于GA的CDSS查询模型获得的一组十个不同的CDSS查询。观察到使用RDFG_CDQO产生的结果优于SG_CDQO、NG_CDQO、RS_CDQO和ERS_CDQO的结果。图3(b)描述了使用不同的基于GA的方法为CDSS查询找到最具建设性的优化解决方案所需的运行时。得出的结论是,EA_CDQO的运行时间放大在一个荒谬的速度连接操作的数量的增长。因此,EA_CDQO应该仅用于小规模CDSS查询。然而,由于SG_CDQO、NG_CDQO、RS_CDQO和ERS_CDQO的运行时间保持稳定或缓慢增加。因此,对于CDSS查询优化问题,就找到最有利结果所需的执行时间而言,所有随机方法和混合方法(GA和信息论)都是一样的。此外,不同的CDSS查询优化器的性能进行了分析的背景下,用于提供最佳解决方案的代数。对于一个固定的人口规模,RDFG_CDQO需要较少的代数,以提供一个最优的解决方案相比,其他优化。当群体大小设置为70、80和100时,观察到几乎相同的模式。100. 图4表示当群体大小固定为50时所使用的一些世代的分析。4.2. 发散率对RDFG_CDQO的影响从表3中可以观察到,通过将Kullback-Leibler发散率限制在50%,与在RDFG_CDQ 0中发散率被设置为20%或30%时相比,可以得到更多改进的通过将发散率设置为50%,使用RDFG_CDQO生成的解决方案的质量可以进一步提高0.2%到1%。在这个层面上,这个小的改进也是非常重要的。实验研究还表明,当发散率从50%进一步增加时,没有观察到进一步的增强。4.3. RDFG_CDQO的回归分析为了验证所提出的模型,对三种不同的发散率进行了回归分析,即在20%,三成和五成。使用RDFG_CDQO生成的结果的残差图是使用上述发散率创建的。从图5(a)、(b)和(c)中可以观察到,当发散率设置为50%时,RDFG-CDQO工作良好,20%和30%。当发散率设置为40%时,没有观察到显著变化。M. Sharma等人/沙特国王大学学报805一B在图5(a)、(b)和(c)中,正态概率曲线和拟合(拟合值)验证了实验结果中的线性、独立性和恒定方差。此外,图的右上角。在图5(a)、(b)和(c)中,分析对比拟合,检测标记模式。 在使用RDFG_CDQO获得的结果中,具有不同的发散率。从上述图中,没有发现明显的曲率,而且,点的分散表明,没有更系统的图五、(a):回归分析:RDFG_CDQO(20%)与连接数(b):回归分析:RDFG_CDQO(30%)与连接数(c):回归分析:RDFG_CDQO(50%)与连接数。806M. Sharma等人/沙特国王大学学报C图5(续)一致性因此,在线性和恒定方差假设中没有违背。最后,在实验结果中没有发现显著的离群值从图6(a)、(b)和(c)中可以看出,与发散率设置为20%或30%时相比,发散率为50%的RDFG_CDQO生成的解决方案质量更准确有效,因为结果分布更正态20%、30%和50%三种不同发散率的95%置信区间水平代表发散率设置为50%时的均值置信水平高于其他两种情况,进一步验证了发散率设置为50%时获得的结果5. 讨论在这里,一个混合CDSS查询优化器,即RDFG_CDQO(萤火虫和受控遗传算法的融合)已被提出,以加快临床决策支持系统的“诊断分析”过程。所提出的模型以及其他基于遗传算法的CDSS查询优化的性能已被检查的基础上的两个主要参数(系统资源和运行时间)。CDSS查询优化的完整过程是基于成本模型的。投入产出成本、加工成本和通信成本是系统资源的三大代表。在这里,成本是时间的代表。选择和投影操作可以显著地影响输入-输出资源的需求。同样,连接操作的数量和复杂性可以增加或减少通信资源的需求。此外,随着连接操作的数量增加,系统需求的使用显著增加。由于随机性,使用不同的基于GA的CDSS查询优化器找到最佳CDSS查询执行计划所需的运行时间几乎相同。控制染色体设计的实现有助于显着降低CDSS查询的输入输出和处理成本。FA是用来避免在一个属中产生重复染色体的。是的。最后,通过限制Kullbeck-Leibler发散率,使两个世代之间的变异达到最大。与其他CDSS查询优化器的结果相比,萤火虫和遗传算法的融合以及限制的Kullbeck-Leibler发散率显着地产生了更好的解决方案。图7描绘了分别使用简单的、新颖的、受限的、基于熵的受限遗传算法获得的最佳质量解决方案与针对一组十个不同的CDSS查询的所提出的 CDSS 查 询 优 化 器 框 架 之 间 的 百 分 比 差 异 。 研 究 发 现 , 使 用RDFG_CDQO生成的最佳查询执行方案明显优于使用其他基于遗传算法的CDSS查询优化器生成的最佳查询执行计划。对于一组10个不同的CDSS查询,使用RDFG_CDQO产生的解决方案的质量分别为11.48%-12.25%,7.53%-9.75%,4.98与基于简单、新颖、受限、基于熵的受限遗传算法设计的CDSS查询优化器相比,分别提高了0.29%~ 3.22%。该解决方案质量改进率表示使用RDFG_CDQO生成的查询执行方案明显减少了执行CDSS查询所需的不同资源需求,因此将加快CDSS的诊断分析过程。从不同的残差图,发现有效的性能的发散率应设置为50%。6. 结论本文提出了一种基于Firefly算法和遗传算法混合的约束发散环境下的随机CDSS查询优化器(RDFG_CDQO)。拟议的框架将协助不同的医疗保健专业人员加快'诊断和分析'的过程。首先,使用RDFG_CDQO检查基于TPC-DS基准的一组临床大数据查询。 RDFG_CDQO的结果是相比穷举和其他四个基于GA的查询M. Sharma等人/沙特国王大学学报807一B优 化 器 : SG_CDQO 、 NG_CDQO 、 RS-CDQO 和 ERS-CDQO 。RDFG_CDQO的有效性进行了研究,总成本,收敛性和执行时间。毫无疑问,使用穷举生成的查询执行计划是最好的。然而,EA_CDQO对于小型和数据密集度较低的临床DSS查询是有用的,因为随着CDSS查询中涉及的连接操作的增加,解决CDSS查询优化问题所需的时间以荒谬的速度增加。已经发现,SG_CDQO和NG_CDQO中的解决方案(总成本)与EA_CDQO的结果相 比 并 不 那 么 好 。 在 选 择 用 于 交 叉 操 作 的 亲 本 中 使 用 熵 ( 在ERS_CDQO中)有助于避免一代中的重复染色体,这有助于与SG_CDQO和NG_CDQO的结果相比,产生了11.6%和8.6%的更好结果。在提出的CDSS查询优化器框架(RDFG_CDQO)中,使用受控GA有助于降低图六、(a):RDFG_CDQO的描述性统计,偏离率为50%(b):RDFG_CDQO的描述性统计,发散率为30%(c):RDFG_CDQO的描述性统计,偏离率为20%。808M. Sharma等人/沙特国王大学学报C图6(续)见图7。 使用RDFG_CDQO提高的解决方案质量百分比。查询的输入输出和处理成本。此外,Firefly算法和约束遗传算法在限制发散环境下的结合使用,有助于在进化世代中获得染色体的发散范围,从 而 支 持 在 较 少 的 世 代 中 获 得 更 好的 解 。 实 验 结 果 表 明 , 采 用Kullback-Leibler相对熵的限制发散率,实验结果表明,RDFG_CDQO算法能够较好地实现CDSS查询的最优解质量(T_CostsCDSS)和较低时间复 杂 度 ( T_C ) 的 矛 盾 目 标 。提 出 的 CDSS 查 询 优 化 器 模 型(RDFG_CDQO)也已使用回归分析进行了验证。线性、独立和方差不变的假设证实了RDFG_CDQO在发散率设置为50%时表现这项工作可以是全面的杂交其他新的自然启发的技术,如蚁狮优化器,蜻蜓算法与遗传算法在一个有限的发散环境。 对于所提出的框架,负载平衡和并行处理的效果值得研究。RDFG_CDQO的有效性也可以用于其他优化问题。引用Apers,M.G.P.,Hevner,A.N.,宾,Y.S.,一九八三年分布式查询的优化算法。IEEETrans. Software Eng. SE-9(1),57-68.Asghari,K.,Mamaghani,A.S.,Meybodi,M.R.,2008.数据库查询优化的进化算法。在:Iskander,M. (Ed.)、教学技术,电子学习,电子评估和教育的创新技术。Springer,Dordrecht. 249-254。Ceri,S.,Pelagatti,G.,一九八二年分布式数据库访问中的操作分配IEEE Trans. Comput. C-31(2),119-129。M. Sharma等人/沙特国王大学学报809Contreras-Reyes , J.E. , 2012. Arellano-ValleRB. 多 元 偏 正 态 分 布 的 Ku llb a ck -Leib ler 散度测度熵 14(9),1606-1626。Geetha河,斯里坎特,G. U.,2018.不同工程应用中的蚁群优化:综述。Int. J. Comput.Appl. 49(17),19-25。Ghaemi河,Fard,M.,Tabatabaee,H.,Sadeghizadeh,M.,2008.异构分布式数据库系统的进化查询优化。国际计算机Inf. Eng. 2(7),34-40.Goldberg,D.E.,2009.搜索、优化和学习中的遗传算法 多林· 金德斯利Pearson Education,New Delhi,印度贡萨尔维斯,联邦航空公司,吉马良斯,F.G.,Souza,M.J.F.,2014.进化多代理系统查询连接排序优化。Exp.系统应用41(15),6934-6944。Guo,B.,余,J.,Liao,B.,杨,D.,卢,L.,2017.一个基于能量感知查询优化和节能的DBMS绿色框架查询处理.J. 网络Comput.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功