基因组内helitron分类：特征提取和SVM分类器在秀丽隐杆线虫基因组中的应用

160 浏览量更新于2024-01-07 收藏 1.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

i本文的最新情况见最后医学信息学解锁18（2020）100271基于不同阶FCGS特征的基因组内helitron分类Rabeb Touatia，d，*，Imen Messaoudib，d，Afef Elloumi Oueslatic， d，Zied Lachiri d，Maher Kharrat aa突尼斯El Manar大学，LR99ES10人类遗传学实验室，突尼斯b突尼斯迦太基大学信息技术和通信高等研究所工业计算c突尼斯迦太基大学，全国搬运工程师学院，电气工程系。d突尼斯大学El Manar，SITI实验室，突尼斯国立工程师学院，BP 37，le Bel v�ed�ere，1002，突尼斯，突尼斯A R T I C L EI N FO保留字：Helitrons分类SignalFCGS编码技术机器学习SVMA B S T R A C THelitrons ，真核生物转座因子（ TEs ）， 18 年前在各种基因组中发现。在秀丽隐杆线虫（Cænorhabditiselegans）基因组中，helitron序列在碱基对（bp）大小方面具有高度变异性，从一个序列到另一个从11到8965 bp不等。这些TE不是均匀分散的序列，并且它们具有通过滚环机制在基因组内移动的能力。这种在基因组中移动和繁殖的能力使这些元件在基因组进化中发挥重要作用。为了跟踪进化，我们使用从对应于DNA序列的信号中提取的特征和支持向量机（SVM）分类器的组合来预测秀丽隐杆线虫基因组中的helitron家族（10类）。在我们的分类系统中，从信号中提取的特征被证明是有效的自动预测螺旋序列。因此，高斯径向核超过100倍交叉验证给出了最佳的准确率，范围从68%到97%，总体平均得分为83.7%，我们成功地识别了Helitron Y1A类的特定c和gamma值，达到100% 的准确率。此外，其他值得注意的helitrons（ NDNAX2，NDNAX3 Helitron_Y2）预测有趣的准确率。1. 介绍统计学习理论是基于给定数据集合的函数估计问题的机器学习框架。该理论使用两个主要模型：ERM（定义为经验风险最小化归纳原则）和SRM（结构风险最小化）。ERM原则包含解决特定学习问题的经典方法[1]。SRM有一个归纳原则，旨在最大限度地减少风险功能方面的经验风险和VC维的功能[2支持向量机（SVM）分类技术由Vapinik开发，基于SRM原理[3]。支持向量机是解决两类和多类识别问题的一种非常有效的监督算法。它越来越多地被用于许多领域，并且经常被应用于解决统计学习问题[4，5]。支持向量机已成功地应用于各种应用：包括人脸、说话人、生物信息学和DNA识别在内的模式识别由于其由于生物信息学领域的准确性以及其管理大数据的能力[6Helitron序列在大小和出现次数方面具有很高的变异性，这构成了系统分类的主要障碍。它们是一种特定的DNA类别，拥有负责生物体发育、功能和繁殖的遗传指令[11，12]。DNA是一个复杂的分子，由数千个连续的核苷酸组成：腺嘌呤（A），胸腺嘧啶（T），胞嘧啶（C），(C)和鸟嘌呤（G）。它们在染色体中的串联是可控的在特定的时间间隔内有特定的周期性。这些周期性DNA序列可以重叠或分离，这使得它们的鉴定成为一项困难的任务。在本文中，我们的兴趣集中在helitron家庭的分类。这些元素是一个重要的DNA类别，分布在基因组的特定区域，并受到复杂的潜在周期性的控制。这类DNA由重复序列组成，是转座因子（TE）* 通讯作者。突尼斯大学，LR99ES10m，人类遗传学实验室，突尼斯。电子邮件地址：Rabeb. enit.utm.tn（R.Touati），imen. enit.utm.tn（I.Messaoudi），Afef. enit.utm.tn（A.E.Oueslati），Zied.enit.rnu.tn（Z. Lachiri），maher.fmt.rnu.tn（M. Kharrat）。https://doi.org/10.1016/j.imu.2019.100271接收日期：2019年7月26日;接收日期：2019年11月2日;接受日期：2019年在线发售2019年2352-9148/© 2019由Elsevier Ltd.发布这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表医学信息学期刊主页：http://www.elsevier.com/locate/imuR. Touati等人医学信息学解锁18（2020）1002712其通过滚圈机构进行换位。helitron序列在基因组中转座的过程中可以频繁地捕获和转座基因片段，这对生物进化有很大的影响[13这些TE序列在17年前就已经在所有真核生物的基因组中被发现：从各种植物（如玉米、玉米、水稻、拟南芥）到线虫（如秀丽隐杆线虫）。Kapitonov [16]发现的helitron模型表现为异质模式，这证明需要一种通用方法来识别这些序列。Helitron识别和分类仅限于序列的先验知识。参考序列由其结构（末端环）或其内容（重复末端结构域）定义。通过不同的对准算法[14，17 这些方法由于缺乏关于参考序列的信息以及需要巨大的存储空间而受到阻碍[20，21]。另一方面，包括发现、检测和注释基因组中的转座因子的研究在参考文献中得到了发展。[21自动分类的一个大范围的TE与几个还提出了计算工具。首先，Wicker提出了一个分层分类系统，“统一分类系统”来对ET序列进行分类[ 25 ]。本文作者试图建立一个能将转座子分为两大类的系统：反转录转座子（I类）和DNA转座子（II类）。其次，一些工具，如TEclass [26]，REPCLASS [27]，TEclassifier [28]和PASTEC [29]旨在对发现的TE进行分类。他们试图对可能代表新的TE超家族的不可分类的新家族进行分类。Claire等人在参考文献[29]中详细介绍了这些工具的比较研究。其中一种工具SVM分类有一些限制，如TEclass工具。只有当TE与已知重复序列没有明显相似性时，SVM技术才能用真核重复序列数据库（RepBase Update）[24]成功训练。所有这些工具都专注于对转座因子进行分类，但没有一个是针对helitron序列的。在这里，我们把我们的注意力转向helitron类，以表征和把它们分类。我们表明，当我们使用基于编码技术的统计概念时，我们能够使用机器学习工具SVM识别一些helitron类。我们想到了一个标准的方法，将helitron DNA独立于其基因组序列的组成进行分类。我们的贡献在于编码helitron 序列与特定的编码技术，频率混沌游戏信号（FCGS）。然后，我们从对应于每个helitron序列的FCGS信号准备时间和频谱特征用于分类步骤。我们选择SVM作为我们的分类技术。实验结果表明，FCGSN编码技术与SVM分类器相结合，可以成功地预测Helitron族。本文的其余部分分为四个部分。第一部分介绍了这项工作。第二部分介绍了所提出的方法，包括FCGS N编码技术，特征提取方法和SVM分类。第三部分提供了对秀丽隐杆线虫（Cænorhabditis elegans，C.elegans）helitron类的实验结果最后一部分是结论。2. 材料和方法由于它们在长度和结构上的变异性，预测它们是一项困难的任务。本文主要研究基于FCGS编码的秀丽隐杆线虫helitron序列分类。我们的方法（如以下流程图所述）包括五个步骤：1. 生成FCGS N信号以表示每个C。elegans染色体（N是FCGS表示的尺度）2. 将FCGSN序列与每个直升机相关联以获得直升机信号数据库3. 将数据分为两组：约70%用于训练，约30%用于测试4. 每个数据集的统计特征5. 应用SVM分类技术描述我们的方法的流程图如图所示。1.一、首先，我们从NCBI数据库中提取秀丽隐杆线虫模型的染色体数据开始[30]。然后，我们产生相应的FCGSN信号。FCGS（频率混沌Gamel信号）编码技术是基于进入DNA序列的N个连续核苷酸组的幽灵FCGS方法基于对这些元素中的每一个的出现进行计数（N个核苷酸）。- 第二步：通过将FCGSN信号与每个helitron相关联，与helitron信号数据库的建立相对应。基于此，我们准备了关于不同寡聚体（二聚体：N1/ 2，三聚体：N1/3，八聚体：N1/ 4和六聚体：N1/6）的helitron信号的数据库。因此，helitron由四个级别的FCGS（FCGSN，N1/4 2，3，4，6）表示[31- 第三步：其中数据被分成两个相互排斥的子数据库：训练集（约70%）和测试集（约30%）。- 第四步：在这里，helitron特征提取FCGS信号。考虑到FCGS是一个基于核苷酸出现概率的随机信号，我们提取了两种类型的特征：时间特征和光谱特征。因此，该组特征表示helitron数据，并且标签对应于helitron类。- 最后一步：Fig. 1. SVM-Helitrons识别器流程图。- 第一步：R. Touati等人医学信息学解锁18（2020）1002713NX1Varx-μ（6）jxjii¼σ21ð Þ ¼我N-1 i 1ji--对于分类，我们选择SVM技术。为了将helitron数据库转换为“适用于SVM的格式”，我们提取了一组特征向量。分类步骤包括将数据分为训练集和测试集。因此，必须遵守两个条件：必须为训练阶段标记训练数据，并且必须将测试数据标记为相同的源以正确预测类。2.1. 频率混沌博弈信号方法：FCGSN频率混沌游戏信号：FCGS是一种基于每个子模式的频率值分配给DNA序列中存在的同一组核苷酸的编码技术[31对于DNA序列，给定N个核苷酸的概率（PN_nuc）由下式给出：核蛋白类型，我们有两个信号;第一个信号包含两个核苷酸的频率幻影数，第二个信号包含四个核苷酸的频率幻影数。对于这两种helitron类型，我们可以看到4阶FCGS比2阶FCGS诱导更平滑的信号，这在捕获重要的潜在模式（大小4个碱基对）中是有用的。2.2. 特征提取提出的自动识别系统包括两个模块：特征提取和SVM分类器。在第一块中，从FCGS信号中提取两种类型的特征：时间特征和频谱特征。对于时间特征，我们使用DNA统计测量，这些测量在DNA研究中显示为非常重要的特征 [9 ， 37] ，包括：（模糊 c 均值（ FCM ），最大峰数（maxpic），PNnuc¼ Nch（1）平均值（μ）、中位数（Med）、标准差（Std）、方差（Var），马氏距离、能量（E）和根是说平方（RMS）。作为NN_nuc表示整个序列中N个核苷酸的出现次数。Nch表示DNA序列的碱基对长度。N阶频率混沌博弈信号（FCGSN）考虑位置（k）处的一组N个核苷酸，然后用相应的发生概率替换它：在频谱特征方面，我们使用了以下参数：平均功率谱密度（Smean）、功率谱密度（PSD）和功率均方根（Prms）。2.2.1. 时间特征直接提取时间特征（时域特征SNnuc ¼XPN我NUCN;k从对应于helitron序列的FCGS信号。一个向量包含10个时间特征，这些特征是对应的统计度量。最后一步是计算N个核苷酸指标的总和（SN_nucl）：FCGS全自动数控车床XSNnuc（3）K因此，DNA序列由不同水平的FCGS表示。在这项工作中，我们选择了四个FCGS水平，其中N从2变化到6（N1/4 2，3，4，6）。对DNA信号做出反应这些统计测量值将如下所示最大峰值数（maxpic）：helitron信号中最大峰值的数量除以序列的长度● 模糊c-均值聚类方法● 平均值（mean），由下式给出：μmxμm1*Xxi（4）作为一个例子，我们表示位于秀丽隐杆线虫基因组的染色体I中的四个helitron序列的信号。图2示出了两个helitron序列及其对应的信号。所考虑的Helitrons是Helitron1_CE（H1）类型的一部分，其具有位置[15071811：15071978bp]和HelitronY2_CE（Y2）型，其具有正的N这里xi长度。1/11/4：N是信号的位置索引，N是信号11168825：11168916bp）。我们提出了这两个helitron的数值表示使用FCGS2和FCGS 4编码技术。对于每个直升机中位数（Med）：是将数据样本的上半部分与下半部分分开的数字。● 标准差（Std）：由下式给出：标准品xvutfifififififfiffi1fififififififififfiffiXffiffiNfififififififififfiffixfififififififfiiffiμfififififfiffi2ffiffi¼（五）●方差（Var）：定义为：N2N1● Mahalanobis距离（D）：定义为：Dx;yvutffiXffiffiNffiffiffiffiffixffiffiiiiffi-ffififfiyffiffiiffiffi2ffiffi（七）● 能量（E）：该参数通过应用以下公式进行量化N最大Xx2（八）1/1● 均方根（RMS）：其表达式如下：图二. EX由FCGS2和FCGS4编码的Helitron 1_CE样本。��J1/1R. Touati等人医学信息学解锁18（2020）1002714�系我��ΣΣ拉吉吉utX��Nvutffi1ffififififffiffiXffiffiNffifififififififififffi iiffiX● 功率谱密度（PSD）：PSD的计算通过联系我们2N1我（九）对自相关函数应用快速傅立叶变换你好，谢谢。其定义如下：PSD¼FFT12rxx 轴向（12）● S平均值：该参数通过应用以下公式计算：S平均¼平均值pffivffiffiaffiffirffiffiffixffffiffiffi-meanXpffivffiffiaffiffirffiffi（十）功率均方根（Prms）：Prms测量信号幅度的功率它由以下公式计算2.2.2. 频率特征频谱特征（频域特征）通过以下方式获得：使用所述傅立叶变换将所述基于时间的信号转换到所述频域。在这项工作中，我们使用了3种措施，它们是：PRMS频率¼qffiXffififififififfiffiXffffiffiffi2ffiffivffiNffiffi-ffiffiffi1ffiffiFffiffiffiTffiffiffiffixffiffi2ffiffi ffi1/1（十三）平均功率谱密度（Smean）：它是平均功率谱密度。它测量信号在频域中分布时的能量。其数学表达式如下：我们进一步使用Prms_freq的绝对值，其表达式为如下所示：Prms abs¼Prms freq（14）图3显示了四种特征类型的矢量表示图S平均平均值02ωXf1（十一）对应于两种Helitron类型; Helitron Y2（Y2）和Helitron 1（H1）。¼B@NCA特征向量包含这些特征向量的所有获得的样本的特征。两个直升机家族很明显，我们可以区分这里N是信号长度，X（f）是信号X的傅里叶变换。这两个直升机在特征提取步骤之后，下一步是数据类型的SVM分类。��¼R. Touati等人医学信息学解锁18（2020）1002715图3.第三章。对应于两种不同helitron类型（helitronY2和helitron1）的四种特征类型的表示示例。R. Touati等人医学信息学解锁18（2020）1002716¼¼-þ我J我J2.3. 多类支持向量机为了估计DNA序列中的helitrons，我们使用支持向量机作为分类方法，旨在找到两类问题的最佳超平面。该方法首先由Vladimir [3]针对二元分类任务引入，以便在输入空间中构建基于结构风险最小化理论的决策函数[3，38]。最优超平面的定义是具有最大间隔的决策实际上，边缘可以定义为从分离超平面到类对的最近向量的最短距离[39]。令：Xi（i 1，...，n）;属于类1或类2的n维输入，并且相关联的标签（yi）对于类1是1，对于类2是-1。因此，我们将超平面的方程定义为：（15）其中w是n维向量，b是标量。SVM确定对应于线性可分数据的f（X）0的超平面。对于非线性可分离的情况，输入样本通过空间插值函数（16）决策函数描述为：Dx（17）实际上，真正的问题往往是多类。多类SVM方法将多类问题减少到几个双类超平面的组合，允许在类之间绘制边界[40]。基于二分类的多类方法有：一对一（OAO），一对所有（OAA）和有向无环图（DAG）。- 一对一：OAO方法[41]也被称为它包括为每对类使用一个分类器对于N类问题，OAO方法不是学习N个决策函数，而是将一类样本与另一类样本区分开来，从而训练N（N-1）/2个支持向量机。- One-Against-All：OAA方法[42]，包括为每个类构建一个SVM，基于对于被认为是正类（1）的每个类“I”确定超平面对一个未知模式的分类通常是根据所有支持向量机的最大输出- 有向无环图：OAO方法的入侵问题由DAG方法[43]解决，具有N*（N-1）/2个二进制分类器的训练阶段，这与OAO相同。然后构建决策图，而不是应用投票来影响样本。在这项工作中，我们使用Knerr等人提出的一对一方法的分类准确性。[44]。多类SVM使用不同的内核，高斯径向基内核，多项式内核，和sigmoid内核。在我们测试的核函数中，我们选择高斯径向基（RBF）函数作为核函数，因为它比其他核函数提供更好的结果核参数c参数应该仔细调整，因为它们在内核的性能中起着重要作用使用100倍蒙特卡罗交叉验证对模型进行训练和测试[48]。在这项工作中，我们使用以下对（c，σ）：[2- 6，2- 5，.， 29、210]3. 实验和结果基于训练数据（helitron特征），目标是预测仅给定其属性的测试数据的目标值为了在没有其DNA序列的任何先验知识的情况下对helitron家族进行分类，首先，我们从NCBI数据库中提取生物信息（类型、位置）[30]。然后，我们将FCGS编码应用于C。线虫染色体。然后，我们从FCGS信号中准备特征，这些特征将被视为分类器的条目。最后，我们使用LIBSVM [49]作为基于分类的SVM3.1. Helitrons数据库对于实验，我们考虑了秀丽隐杆线虫基因组，其染色体DNA序列可在NCBI数据库中获得[30]，并且包含分布在六条染色体上的十个helitron家族（5个常染色体：ChI、ChII、...、ChV和1个生殖体：ChX）。这些helitron 类是： Helitron1 （ H1 ）、 Helitron2 （ H2 ）、 HelitronY1（ Y1 ）、 HelitronY1A （ Y1A ）、 HelitronY2 （ Y2 ）、 HelitronY3（Y3）、HelitronY4（Y4）、NDNAX1（N1）、NDNAX2（N2）和NDNAX3（N3）。helitron核苷酸在基因组中的位置不同。此外，这些元件的大小是可变的，这形成了获得自动化helitron预测系统的重要障碍。表1说明了秀丽隐杆线虫染色体中helitron数的变异性。Helitron的大小在一个家庭之间和家庭内部都有很大的不同。可以注意到，Helitron 1的大小范围从14 bp到8965 bp。这类基因在基因组中并不常见。另一方面，我们发现HelitronY1A在基因组中的频率达到了所有染色体中的最大出现数。事实上，它的出现频率从53到366不等，其大小范围从12 bp到5773 bp。3.2. Helitron预测结果FCGS是一种基于将每个子模式的频率值分配给序列中存在的同一组核苷酸的新编码技术[31FCGS2用于编码秀丽隐杆线虫基因组的所有染色体，并且只有染色体3.2.1. 基于FCGS2编码的分类结果在这部分工作中，我们使用FCGS 2作为基于二核苷酸出现概率的编码技术。使用从每个helitron类型的FCGS 2信号中提取的所有时间和光谱特征生成SVM分类的结果。分类是表1Helitron在秀丽隐杆线虫基因组上的再分配[30]。ChI ChII ChIII ChIV ChV ChX（惩罚参数）和σ（核宽度）通过使用交叉验证程序[45]。这种方法包括建立c和σ的网格搜索[46]。下面，我们提供RBF（径向基函数）核的方程[47]。K.x;x=0;x=0为了实现这个网格，有必要迭代地进行，通过创建一几的值 C 和 σ。这些可调H1423338284214DNA转座子H210674727710040DNA转座子Y16044828318826非自治Y1a17613221115536653非自治Y2544439797051非自治Y311817242532非自治Y468688111414844非自治N19814151912非自治N2304022433716非自治N3202024332314非自治R. Touati等人医学信息学解锁18（2020）1002717¼¼¼¼基于高斯核函数并考虑使用交叉验证函数的移位参数γ“σ”和成本“c”来建立这个内核的选择是在测试了其他核心功能之后做出的。基于多类SVM的方法的实验结果列于表2中，其表示从所有染色体中的helitron提取的12个特征获得的分类率。对于秀丽隐杆线虫染色体中存在的每种类型的helitron，三分之一的数据用于测试（Tst），三分之二用于训练（Trg）。秀丽隐杆线虫基因组包含3618个helitron序列，其中2414个用于训练，1205个用于测试。helitrons预测系统产生的平均得分为71.8%的所有helitron类型。五种Helitron类型高度预测（给出准确率），它们是：N2，N3，Y2和Y3。N3的分类率预测得分高：95%。另外两个显着的helitron分类显示高准确率获得N2和Y2的值分别为91%和81%。所获得的结果在全球范围内高于其他系统工具所获得的结果。事实上，审查[28]中提出的最佳比率约为TE的50%。对于更多的解释，我们可以使用邻居连接（NJ）聚类，这是分层聚类分析的一种替代方法[50]。在这里，我们可以绘制出10个helitron科在C。elegans基因组使用这些分类结果。本图是使用Past Paleontological Statistics程序版本开发的3.23（用于科学数据分析的自由软件）[51]。系统发育树图（图4）证实了混淆矩阵（表3）中存在的一些helitron家族与Dfam数据库[52]之间的相似性。表3显示了我们的helitron分类系统的平均性能，其对应于秀丽隐杆线虫基因组中所有helitron的分类。该表包含用于评估分类系统的三个表 4 表示 7 种 Helitron 类型的分类结果（不包括 HelitronY1 、HelitronY1A和HelitronY4）。在这里，我们已经排除了第一分类系统中具有很大相似性的helitron类型，以查看速率是否增加。在这里，正确的helitron分类从71.8%提高到83.7%基于对应于七个helitron类的分类结果，我们可以利用NJ方法绘制图5图5显示了线虫基因组中7个helitrons的系统发育树[50，51]。该图（图5）证实了DFAM转座因子数据库中提供的一些helitron家族之间的关系[52]。基于FCGS2信号编码，16个二核苷酸的值在染色体之间是不同的。因此，我们首先单独研究了每条染色体。然后，为了研究编码技术对准确率的影响，我们将对更高的FCGS阶重复分类。我们将表2基于 RBF-Kernel （ c16 ， 384 和 g0.015 ， 625 ）和 OAO 的 100 倍 MCCVHelitron分类系统混淆矩阵 approach.6见图4。利用支持向量机分类器的分类结果数据，结合FCGS2信号提取的特征和邻接方法，构建了秀丽隐杆线虫基因组中所有helitrons家族（10类）的系统发育树。表3使用SVM分类器的100倍MCCV Helitron分类结果的平均性能。Helitron类型精度召回F1得分H10.460.490.47H20.790.770.78N10.670.800.73N20.840.910.88N30.720.950.82Y1a0.630.660.65Y10.450.400.42Y20.780.810.80Y30.890.800.84Y40.610.520.56表4利用 RBF-SVM 核函数（ c <$16 ， 384 和 g <$0.015 ， 625 ）和 OAO 方法对 7 种Helitron类型进行分类，得到了对应的混淆矩阵。H24,9668,0917,732,830.70 4.960,70Y22,977,987,130,990.99 00Y35,8811,76079,420 2.940N13,042,3903,0487，83 2，341,34N2N3001,2601,390003.01 91.350 2.53,2697,5对FCGS3、FCGS4和FCGS6实施该方法。表5表示helitron分类的最佳结果（从最高到最低），并表明使用FCGS 2编码技术获得了高准确率。该表的第一行代表秀丽隐杆线虫染色体;第一列代表helitron类。第二列包含每个helitron类的训练样本数。第三列显示每条染色体中测试helitron的数量。最后，最后一列表示准确率百分比。在这里，模型使用100倍蒙特卡罗交叉验证进行训练[48]。在所有特征的情况下，HelitronsY 2的分类正确率较高（84.16%~97.77%），其中c为16，384，g为0.015，625。第二高的预测率helitron取决于它的出现频率在染色体上。● 对于染色体I、II、III和V，它是Helitron 2● 对于染色体X，它是HelitronY1AH1H2 Y2Y3N1 N2 N3H174,58710,1705,081,69 3385,08R. Touati等人医学信息学解锁18（2020）1002718图五. 7个helitron家族的系统发育树，使用SVM分类器的分类结果数据，使用从FCGS2信号和相邻连接方法中提取的特征[50，51]。表5基于FCGS 2的四helitron家族Helitrons染色体I染色体II类培训测试比率（%）培训测试比率（%）Y1a1185875884469H2713591,43492582Y2361897,77291592Y4561268,33452361,69Helitrons染色体III染色体IV班级培训考试率（%）培训考试率（%）Y1a1407176,261035281,33H2482483,33512680,76Y2261393,84522792,59Y4541275,33763884,21Helitrons染色体V染色体X类培训考试比率（%）培训考试比率（%）Y1a244 1227735 1892,33H270 307826 1484,28Y246 2484,1634 1794,11Y498 506829 1566,66表6三个helitron家族FCGS2FCGS3类培训测试比率（%）类培训测试比率（%）Y1a1185890Y1a11844100H2713591,43H2712588,57Y2321892,77Y2321877,78FCGS4类培训测试比率（%）FCGS6类培训测试比率（%）Y1a1187189,33Y1a1185891H2713585,71H2713596,42Y2321893,33Y2321872,224. 结论为了理解生物现象，人们对DNA序列中的复杂结构进行了许多研究。不同的信号处理算法已被采用，以达到这一目标。然而，很少有工作已经解决helitron DNA分析的信号处理的框架。识别和分类helitron家族的主要困难来自于每个helitron类型的复杂结构、不确定的长度和不平衡的出现数量。本文的目的是表征和分类helitron类型的机器学习方法的基础上。在这项研究中，新颖性包括基于从信号（数字序列）中提取的特征对不同的DNA序列进行分类，这些信号来自应用于DNA序列的新编码技术：频率混沌游戏信号。FCGS的不同顺序（包括将出现值的频率分配给每个DNA字母组）被用作编码技术。此后，从FCGS信号中提取特征向量。这些helitron特征是基于DNA序列中N个核苷酸对的频率幻影数。在这个意义上，SVM被选为分类器技术，以确定秀丽隐杆线虫基因组中的helitron类。该模型已经使用100倍蒙特卡罗交叉验证进行了训练和测试，其中数据集分为80%的训练和20%的测试。4.1.1. 基于FCGSN编码在本小节中，我们考虑基于FCGSN、N 1/4 2、3、4、6的helitron类型的分类。编码应用于染色体I。这里采用的特征与前一个相同所得结果示于表6中。第一列包含helitron类。在第二列中，我们找到了训练直升机的数量第三列表示测试直升机的数量最后一列提供准确率。在这部分工作中，我们改变了FCGS顺序，并考虑了最佳结果;显示最高准确率的最明显的helitron是：● 直升机Y1A● 直升机2● 直升机Y2HelitronY1A的准确率为100%，FCGS为3阶。第二个高度预测的Helitron是Helitron 2。其准确率等于96.42%，这是FCGS6所达到的最高准确率。第三高的预测helitron是HelitronsY2，其速率在FCGS4中达到峰值，准确度高达93.33%。这些结果表明，当改变FCGS阶数时，我们可以更好地表征某些helitron，从而提高其分类的准确率。在SVM分类器中，使用高斯核函数和One-反对一种方法与LIBSVM库，我们区分不同的特定类型的helitrons。事实上，HelitronYA 1在特定FCGS订单（FCGS3）中的识别准确率为100%。似乎其他值得注意的helitrons，如N2，N3，Y2和Y4，预测的准确率很有趣。尽管如此，我们可以看到一些Helitron家族之间的巨大混淆，它们是：H1与Y1，N1与N3，Y1A与Y1，Y4与Y1，以及Y3与H2。在此，在不知道DNA序列组成的情况下，这些helitron类型之间产生的相似性确认了DFAM数据库中的现有关系结果，其基于DNA序列的核苷酸组成。分类结果表明，基于特征对应不同顺序的FCGS编码技术对应的DNA序列在Helitron识别方面是非常有效的。在这项工作中，所提出的方法是基于核苷酸频率幻影数，并可以用于分类其他类型的DNA序列，并可以解决计算生物学中的问题。附录A. 补充数据本文的补充数据可在https：//doi网站上找到。org/10.1016/j.imu.2019.100271。R. Touati等人医学信息学解锁18（2020）1002719引用[1] 弗拉基米尔·N·瓦普尼克统计学习理论概述。IEEE Trans NeuralNetw 1999;10（5）：988-99.[2] 李文，李文，等.基于支持向量机的多模态身份验证方法研究.北京：计算机科学出版社，2000年7月. THB3-3。[3] Vapnik V.统计学习理论的本质。Springer Science&BusinessMedia; 2013.[4] Shawe-TaylorJ，Bartlett PL，Williamson RC，等.数据依赖层次结构上的结构风险最小化。IEEE transInf Theory1998;44（5）：1926-40.[5] 作者：Tolle KM，Chen H.通过将神经网络应用于药代动力学数据集来估计药物/血浆浓度水平。 Decis Support Syst 2000;30（2）：139-52.[6] Furey TS，Cristianini N，Duffy N，Bednarski DW等，使用微阵列表达数据对癌症组织样本进行支持向量机分类和验证。生物信息学2000;16（10）：906-14.[7] KumarManish，Gromiha M，等. 利用结合残基和进化信息预测RNA结合蛋白。 J Mol Recognit 2011;24（2）：303-13.[8] Kumar M，Gromiha M，et al. Prediction of RNA binding sites in a protein usingSVMand PSSM profile.蛋白质，结构，功能生物信息学2008;71（1）：189-94.[9] O€ zE，KayaH. 支持向量机用于DNA测序的质量控制。J Inequalities Appl2013;（1）：1[10] Touati R，Oueslati AE，Messaoudi I，Lachiri Z.基于傅立叶变换特征的支持向量机Helitron家族分类应用于非平衡数据集。医学生物工程计算2019：1-16。[11] Macgregor RB，Poon GM. DNA双螺旋X50年。计算机生物化学2003;27（4）：461-7.[12] Rechenmann F，Gautier C.解读基因组。La recherche 2000;（332）：39-45.[13] 吴伟杰，陈伟杰，陈伟杰. 基于模型的Helitron识别结果在拟南芥中的一个新的分类的家庭。Gene 2007;403（1）：18-28.[14] 吴伟杰，陈伟杰，陈伟杰. 基于模型的Helitron识别结果在拟南芥中的一个新的分类的家庭。Gene 2007; 403（1-2）：18-28.https://doi.org/10.1016/j.gene.2007.06.030网站。[15] Mun~oz-LopezM，García-PéerezJL. DNA转座子的性质及应用基因组学Curr Genom2010;11（2）：115-28.[16] 作者：J. 真核生物中的转座子。在：美国国家科学院院刊，卷。98; 2001年。p. 8714-9 十五岁[17] 王文，王文，等.玉米和水稻非自主helitron元件的比较计算分析.北京：中国农业出版社，2001. BMC Genomics 2008;9（1）：467.[18] Du C，CaronnaJ，He L，et al.玉米基因组中Helitron转座子的计算预测和分子确认。BMC Genomics2008;9（1）：1.[19] 埃德加RC。MUSCLE：高精度、高通量的多序列比对。核酸研究2004;32（5）：1792-7.[20] Xiong W，He L，LaiJ，et al. HelitronScanner uncovers a large ignored cacheofHelitron transposons in many plant genomes. Proc Natl Acad Sci 2014;111（28）：10263-8.[21] 杨L，Bennetzen JL.“基于结构的发现和描述植物和动物Helitrons。 ProcNatl Acad Sci 2009;106（31）：12832-7.[22] 作者：J. E，J. H.真核生物基因组转座因子注释路线图。Mob Genet Elem：Protoc.基因组Appl. 2012年：53-68。[23] 作者声明：H.发现和检测基因组序列中的转座因子。简报Bioinf2007;8（6）：382-92.[24] JurkaJ，Kapitonov VV，Pavlicek A，等. Repbase更新，真核生物重复元件数据库。Cytogene

下载后可阅读完整内容，剩余1页未读，立即下载