没有合适的资源?快使用搜索试试~ 我知道了~
SoftwareX 11(2020)100470原始软件出版物Symbolic Information Flow Measurement(SIFM):一个使用符号分析来测量信息流的软件。Dhurata Nebiu,Hiqmet Kamberaj国际巴尔干大学,计算机工程系,Makedonsko-Rovska Brigada BB 1000,斯科普里,北马其顿共和国ar t i cl e i nf o文章历史记录:接收日期2019年9月27日接收日期2020年4月1日接受日期2020年4月1日保留字:嵌入参数符号传递熵符号局部传递熵符号互信息a b st ra ct符号信息流测量软件用于使用符号传递熵计算动力系统的不同组件或不同动力系统之间的信息流。时间序列表示动力系统的时间演化轨迹我们介绍了一种方法来执行符号分析的时间序列的基础上粗粒度使用机器学习方法和嵌入参数的计算。信息流是衡量的本地和平均符号传递熵。我们还介绍了一种新的基于符号分析的互信息测度。©2020作者由爱思唯尔公司出版这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)中找到。软件元数据当前软件版本1.0此版本可执行文件的永久链接https://github.com/kamberaj/sifmv1/tree/master/exec/gnu法律软件许可证GPL 3计算平台/操作系统Linux,OS X,Microsoft Windows,类Unix安装要求依赖项MPI库、Fortran 90编译器和Python 2.7如果可用,用户手册链接-如果正式出版,请在参考列表https://github.com/kamberaj/sifmv1/tree/master/documentation问题支持电子邮件h. gmail.com代码元数据当前代码版本V1.0此代码版本使用的代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX_2019_301法律代码许可证GPL 3代码版本控制系统使用Git软件代码语言采用Fortran 90编译要求,操作环境依赖性MPI,gfortran如果可用,链接到开发人员文档/手册https://github.com/kamberaj/sifmv1/tree/master/documentation问题支持电子邮件h. gmail.com1. 介绍通常,我们需要确定同一系统或耦合系统的部分之间的因果方向,以了解系统动力学并估计其实际物理结构。该过程包括观察系统,将其行为记录为相空间中的轨迹,或所谓的*通讯作者。电子邮件地址:h.kamberaj@ gmail.com(H. Kamberaj)。https://doi.org/10.1016/j.softx.2020.100470信号的时间序列并分析它们。皮尔逊相关系数[1]并不意味着因果关系,而且,它只检测 线性相关性。此外,它对垂直方向的波动不敏感,而只对沿共线方向分布的波动敏感[2]。格兰杰因果关系[3]根据一个随机变量X在预测另一个随机变量Y中的贡献来确定相互作用的方向,并且提出了这个概念的信息论的转移熵度量量化了随时间演化的两个过程之间的统计一致性2352-7110/©2020作者。 由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表SoftwareX期刊主页:www.elsevier.com/locate/softx2D. Nebiu和H. Kamberaj / SoftwareX 11(2020)100470=−=+−∑C=C=∑=∥ˆ ˆ∥=−()=−−=K−K+101D满足Kraft不等式[19]:kD−mk≤1,其中K12M1ˆyC-Y转移熵(TE)是Schreiber [4]引入的,它是对信息目的地X的状态转移与信息源Y的前一个状态的独立性的描述。TE是动态变量之间的信息流的不对称度量,动态变量表示不同的是笛卡尔空间中的轨迹q(t),并且编码器的输出信号(其是解码器的输入信号)表示慢集体变量X(t)。输入信号使用笛卡尔空间向量[12]重建:T−1−τ动态系统的组件或不同的动态系统。TE可以区分表征物理系统实际动态行为x(t) q(t)1T−τ∑k=0q(k)tem(源)和响应变化的另一个宏变量(汇)[4]。计算TE是一个具有挑战性的问题,由于其计算,y(t) q(tτ)1T−τT−1−τk=0q(k+τ)(5)复杂性。建议了不同的数值配方[5]。TE已用于多个领域的时间序列分析:协方差矩阵构造为:T−1−τ临床脑电图[4,6,7],财务数据[8]和生物物理学[2]。用于计算TE的许多算法都存在统计误差,并且传递熵的可靠估计是数据密集型的[2]。本研究提出了一种计算机程序,用Fortran 90编程语言编写,用于执行符号信息11T−τ12T−τ∑t=0T−1−τt=0时x(t)x ′(t)y(t)y′(t)(6)流量测量信号x(t)和y(t)都被白化为:2. 使用符号分析的xt=-(t)C2x()12.1. 使用机器学习分析集体变量1(t)=22(t)(7)动态变量,表征系统的组成部分,TEM或不同的动力系统,代表系统的集体自由度。它们通常使用主成分分析(PCA)[9]来确定,对于生物分子[10,这两个信号分别是encoder–decoder algorithm, which defines the non-linear func-tionsT−1−τ11]。我们引入了一种新算法,该算法是自动编码器机器学习(ML)方法[12]的改进,用于从高维数据中确定集体变量。SminE、D∑t=0y(t)−D(E(x(t)2(8)ML预测系统的属性使用决策al-出租ms,基于表征这些属性的一些预定义特征在数据挖掘过程中,不同的ML方法被用来预测丢失的数据并发现新的模式[13]。人工神经网络方法考虑大型训练数据集来构建系统,该系统由用于通过ML过程识别训练数据内的模式的规则组成[14]。转置向量Q′表示T 动态时间框架变量:Q ′(q(0),q(1),. . . ,q(T1)), 哪里 q(t)表示-给出了g自由度系统(或其部件)在t处的构形:q(t)q1(t),q2(t),. . .,q g(t).这就形成了系统所访问的平稳随机过程的状态的马尔可夫链。为了找到压缩数据的降维g′维空间(g′g),确定编码函数[12]:0,则剩余i驱动j,否则j驱动i。下一个测试系统是一个复杂的生物分子系统,代表蛋白质-RNA相互作用。蛋白质由88个氨基酸组成,RNA由6个碱基组成我们进行15 ns的复合物的分子动力学模拟。第一x(t)=A11x(t−δ)+A12N(0, 1)y(t)=A21x(t−δ)+A22N(0, 1)(二十三)5 ns被认为是平衡,只有最后10 ns用于计算。我们每隔一段时间由方程式 A11、A12、A21和A22是常数,N(0, 1)是服从均值为零、方差为1的正态分布的随机数。A21是X和Y之间的耦合强度,A22是Y上的外部噪声强度。δ是1。图图6(A)示出了符号传递熵与耦合强度A21的关系。图6(A)还示出了其他参数的值。基准2对应于C2-Fc复合物生物分子,其中C2是蛋白G的片段,Fc是人IgG蛋白的结构域。C2片段由56个氨基酸组成,Fc由206个氨基酸组成。我们进行了30 ns的分子动力学模拟。前10 ns从分析中省略,仅最后20 ns用于计算。 我们每两个ps打印一次配置,因此总共使用了10000个快照进行分析。图6(C)示出了作为C2和Fc之间的颜色图的方向符号转移熵Di,j。时间序列X和X之间的方向符号转移熵Y的计算公式为:DXY TXY TYX。值的比例以绘制在图形旁边的颜色条显示我们的结果确定了驱动(源),其特征在于一个正值的Di→j和保存了两个PS,因此保存了5000个快照 图 6(B)介绍蛋白质和RNA之间的方向符号传递熵。我们可以识别驱动波动运动的残留物我们鉴定了充当变化源的不同残基簇:第一簇包括具有从1到2的索引的残基,并且第二簇由具有从7到7的索引的残基组成。12.还存在其他三个驱动碱基1和2运动的小基团,例如由36和40之间、65和69之间的残基组成的簇,并且这包括75和87之间的残基。5. 影响影响包括使用SIFM作为工具包,用于测量动态系统上的信息流,例如,在耦合动态系统之间(基准1)或同一动态系统的各个组件之间(基准2)。SIFM使用ML工具将系统的完整动态编码到低维空间,并使用嵌入式参数技术重建原始系统的动态{10D. Nebiu和H. Kamberaj / SoftwareX 11(2020)100470从计算的角度来看,使工具包健壮。此外,符号数据分析方法的使用提供了对信息流测量的鲁棒且准确的估计。此外,我们相信,SIFM可以用来关联transfer熵与复杂的生物分子系统的界面处的能量转移,如在参考文献。[14、29]。因此,我们能够表征与生物过程相关的界面处的热导率,使得能够在计算机上合理地肽/蛋白质生物分子界面的工程技术。6. 结论本文提出了一种新的计算机程序,用于动力系统随机过程时间序列的符号分析此外,该程序还可以计算符号传递熵、互信息和局部传递熵。该程序在实现过程中增加了可移植性、可调节的计算精度、有效的内存管理、实用的数据管理系统和并行计算等功能。使用MPI协议进行推测。竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作引用[1]Rice J.数理统计与数据分析。第2版Belmont:DuxburyPress,1995.[2]范德法特·坎贝拉伊·H.从分子中提取相关运动的因果关系。Biophys J2009;97:1747-55.[3]Granger J.通过计量经济学模型和交叉谱方法调查因果关系。Acta Phys PolonB1969;37:424-38.[4]施赖伯河衡量信息传递。物理学评论快报2000;85:461[5]Gencaga D,Knuth KH,Rossow WB.动态系统中信息流的估计方法。Entropy2015;17:438-70.[6]Gourévitch B,Eggermont J.评估听觉皮层神经元之间的信息传递。神经生理学杂志2007;97:2533-43。[7]Staniek M,Lehnertz K.符号传递熵。100.第100章:我的天158101。[8]Marschinski R,Kantz H.分析金融时间序列之间的信息流。Eur Phys J B2002;30:275[9]卡胡宁湾我们的路线是在wahrscheinlichkeitsrechnung方法。 AnnAcad SciFenn A1 1947;37:1-79.[10]杨文辉,李文辉,李文辉.主成分分析与长时间蛋白质动力学。物理化学杂志1996;100(7):2567-72.[11]坎贝拉伊湾蛋白质集体运动的主成分分析理论模型。Open Phys2011;9(1):96-109.[12]Wehmeyer C,Noe F.时滞自动编码器:分子动力学缓慢集体变量的深度学习。J Chem Phys 2018;148:241703-9 .第九条。[13]McCulloch W,Pitts W.对神经活动中固有的思想的逻辑演算。Bull MathBiophys1943;5(4):115-33.[14]坎贝拉伊湾统计物理中的分子动力学模拟:理论与应用。第1版施普林格; 2020年。[15]Bossomaier T,Barnett L,Harré M,Lizier JT.复杂系统传递熵信息流导论 。Springer; 2016.[16]Grassberger P,Procaccia I.测量奇异吸引子的奇异性。Physica D1983;9(1-2):189-208.[17]Lizier Joseph T,Prokopenko Mikhail,Zomaya Albert Y.局部信息传递作为复杂系统时空滤波器。物理修订版E2008;77(026110)。[18]放大图片作者:J.嵌入学J Stat Phys 1991;65:579[19]封面托马斯M,托马斯乔伊A。信息论的基本原理。新泽西州,霍博肯:约翰威利&父子公司; 2006年。[20]Bonanno C,Mega M.素数的动力学模型。混沌孤子分形2004;20:107-18.[21]Lizier J. JIDT:用于研究复杂系统动力学的信息理论工具包。Front Robot AI2014;1:11.[22]放大图片作者:Moore D,Valentini G,Walker S,Levin M. Inform :AToolkit for Information-Theoretical Analysis of Complex Systems. IEEESymposium Series onComputational Intelligence(SSCI)2017年。[23]放 大 图 片 作 者 : John D. Inform : Efficient information theoreticanalysisofcollective behaviors. 前机器人AI 2018;5:17.[24]Cellucci C,Albano A,Rapp P.嵌入方法的比较研究。Phys Rev E2003;67:066210-3.[25]Kennel M,Brown R,Abarbanel H.利用几何构造确定相空间重构的嵌入维数。Phys Rev A1992;45:3403-11.[26]Abarbanel H,Kennel M.从观测到的混沌数据得到的局部伪最近邻和动力学维数。物理学评论E1993;47:3057-68。[27]诺克斯湖Takens嵌入定理《国际混沌应用科 学 与 工 程 杂 志 》 1991;1:867-72.[28]Cellucci C,Albano A,Rapp P.互信息计算的统计验证:替代数值算法的比较。物理修订版E2005;71(066208-14)。[29]放大图片作者:Leitner D,Pandey H.生物分子系统中跨界面的能量传输。JPhys Chem B2019;123:9507-24.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功