没有合适的资源?快使用搜索试试~ 我知道了~
MICA:基于多个间隔的曲线对齐
*SoftwareX 7(2018)53原始软件出版物MICA:基于多个间隔的曲线对齐Martin Manna,b,*,Hans-Peter Kahlea,Matthias Beckb,Bela Johannes Bendera,Heinrich Spieckera,Rolf Backofenb,c,da森林生长和树木生态学主席,弗赖堡大学,Tennenbacher街。4,79106 Freiburg,Germanyb生物信息学小组,计算机科学系,弗赖堡大学,Georges-Köhler-Allee 106,79110 Freiburg,Germanyc生物信号研究中心,弗莱堡大学,Schänzlestr。18,79104 Freiburg,Germanyd生物系统分析中心,弗莱堡大学,Habsburgerstr. 49,79104 Freiburg,Germanyar t i cl e i nf o文章历史记录:2017年7月14日收到2018年2月15日收到修订版,2018年保留字:曲线对齐地标配准全局对齐渐进对齐a b st ra ctMICA可实现离散数据曲线的自动同步为此,识别曲线形状的特征点这些标志在启发式曲线配准方法中使用,以通过将相似特征映射到彼此上来对齐轮廓对与渐进式路线方案结合使用时,可以计算多条曲线路线。需要多个曲线对齐来导出测量时间或数据序列的有意义的代表性共识数据。MICA已经成功地应用于根据年内木材密度分布或细胞形成数据生成树木生长数据MICA包提供了命令行和图形用户界面。R接口支持将多条曲线对齐计算直接嵌入到更大的分析管道中。源代码、二进制文件和文档可在https://github.com/BackofenLab/MICA上免费获得版权所有©2018作者.由爱思唯尔公司出版这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)中找到。代码元数据当前代码版本2.0.1此代码版本使用的代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX-D-17-00055法律代码许可证MIT代码版本控制系统使用git软件代码语言使用Java、R编译要求,操作环境依赖性Java,R如果可用,链接到开发人员文档/手册https://github.com/BackofenLab/MICA问题支持电子邮件https://github.com/BackofenLab/MICA/issues软件元数据当前软件版本2.0.1此版本可执行文件的永久链接https://github.com/BackofenLab/MICA/releases法律软件许可证MIT计算平台/操作系统Linux,OS X,Microsoft Windows,类Unix安装要求依赖关系Java 8如果可用,用户手册链接-如果正式出版,请在参考列表https://github.com/BackofenLab/MICA通讯作者:生物信息学组,计算机科学系,弗赖堡大学,Georges-Köhler-Allee106,79110 Freiburg,Germany。电子邮件地址:mmann@informatik.uni-freiburg.de(M. Mann),hans-peter. iww.uni-freiburg.de(H.- P. Kahle),instww@uni-freiburg.de(H.Spiecker),backofen@informatik.uni-freiburg.de(R. Backofen)。https://doi.org/10.1016/j.softx.2018.02.0031. 背景生物数据通常以以下形式导出和表示:时间序列、曲线或剖面。为了实现泛化,多个测量或不同实例的数据必须被聚集以导出例如:统计或提取常见的曲线形状。如果数据点之间有明确的对应关系, 服务器租用-美国服务租用然而,在许多情况下,2352-7110/©2018作者。由爱思唯尔公司出版这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表SoftwareX期刊主页:www.elsevier.com/locate/softx54M. Mann等/SoftwareX 7(2018)53(())→=-∈ []=-⋃∑:::=B∈ [][客户端]产品规格:≤ +∈≤=−− +B:[] × [] → []′111≤l≤knX1)的所有曲线。Successfully,the未知或仅部分可用。这里,需要对准或时间配准技术,以便映射相应的数据。这种所谓的曲线配准问题[1],也称为时间规整[2]或曲线对齐,在生物研究中有许多应用,如基因表达谱[3,4],生长数据[5],木材解剖[6,7]或医学传感[8,9]的研究,仅举几例。在这里,我们提出了MICA-MICA将使用标志配准方法[10,11]的启发式成对曲线对齐策略与渐进对齐方案[12,13]相结合,以生成多曲线对齐。为此,重要的曲线特征,如最佳点和拐点,自动识别,过滤和调整曲线间隔。MICA已经成功地应用于研究天气数据和木材密度分布之间的相关性[6],并暂时注释木材解剖数据[7]。它带有一个用于交互使用的图形用户界面,一个用于高通量应用的命令行界面和一个用于将曲线对齐嵌入下游分析的R界面维护他们的秩序。这样的移位可以通过映射整个x范围内的每个x坐标的单射扭曲函数a(X1)X1,Xn来编码为了保持坐标顺序,a必须严格单调,即。 X i < X ja ( Xi ) x标识的封闭坐标之间的线性插值导出。应用线性插值,因为它(i)计算速度快,并且(ii)保留曲线数据的最小/最大特性。类似地定义函数s(x,C)以提供内插斜率值,即,曲线的一阶导数。由于我们使用的是线性插值,因此斜率值由连接X的显式数据点的直线的斜率定义。因此,如果在对齐期间改变x坐标,则斜率值也改变并且必须更新。插值函数y和s都是由Apachecommons.math3包中的LinearInterpolator类实现的。给定两条曲线C,C′,我们定义全局基于斜率的距离函数ds(C,C′),计算绝对值的算术平均值在两个轮廓的整个x范围内b> 0等距x坐标的斜率差,即,d s(C,C ′)= b−1∑|s(X + jδ,C)− s(X ′ + jδ′,C ′)|(一个)为了减少曲线对齐的计算成本,一种方法是约束所考虑的翘曲函数为此,可以参考基于地标的曲线对准,也称为曲线或地标配准[10,11]。一般的想法是识别标记曲线的重要或不同特征的曲线坐标的子集,并且仅找到这些界标的最佳映射/对准,其中对准的界 标 被 移 位 到 相 同 的 x 坐 标 。 所 有 其 他 坐 标 , 然 后 转 移accordingly通过线性插值,以保持严格的单调性的翘曲函数。由于该方法仅对准界标的(小的)子集,因此搜索空间被强烈地减少到可识别界标的组合子空间为了编码曲线的坐标是否注释值L i编码C的第i个坐标是否是可以对齐的界标(L i > 0)或不(L i 0)。值本身对地标注意,由于我们进行全局对齐,因此开始和结束坐标总是对齐的,因此它保持L1,Ln>0。为了简化演示,并且由于我们对全局曲线对齐感兴趣,我们在下面假设所有输入曲线显示相同的x范围。 给定k条曲线C1,. . . ,Ck,这可以是通过如下简单的预处理完成首先是平均开始1≤j≤b坐标x<$1=k−1∑Xl和平均总x范围r<$=其中δ=(Xn−X1)/(b+1)和δ′类似。k−1∑(Xl −l1≤l≤k1类似地定义基于y注意,基于斜率的距离度量对一般移位是不变的y坐标例如, 由于测量问题。因此基于斜率的距离函数,(1)适用于下列情况。为了校正x坐标偏移或对齐相应的数据点,我们必须偏移曲线C的x坐标X,从每条曲线的X计算归一化的x坐标X关于Xr(X iX1)/(X nX1)x1.图中提供了一个说明。 1a+b。给定两条曲线C,C′,分别具有n,n′坐标,地标对准A1,n1,n′X1,X n 是一个部分内射函数,它将坐标索引对(i,i)映射到它们对齐的x坐标(假设归一化的x范围)。注意,只有地标M. Mann等/SoftwareX 7(2018)5355∈→∧(())→--∈PP={}= {}联系我们左=∈I.E. 映射′=∧̸=∀̸=∈:→∧∀̸= ∈ :3.1. PICA工作流程Fig. 1. PICA工作流程的描述,用于对齐两条曲线(橙色/蓝色)并导出相应的共识配置文件(黑色)。为了简化演示,仅显示由可缩放标志(垂直刻度)定义的间隔的x范围(橙色/蓝色双箭头在这里,我们假设所有地标都是相同类型的,并且可以被映射。(a)输入是两条长度/x范围以及标志数量可能不同的曲线。(b)最初,对齐曲线的开始和结束(灰色虚线条),并通过线性插值调整x坐标。(c)对于每对可标测的地标,计算相应的对齐,将对齐的地标移动到其平均x坐标(绿色条),并将曲线线性内插到下一对对齐的地标(灰色虚线条)和相应的距离改变的曲线计算。(d)来自(c)的最佳比对是固定的(灰色虚线条),这将问题分解为两个独立的问题(最后一个固定的左侧和右侧直到下一个比对对)。对于每个子问题,应用(c+d),直到没有地标对可以被映射或者对齐不降低曲线的距离。(e)给定(d)作为最终比对,编辑共识曲线(黑色)。它包含来自(d)的对准中的曲线之一中存在的每个的一个坐标,其中y坐标被导出为两条曲线的相应平均值。(For对于图中颜色的解释,请读者参考本文的网络版本。)位置被映射,即,((i, i′),x)A (Li>0L′i′> 0).因此,对齐的标志必须是兼容的,例如。确保曲线最大值被映射到最大值而不是最小值。最后,每个地标只能映射一次,即。( (i,i′),x)((j,j′),x′)A(i j i′j′),并且必须对地标对齐进行排序和单调,即,((i, i′),x)((j,j′),x′)A(ij ij′)(i<<A(i,i′)如果<$((i,i′),x)∈A,鉴于此,我们将全局基于地标的成对曲线对齐问题定义为具有相应注释L、L′的两个给定曲线C、C ′的地标对齐A的识别,其最小化给定的全局曲线距离函数d,即,argmin d(a A(X),Y),a′A(X ′),Y ′.(六)一注意,由于我们约束了所考虑的扭曲函数,因此等式(6)通常只能找到方程的次优解。(二)、基于全局标志的多曲线对齐问题的定义类似于全局多曲线对齐问题。3. 算法及实现MICA是定制的,以对齐离散曲线数据的多个配置文件它假设起点/终点是对应的,因此可以对齐,即。对准是全局进行的,并且考虑整个曲线。通过进行全局对齐,我们遵循所有曲线共享类似图案或形状的想法这意味着所有的曲线基本上都是基于相同的,例如,生长曲线和差异主要是失真,因为由于噪声、测量问题、双折射性等,曲线可以在信号强度(幅度)、特征和空间/时间分配(x轴)方面变化。曲线可以仅作为y数据(假设等距距离的数据点)或具有明确的坐标数据来提供。作为一个例子,我们可以使用在树干横截面(圆盘)上测量的一年内木材密度剖面,从树的髓到树皮沿着不同的径向方向[6,14]。每个曲线都是基于相同的生长条件通过生长过程生成的,所述生长条件例如由主要的天气条件确定然而,形成层组织在同一株树的同一高度上,即使沿周向也表现出不同的生长活性。这表现在测量数据内的多方面差异和重复性,这使得即使对于单个生长期的子谱,也不可能通过算术平均值生成每棵树的代表性共有谱[6]。在这里,MICA提供了一个解决这个问题的方案MICA 应 用 基 于 启 发 式 的 基 于 成 对 间 隔 的 曲 线 对 齐 策 略(PICA)的渐进式对齐方案,如下详述。如从序列比对[12]已知的,渐进方案基于成对比对(PICA)迭代地评估已经比对的曲线然后,成对对齐信息也用于将曲线合并为联合对齐。为了简化演示,我们假设所有输入曲线C1,. . . ,C k被归一化到如上所述的公共x范围,即,它们的开始和结束x坐标是相同的。此外,我们将输入曲线集划分为单例集,每个单例集只包含一条输入曲线。这些初始曲线集由P1,. . .,P k与P iC i .代表曲线集P的一致性轮廓由P′表示。云母将使用这些共识来迭代地对齐和融合相应对齐的曲线集。A我一左(Xi−Xl)(xright−xleft)(Xr−Xl)基于成对间隔的曲线对齐-其中larg max(j,j′),x)A)和xA1≤ji且r=arg max(n((j,j′),x)∈A)且xA=A((l,l′))=A((r,r′))提出了一种基于全局标志点的两两曲线对齐问题的贪婪启发式算法也就是说,给定两组对齐的曲线P,P′∈P和它们各自的一致轮廓i j≤ n权P′,P′与相应的界标注释L,L′,PICA识别一个而a′A(X)的定义类似于等式(1)。(五)、一致性概况的界标对齐A,其优化了a(十=一一(五56M. Mann等/SoftwareX 7(2018)53={个[] × []参与者=P<$∈P--′∈P(() ())(() ())∈ ∈P1××、| | |+的|||m,mm′,m′= A((i,i),x)=|P|+的|P ′|.(八)具有过滤的界标注释的情况下,为P* 计算。P给定曲线距离函数d,(六)、W.l.o.g.,我们假设d是来自等式2的基于斜率的距离函数(一).为了检查要对齐的共识的两个坐标是否是地标并且可以被映射(例如,最大值上的最大值,不是最小值),我们引入关系comp 1,n1,n′,其中n,n′分别是P<$,P<$′中的坐标数。关系comp包含兼容的正界标分配的所有组合一个最简单的关系是基于同一性的,即。(i, i′)comp(Li>0LiL′i).有鉴于此,我们可以勾勒出遵循以下流程的PICA工作流程:贪 婪 分 而 治 之 的 对 齐 策 略 。 首先, 我 们 初 始 化 界 标 对 齐 A(1,1,),(n,n′),即,我们绘制了每项共识的起点和终点。这提供了最初的兼容地标的搜索间隔边界定义如下要被考虑用于通过对准的进一步分解的间隔、对准的界标的最大允许的x移位、以及限制由界标对准引起的失真的最大间隔长度扭曲3.2. MICA工作流程给定PICA工作流程,针对表示输入曲线Cl、. . . 、C k或已经对齐的子集。首先,为每个曲线集P计算一致性轮廓P′。这用地标信息L自动注释,并根据用户给定的约束进行过滤。这样的约束是最小化的最大值/最小值的最小相对y距离(到<<>> >减少数据中的噪声并专注于主导最优值)或M1m′,mn和m′n′。鉴于此,我们搜索在开放间隔(不包括边界)内的一对兼容界标,当映射到它们的平均x坐标(由consensi表示的曲线的数量加权)时,该对兼容界标使距离函数最小化,即,拐点的最小相对斜率。接下来,两条曲线 识别出显示最小PICA 距离dPICA(P,P)的集合P,P ′,即,arg mindPICA(P,P′),(10)P, P′∈Parg min(ii′)∈(>)×(>)d((aA(X<$),Y<$),(a′A(X<$′),Y<$′))(7)其中dPICA(P, P′)类似于根据PICA产生的最佳地标对准最后,两个曲线(i,i′)∈comp{∗|P|X¯i+|P′|X′i′′集合从P中移除,并由相应的PICA对齐曲线集合P** 替换。此外,根据共识概况,注意,等式中的平均坐标x (8)需要减少渐进对齐策略的副作用e.G. 当将单个曲线与一组多个曲线对齐时。如果当前间隔内的最佳界标对(i, i′)通过Eq.(7)与没有进一步对准相比提供了更好的对准,即,daA(X<$),Y<$,a′A(X<$′),Y<$′daA(X<$),Y<$,a′A(X<$′),Y<$′ ,我们修正该对准决策,并用来自等式(1)的扩展对准A替换当前界标对准A(八)、这固定将对准问题分解为两个独立的子问题,即,对准的界标对(i, i′)的左侧和右侧因此,我们重申-为新的子间隔重复所述PICA工作流程草图重复此过程,直到是单例。 曲线P则反映了输入的最终对齐曲线C,. . . 、Ck和被提供为MICA的输出。除了草图MICA工作流程(执行无引导对齐)之外,MICA还支持根据选定的参考轮廓对齐与所描绘的工作流程相反,参考的X坐标在PICA对准期间不被改变并且保持静态因此,只有剩余轮廓的数据点被移位。技术上来说,这只会改变移位/对齐的x值x的计算(等式10)(8),其中现在区分参考轮廓是否由曲线之一如果是,则将x设置为相应的原始值;否则使用给定的等式。这样的对准模式在以下情况下是重要的:外推注释有助于-能够将单个轮廓转换为其他相关曲线[7]。<<>> >组合(m,i)(m′,i′)和(i,m)(i′,m′),其被示出图 1 c+d。请注意,PICA工作流程不一定映射所有可用的标志,这是必不可少的,因为通常要对齐的曲线具有不同数量的标志。然后使用所得到的最终界标对准A来对准并合并两个曲线集P和P′成新的曲线集P′,这是PICA的最终输出为此,我们为每条曲线添加C=(X,Y)∈P是到P的一条弯曲曲线(X,Y),其中Xi=aA(X<$,Y<$)j,其中X<$j=Xi。(九)也就是说,我们为C的每个坐标识别具有相等x坐标的相应的一致性数据,并且用基于A的对齐值替换x坐标。对P′曲线进行了处理类似地,它保持P<$P′。请注意,每个测试的单个界标对移动曲线坐标(在当前搜索间隔内),从而改变相应的斜率值。由于我们正在优化基于斜率的距离(等式2)。因此,我们不能预先计算或重新使用来自先前计算步骤的距离数据。这就禁止了动态规划方法的应用,例如在dtw包[15]中使用,以找到问题的最佳解决方案,但可以通过PICA中使用的引入的启发式分治优化策略来解决。PICA支持各种约束,以进一步指导对齐过程。其中包括最小长度/x范围3.3. 实现细节MICA的实现基于Java 8和Apache Commons Math和Lang以及JOpt Simple等已建立的库。核心算法和实用程序类的广泛单元测试通过JUnit设置。该体系结构遵循严格分离的算法类和不同的应用程序接口实现,使高层次的模块化和可维护性。4. 用户界面MICA提供不同的用户界面,以涵盖如何生成曲线对齐的不同4.1. 图形用户界面图形用户界面(GUI),如图所示。 2和实现在Java中,使交互式使用MICA。当从命令行加载时,可以根据命令行参数更改默认参数。GUI可以加载通用CSV格式的配置文件数据,从而可以设置不同的CSV格式参数,如分隔符等。输入轮廓直接可视化,并可使用标准缩放或拖动功能进行交互式在设置MICA参数并开始对准之后,GUI在第二个屏幕中自动更新对准,以启用比较。CQ与和xM. Mann等/SoftwareX 7(2018)5357图二. MICA将初始配置文件与其对齐版本进行比较。即时更新有助于检查不同滤波器和参数设置的效果。最终的比对数据可以CSV格式导出,以便进一步处理和分析。此外,输入和输出可视化的图像可以被导出。所有标志配准方法的共同点是,它们的性能在很大程度上取决于可用于对准的标志的正确识别和过滤虽然MICA支持各种约束来控制自动地标识别,但在可用的情况下,仍然可以通过专家知识来改进为此,GUI允许在自动MICA对准之前对曲线进行交互式预对准。手动选择的数据点对齐在下文中被视为与MICA本身对齐相同,即:它们为可能进一步分解的区间定义了边界。如果数据集包含与其他曲线差异很大的曲线,则此功能非常重要。在此,基于专家知识的手动对准可以指导这些离群值的正确对准GUI的另一个用例是手动调整参数和约束,以便随后自动化MICA应用程序对大量要对齐的数据集进行调整。也就是说,首先使用GUI在数据的子集上手动识别合适的参数,然后通过其命令行界面在MICA的高通量自动应用程序中用于所有数据集。详细的GUI文档在MICA的github页面上提供4.2. 命令行界面由于大量可用的生物数据,生物信息学分析通常是自动化的。为此,不同的工具和过滤器被组合到相应的管道中,例如。使用像Galaxy [16]这样的系统或通过简单的脚本。MICA还可以通过其命令行界面(CLI)嵌入到高吞吐量管道中。CLI可以设置所有MICA参数,包括界标滤波器。输入和输出(CSV格式)可以从文件中读取或写入文件,也可以使用相应的流。后者对于将临时输出直接输送到下游处理而不(延迟)生成临时文件特别有用。4.3. R接口另一个类似的用例是将MICA集成到基于R的分析中。R框架[17]是一个通用平台,可以对所有类型的数据进行半自动分析和调查MICA这MICA的计算要求最高的步骤在更高效的Java环境中完成,而分析和可视化可以在易于使用的R框架中完成[7]。简单的界面附带了一小套实用程序功能,用于数据预处理/后处理以及数据插值。相应的文档在github页面(参见可用性部分)或R接口源中提供。4.4. 相关套餐在R框架内,还可以使用其他曲线对齐方法fda软件包[19,20]提供了例如地标配准实现landmarkreg,其能够针对给定的地标集合实现多个曲线对准landmarkreg的主要缺点是必须提供界标(没有像MICA中那样的自动注释),并且对于每条曲线,要给出相同数量的界标(而MICA仅对齐合适的子集)。因此,如果要对齐的标志是未知的,软件包作者可以参考register.fd,这是一个连续的配准函数,也是fda不幸的是,register.fd函数需要一个模板配置文件来对齐所提供的曲线。如果未提供此类曲线,则将所有输入曲线的算术平均值曲线作为模板。如果输入曲线严重失真或偏移,这可能导致不良模板(不一定显示共同特征),例如, 木材密度数据的情况[6]。dtw包[15]将各种“动态时间扭曲”(DTW)算法加入DTW方法[1]试图找到两个给定轮廓的所有数据点的最佳映射。其中一个配置文件用作模板(数据点固定)。 优化是通过动态编程完成的,类似于标准序列比对,同时使用专用的评分函数(例如,无累计缺口成本等)[8、15]。由于dtw包是为基于参考的成对曲线对齐而定制的,因此它既不能轻松地用于多曲线对齐,也不能用于没有参考模板的对齐。后者本质上是这种情况,如果要通过多曲线比对来计算代表性共识概况(这将是理想模板)的鉴定[6]。Wang和Gasser [21]提出了一种基于DTW的迭代方法来计算共识配置文件,但没有可用的实现4.5. 成功应用在[6]中介绍了一种基于R的MICA方法的早期实施,并根据类似于上述数据的年度内木材密度分布的大型数据集进行了评估该研究调查了与初始曲线的非对齐简单平均轮廓推导相比,MICA应用的效果结果表明,MICA的应用显著降低了边坡的抽样误差所得的MICA共识概况很好地代表了输入曲线的共同特征,这些特征在未经比对的情况下聚合初始概况时通常会丢失。例如,由于相应的对准,观察到表示清晰的环境信号的更尖锐的MICA最近被用于[7]建立一个协议,以更好地了解生长季节木材形成的环境控制。本研究利用木材微芯取样和测树仪监测的木材发生数据,将木材解剖剖面的空间尺度转换为季节时间尺度。MICA对齐的空间注释和时间注释的配置文件的比较表明,MICA的贡献显着增加平均木材解剖特征的同步性。58M. Mann等/SoftwareX 7(2018)53此外,[7]中表明,MICA可用于推断信息。在这里,树木年轮发展的时间注释是基于实验现场数据,这只能收集到的几棵树,由于费力和昂贵的方法和耗时的样品制备所需的。然而,这些数据可以外推到其他树木样本(具有相似的生长特征)使用基于参考的比对模式的MICA。在对齐之后,参考曲线的时间注释可以被转移到新对齐的曲线。时间上的注释曲线和推导出的consen- sus配置文件最终允许详细了解如何在季节内干旱期间修改一年内木材形成动态和细胞解剖变量的树木年轮。5. 讨论和结论曲线对齐是为给定的一组数据生成代表性共识数据的中心步骤, 离散时间序列如果可以识别在待对准的曲线中共同的显著特征(界标),则可以使用界标配准方法。后者识别用于所识别的界标的最佳时间点(以及相应的间隔)映射。MICA实现了启发式地标配准方法结合渐进式对齐方案,以生成多个曲线对齐并根据代表性共识数据。与现有的实现相比,它自动识别给定滤波器设置的地标,并在没有预定义参考曲线的情况下生成对齐后者,即。固定参考是可用方法的常见先决条件。虽然不是强制性的,但也可以使用MICA进行基于参考的对齐。为了应对曲线对齐的不同数量的识别标志,MICA不强制对所提供的所有标志进行标测,而是识别一个子集标测,该子集标测可使曲线之间的斜率或幅度差异通常,如果仅识别很少且非常突出的特征并将其用于对准,则地标配准效果最好。因此,对数据进行预处理以平滑低幅度波动和其他噪声伪影,例如,由于测量精度,可以缓解对准问题,提高整体质量[6]。由于这种预处理是不平凡的,并且在很大程度上取决于手头的数据,因此MICA不提供任何平滑功能。自动处理数据集中的异常曲线也是当前MICA工具不具备的功能虽然使用MICA GUI将很容易帮助识别形状或其他曲线特征差异很大的曲线,但异常值将成为对齐的一部分,因此可能会降低对齐质量。github上提供了一个相应的异常值示例数据集一种策略可以是基于平均PICA分数简单地忽略与所有其他曲线最不相似的曲线这些信息可通过R接口获得,该接口提供指导渐进比对的成对距离表。另一种策略是研究离群值比对的指导树(融合顺序),这也可以通过R接口获得。为了进一步加快实施,我们目前正在投资-由于一旦被映射的界标分开,它们就表示独立的子问题,因此避免了单独的间隔此外,我们正在研究扭曲函数[10,11]的平滑是否对启发式对齐结果产生重大影响。到目前为止,MICA已成功应用于推导木材密度和细胞生长数据的代表性共识曲线[6,7]。它的图形用户界面允许特别使用,而它的命令行和R界面是为其在任意离散时间序列的数据处理管道6. 数据和材料MICA的源代码以及直接使用的预编译二进制文件可以在https://github.com/BackofenLab/MICA上免费获得。这里还提供了手册和R接口脚本确认这项工作得到了德国研究基金会(DFG)的支持,分别向HS和RB提供了赠款[SP-437/19]和[BA 2168/12],共同创作的HPK。文章处理费是由由德国研究基金会(DFG)和弗莱堡大学资助的开放获取出版计划。感谢D.F. Stangler对MICA和R. Schmitt关于注册方法的讨论。引用[1] Ramsay JO,Li X.曲线配准。J R Stat Soc Ser B Stat Methodol 1998;60(2):351-63. http://dx.doi.org/10.1111/1467-9868.00129网站。[2] Sakoe H,Chiba S.口语词识别的动态规划算法优化IEEE transacoust语音信号处理1978;26(1):43http://dx.doi.org/10.1109/TASSP.1978.1163055 网站。[3] Tang R,Müller H-G.基因表达轨迹的时间同步聚类。Biostatistics 2009;10(1):32. http://dx.doi.org/10.1093/biostatistics/kxn011.[4] Hermans F,Tsiporkova E.通过曲线对齐合并微阵列细胞同步化实验生物信息学2007;23(2):e64.http://dx.doi。org/10.1093/bioinformatics/btl320.[5] Sangalli LM , Secchi P , Vantini S, Vitelli V. 用 于 曲 线 聚 类 的 k 均 值 对 齐Comput Statistist Data Anal 2010;54 ( 5) : 1219-33. http://dx.doi的 网站 。org/10.1016/j.csda.2009.12.008。[6] Bender B,Mann M,Backofen R,Spiecker H.木材密度剖面的微结构排列:一种平衡生长速率径向差异的方法。树-结构函数2012;26(4):1267-74。http://dx.doi.org/10.1007/s00468-012-0702-y.[7] [10] 杨 文 辉 , 李 文 辉 . 亚 高 山 挪 威 云 杉 径 向 管 胞 直 径 剖 面 的 时 空 排 列 。Dendrochronologia 2016;37 : 33-45. http://dx.doi.org/10.1016/j.dendro.2015.一万二[8] 张文辉,张文辉,张文辉.用动态时间弯曲匹配不完整时间序列:一种算法及 其 在 脑 卒 中 后 康 复 中 的 应 用 Artif Intell Med 2009;45 ( 1 ) : 11http://dx.doi. 2008.11.007.[9] Boudaoud S,Rix H,Meste O.一组曲线的核心形状建模Comput StatististData Anal 2010;54(2):308-25. http://dx.doi.org/10.1016/j.csda.2009。八点零三分[10] Kneip A,Gasser T.用于分析代表曲线样本的数据的统计工具。Ann Statist1992;20(3):1266-305. http://dx.doi.org/10.1214/aos/1176348769。[11] Gasser T , Kneip A. 在 曲 线 样 本 中 搜 索 结 构 J Amer Statistist Assumption1995;90(432):1179http://dx.doi.org/10.1080/01621459.1995.1047www.example.com[12] Feng DF,Doolittle RF.渐进式序列比对是校正系统发育树的先决条件。J MolEvol 1987;25(4):351-60. http:dx.doi.org/10.1007/BF02603120。[13] 汤普森JD,希金斯DG,吉布森TJ。 CLUSTAL W:通过序列加权、位置特异性空位罚分和权重矩阵选择提高渐进式多序列比对的灵敏度。核酸研究1994;22(22):4673-80. http://dx.doi.org/10.1093/nar/22.22.4673网站。[14] Schinker MG,Hansen N,Spiecker H.高频密度测定法--快速测定木材密度变化的新方法。IAWAJ2003;24(3):231-9.http://dx.doi.org/10.1163/22941932-90001592网站。[15] 乔治诺在R中计算和可视化动态时间规整对齐:dtw包。统计软件杂志2009;31(1):1http://dx.doi.orgwww.example.com/10.18637/jss.v031.i07。[16] Afgan E,Baker D,van den Beek M,Blankenberg D,Bouvier D,Cech M等,用于可访问,可重现和协作生物医学分析的银河平台核酸研究2016;44(W1):W3。http:dx.doi.org/10.1093/nar/gkw343.[17] R 核 心 团 队 R : 统 计 计 算 的 语 言 和 环 境 奥地利维 也 纳 : R Foundation forStatistical Computing;2016。https://www.R-project。org/.[18] 乌尔班内克湾rJava:Low-Level R to Java Interface,R package version 0.9-8,2016.https://CRAN.R-project.org/package=rJava网站。[19] Ramsay JO,Wickham H,Graves S,Hooker G.fda:功能数据分析,R软件包版本2.4.4,2014。https://CRAN.R-project.org/package=fda网站。[20] Ramsay JO,Silverman BW.功能数据分析。第2版见:统计学系列,柏林-海德堡:Springer; 2005年。http://dx.doi.org/10.1007/b98888网站。[21] 作者: Wang K, Gasser T.以非参数方式同步采样曲线Ann Statist 1999;27(2):439http://dx.doi.org/10.1214/aos/1018031202网站。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功