没有合适的资源?快使用搜索试试~ 我知道了~
软件X 16(2021)100821原始软件出版物DPPSBO:简单图和二分图聚类的集成软件Mohammad Bozlul Karim,Shigehiko Kanaya,马里兰州阿尔塔夫-乌尔-阿明奈良科学技术研究所,生驹,奈良,日本ar t i cl e i nf o文章历史记录:接收17四月2019收到修订版2020年12月15日接受2021年关键词:图聚类双聚类a b st ra ct网络分析特别是图聚类已经成为数据挖掘应用中的一种有用的和重要的技术。它提供了一个数据结构的全局视图,其中密集连接的对象根据其共同属性进行分组。在过去的十年中,各种简单的图聚类和双聚类技术已被广泛使用,但这些算法的实现仍然有限。在这项工作中,我们提出了一个新的集成软件实现的DPPIO和BiPPIO算法,使用Java被用于简单和二分图聚类。我们的目标是提供一个开源工具,提供大量用户友好的选项来深入研究网络数据。该工具将为用户提供基于GUI的简单和二分图聚类以及聚类的过滤和合并、层次节点分析、聚类集之间的节点分布以及大聚类集的全部或部分可视化的我们将此工具命名为DPQSBO,因为它可以用于执行基于密度聚类的简单图和具有重叠属性的二分图的聚类版权所有©2021作者。由爱思唯尔公司出版这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)中找到。代码元数据当前代码版本v1.1此代码版本使用的代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX_2019_144Code Ocean compute capsule法律代码许可证GPL v3使用的代码版本控制系统软件代码语言、工具和服务使用java。NetBeans 8.2编译要求,操作环境依赖关系java 9,jdk-8 u211如果可用,链接到开发人员文档/手册http://www.knapsackfamily.com/GRAPHCLUSTERING支持电子邮件,以了解问题软件元数据当前软件版本DPQSBO1 1指向此版本可执行文件的永久链接http://www.knapsackfamily.com/GRAPHCLUSTERING计算平台/操作系统Microsoft Windows安装要求依赖关系如果可用,请链接到用户手册-如果正式出版,请在参考列表中引用该出版物问题支持电子邮件*通讯作者。电子邮件地址:hira9505040@gmail.com(Mohammad Bozlul Karim),skanaya@gtc.naist.jp(Shigehiko Kanaya),amin-m@is.naist.jp(马里兰州)Altaf-Ul-Amin)。https://doi.org/10.1016/j.softx.2021.1008211. 动机和意义如今,不同的研究领域,如系统生物学,经济学,社会学,地理学,社会心理学和商业研究等.使用简单图和二分图的聚类,2352-7110/©2021作者。 由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表SoftwareX期刊主页:www.elsevier.com/locate/softxMohammad Bozlul Karim、Shigehiko Kanaya和Md. 阿尔塔夫乌阿明软件X 16(2021)1008212=| |∈| |=⊆⊆⊆⊆=K2=nk从多元关系数据中找出核信息。在系统生物学中,分析PPI网络、基因表达数据、基因和疾病关系等。需要不同的聚类方法。聚类分析可以找出不同的经济指标,反映企业的发展状况。在社会学中,分析人类行为,社会影响,心理学,人口统计群体的种族利益是通过根据不同的指标对社交网络进行聚类来完成的在上述大多数情况下,无论是否进行预处理,数据都可以建模为简单图或二分图。在计算机内存中表示图形的常用格式是邻接矩阵或邻接表。实际图形数据本质上是稀疏矩阵。稀疏矩阵的聚类具有挑战性,并且有一些有效的稀疏矩阵双聚类技术[1]。在真实数据集中,固有地存在重叠的聚类,这些聚类不受文献[2我们的算法提供了重叠控制参数,这有助于在一定程度上控制生成的聚类我们测试了我们的双聚类算法的性能和有效性方面的真实和合成数据集超过一些选择算法我们的算法表现出最好的性能节点N1具有更高的优先权成为集群K的一部分。两个聚类之间的重叠系数定义为:OV第2章(四)AB这里a,b是单个集群中的节点数,i是它们之间的公共节点数。节点的权重是基于该节点与其相邻节点之间的公共邻居的数量来计算的。该算法从一个简单的图中选择一个节点作为聚类种子,使用最高的节点权重,并逐渐扩大集群,保持用户定义的密度和集群属性。该算法通过继续将节点添加到簇中并从原始图中删除相应的边来进行。以前发表的关于DPClus [9]和DPKO [10,11]算法的论文可以进行详细解释。BioburtO算法:BioburtO算法从表示二分图的矩阵数据构造简单图。设一个二部图G =(U,V,E)表示为二进制矩阵M,其中U,V为行列数。如果(u1,u2)U是任何一对行节点,则这两个节点之间的关联性在Tanimoto系数和关系数方面由以下等式根据三个度量,即平均聚类相关性、平均回收率和GO富集分析[7]。谷本系数|N(u1)<$N(u2)||N (u1) ∪ N (u2)|(五)对于大多数正在使用的集群软件工具来说,绘制一个大的图是一个很大的挑战.这些实现中的大多数都具有有限的可视化选项[8]。此外,一些软件工具提供了完整的选项,如部分可视化,动态增加渲染窗口,用户交互选项重新排列绘制的图形。我们的动机是提供一个基于GUI的聚类工具,用于聚类简单的二分图,用户可以使用简单的操作程序2. 软件描述我们的软件由三个模块组成:(1)简单图聚类(2)单向双聚类(3)双向双聚类。简单的图聚类实现了DPPIO [9Biclusteringone way 和 Biclustering two way 实 现 了 基 于 DPBO 开 发 的Bioblustering O [7]算法,该算法使用数据折叠机制。关系号=|N(u1)<$N(u2)|(六)、其中N(u1)和N(u2)是u1的邻居的数量,从集合V得到u2。构造了一个只包含属于U集的节点的加权图。首先,Tanimoto系数被认为是边缘权重,然后关系数被认为是边缘权重。一些边缘也被过滤通过取谷本系数的阈值和关系数来输出。这两个滤波显著地减少了噪声边缘。然后用剩下的边构造一个简单的图。DPPIO可以很容易地从这样一个简单的图中分离出密集连接的区域作为集群。群集后,来自V集通过附着概率阈值附着到每个簇[12]。通过应用从集合V的节点开始的类似过程来重复该算法。因此,实现了双向双聚类。重叠系数:假设两个双聚类由BC1 =(U1,V1)和BC2 =(U2,V2)表示,其中U1U,U2U、V1V和V2 V。BC1和BC2之间的重叠系数BC2通过以下等式测量DPPIOO算法:DPPIOO算法可以从一个简单的基于密度和边缘跟踪的图中生成重叠的聚类如果我们考虑一个簇,比如说由Nk个节点和Ek条边组成的簇k,则簇的密度dkBCovcf|U 1 U 2||V 1和V 2||U|V1|+的|U2|U|V2|− |U 1 U 2|V 1和V2||V 1 ∩ V 2|BCovcf= 1表示群集BC1和BC2相同2.1. 软件构架(七)D =Ek=2 E k N k(一)图图1显示了DPP3.SBO软件EkmaxNk(Nk−1)使用类图的简化版本类文件这里Ekmax是涉及Nk个节点的最大可能边,Ekmax=C(Nk,2)=Nk(Nk−1)(2)节点n1相对于集群k的集群属性定义为:cpEn1k(3)1dk Nk这里En1k表示聚类k之间的边数而相邻节点n为1。cpn1k的值越高,意味着图,MyCluster,ClsMatrixData和ClsBiCluster是我们算法的主要构建块 。 DPPIO 由 Graph 和 MyCluster 类 实 现 。 BiClO 是 通 过 使 用 类Graph、MyCluster、ClsMatrixData和ClsBiCluster来实现的。一个简单的图由Graph类表示,其中包含节点、相邻的节点列表和节点属性。 节点属性是每个节点的坐标、大小和颜色,用于在GUI框架中渲染节点。makeCluster()函数主要用于从一个简单的图中找到一个簇,并从图中删除相应的边。此函数使用类的其他不同函数来计算节点权重、节点度、邻居节点、链路和边权重。Mohammad Bozlul Karim、Shigehiko Kanaya和Md. 阿尔塔夫乌阿明软件X 16(2021)1008213Fig. 1. DPOSSIBO的类图MyCluster 类 使 用 Graph 和 Region 类 的 对 象 。 这 个 类 中 的clusterCluster ( ) 函 数使 用 weightClusters ( ) 、 degreeClusters()函数,这些函数最终调用makeCluster()函数来生成聚类集,并将它们保存在向量数据类型allcluster中。根据聚类集的大小,将GUI渲染区域划分为相等数量的矩形区域,并将对应的坐标保存在FrmRegion类中。filterCluster()函数用于根据重叠属性使用等式过滤聚类集(4)而clusterJoin()函数用于加入集群集合。ClsMatrixData类采用二进制输入矩阵,并生成谷本系数矩阵(tf)和关系数矩阵(rl)。processData()函数使用谷本系数(thtf)和关系数(thrl)的阈值作为滤波参数来对矩阵tf和rf进行滤波。过滤后,ArrayList的制表符分隔字符串即表示行保存输入矩阵的名称。此ArrayList作为输入提供给MyCluster类以创建集群集。ClsMatrixData类中的函数getClsSecondTuple()使用其附着概率生成任何集群的第二个节点集。类ClsBiCluster有一个构造函数,它将ClsMatrixData的这些聚类、附着概率和对象作为输入,并将各个双聚类分配给ClsBiNode对象的哈希映射。在双向双聚类的情况下,生成两组二进制关系数据,一组用于行名称,另一组用于列名。CV和CVN是为这两种类型的数据生成的簇集。2.2. 软件功能两种不同类型的功能,图形和文本为基础的已经实现了分析的三种类型的聚类。根据不同的大小和序列号过滤集群,允许用户在屏幕大小中适应集群集,并最大限度地在一系列连续的函数执行之后,生成基于文本的数据更改,最后生成基于GUI的聚类集渲染。从文本文件和Excel文件输入简单图聚类的输入格式METIS格式也允许用于简单图,其中相邻列表由空格或逗号分隔。对于单向或双向双聚类,允许输入矩阵的excel文件,其中行和列标签表示二分图。此外,允许使用两个不同列的CSV或制表符分隔的文本文件作为输入,这两个列表示根据边列表邻接表:生成对应简单图的邻接表。对于单向二部图,并利用行名称生成邻接表。对于双向双聚类,首先构造两个简单的图,并通过使用数据矩阵的行名称和列名参数设置:密度= 0.5,CP(群集属性)= 0.5和OV(重叠)= 0.5是最佳Mohammad Bozlul Karim、Shigehiko Kanaya和Md. 阿尔塔夫乌阿明软件X 16(2021)1008214图二、 简单的图聚类.. (关于此图例中颜色的参考解释,请读者参考本文的网络版本简单图的聚类生成[7,13]。两个附加的故障参数Tanimoto系数=0.33和关系数= 3需要生成biclusters [7]。集群生成:在执行邻接表生成和参数设置后,集群将以文本格式生成和过滤/加入简单的集群:根据Eq.(4)通过过滤丢弃两个高度重叠的聚类中较小的聚类。在这种情况下,两个这样的聚类的阈值必须具有大于或等于输入值的重叠值。集群连接功能合并两个这样的集群并生成一个大集群。过滤/连接Bi聚类:等式1的重叠系数(7)用于从两个双聚类中丢弃一个小的双聚类。 Bicluster join函数合并两个这样的bicluster并生成一个大的bicluster。层次图(用于简单图聚类):通过将每个集群视为单个节点来创建简单集群集的层次图。这种图的节点半径是通过取关联集群中的节点总数来测量的。边厚度通过计算两个簇的非重叠节点之间的边的总数来测量。 节点半径和边缘厚度根据对数标度进行转换。层次图(用于双聚类):在双聚类集的情况下,根据它们共享的公共节点,考虑双聚类之间的关系创建层次图。我们把这种关系表示为一个简单的图,它具有不同的节点大小和边宽度。这种分层图的节点大小是通过取相应簇的总节点数来测量的。这些节点之间的边宽度为在对数尺度上对应的集群的重叠节点3. 说明性实例我们使用两个不同的典型数据集来说明简单的图聚类和双聚类的DPOSSBO。作为简单图的一个例子,我们利用了KNApSAcK数据库 的 化 合 物 的 结 构 相 似 性 网 络 。 “work” 、 “convert” 、 “docluster”、“filter”和“plot cluster”函数的连续执行生成聚类集的图形视图。为了显示更好的可视化效果,用户可以根据不同的大小(组合框)和数量(交叉按钮)过滤聚类集。图图2(a)示出了至少9个节点的集群集合。重叠的节点用红色标记。用户可以放大单个群集如图 2(b)通过双击其区域,如图所示。 2(a).在图2(c)中绘制了其中每个集群是节点的分层图,并且在图2(c)中绘制了对应的单个集群及其相邻集群的细节。2(d),其中红线表示 两个簇的非重叠节点之间的边的存在。通过嵌入特定数量的双聚类来创建基因与条件二进制(0,1)合成数据集,其中a1代表在特定条件下差异表达的基因。此外,我们在数据集的非聚类区域的9%处随机插入1作为噪声。在本例中,我们从菜单中选择双向双聚类。图3(a)示出了使用文本和图形矩阵格式从合成数据设置的双聚类的结果。图图3(c)示出了双聚类的分层图。图中的边缘3(c)表明存在Mohammad Bozlul Karim、Shigehiko Kanaya和Md. 阿尔塔夫乌阿明软件X 16(2021)1008215×图3.第三章。二 分图聚类(关于此图例中颜色的参考解释,请读者参考本文的网络版本集群之间的公共节点(基因或条件)。通过点击图中的节点, 3(c),相应的双聚类可以与相邻的双聚类(蓝色节点)一起显示,如图所示。第3段(d)分段。红线表示所显示的双聚类的哪些节点与相邻双聚类共有4. 影响现代科学和研究的几乎所有学科都使用包括计算机在内的高通量设备通过各种实验和分析产生大量数据如果没有数据挖掘算法和编程语言的先验知识,很难从这些数据中找到有用的信息。DPPSBO是一个简单和用户友好的工具,用于从简单和二分网络中查找要点信息。大多数类型的数据可以通过预处理转换成网络,然后可以应用DPPSBO。该软件的一个显著特点是重叠控制参数,用于在一定程度上合并或过滤聚类集合中的内聚组。该软件的算法经过实验验证,并与不同的聚类算法进行了比较[9]。我们已经应用我们的工具来分析不同的数据集例如结构相似的代谢物[14],种属-VOC二分关系(矩阵大小= 710 1740)[12],使用PPI网络分析寻找IBD相关基因(相互作用大小= 38652)[13],分析基于mRNA和miRNA的二分数据集以寻找IBD疾病的相关miRNA,从植物中寻找有效配方,jamu,unani和阿育吠陀数据的疾病关系[15,16],分析并发现不同物种排放的含硫代谢物的性质。关于DPClus算法的最初工作发表于2006年[9,10],到目前为止已被许多其他论文引用。5. 结论在目前的工作中,我们使用GUI实现DPPIO和BiPPIO算法,用于在简单的二分图中查找聚类。我们努力的主要目的是提供免费和用户友好的网络分析软件。两个说明性的例子解释了创建,过滤和加入集群的过程层次图用重叠的节点或边来解释不同簇之间的关系。此外,基于Java的开源实现将允许用户在不同的平台上自定义和运行软件。竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作致谢这项工作得到了日本文部科学省(20K12043和16K07223)和NAIST大数据项目的支持,并得到了日本医学研究开发机构和日本国家生物科学数据库中心资助的药物发现和生命科学研究支持平台项目的部分支持。引用[1]作 者 声 明 : Dr. 稀 疏 二 进 制 基 因 组 数 据 的 双 聚 类 。 J Comput Biol2008;15(10):1329-45.[2]Kluger,Yuval,Basri Ronen,Chang Joseph T,Gerstein Mark.微阵列数据的光谱双聚类:共聚类基因和条件。GenomeRes2003;13(4):703-16.Mohammad Bozlul Karim、Shigehiko Kanaya和Md. 阿尔塔夫乌阿明软件X 16(2021)1008216[3] 程颐宗,Church George M.表达数据的双聚类。ISMB2000;8:2000。[4] Lazzeroni Laura , Owen Art. Plaid models for gene expression data. 统 计2002;61-86.[5] A systematic comparison and evaluation of biclustering methods for geneexpression data.生物信息学2006;22(9):1122-9.[6] 塔奈,阿莫斯,沙兰罗德,沙米尔罗恩。在基因表达数据中发现统计学显著的双聚类。生物信息学2002;18(增刊):S136-44.[7] 作者:Karim,Bozlul Mohammad,Kanaya Shigehiko,Amin Md Altaf-Ul.使用生物和合成数据比较Bioclusting O与五种不同的双聚类算法。在:复杂网络及其应用国际研讨会。Cham:Springer;2018.[8] Kaiser Sebastian , Santamaria Rodrigo , Khamiakova Tatsiana , SillMartin , Theron Roberto , Quintales Luis , et al. , Package biclust TitleBiClusteralgorithms,version 2.0.1,date 2018-06-09. 2018年[9] Altaf-Ul-Amin Md等人,Dpcus:一种基于密度-周边的图聚类软件,主要关注于相互作用网络中蛋白质复合物的检测。J Comput Aid Chem 2006;7:150[10]Altaf-Ul-Amin Md等人,大型相互作用网络中蛋白质复合物检测算法的开发和实施。BMCBioinformatics2006;7(1):207.[11]作者:Jiangsu M,Jiangsu M,Jiangsu S.将PPI网络划分为受高密度和外围跟踪约束的重叠模块。ISRN Biomath 2012;2012年。[12][10] 杨 文 , 王 文 . BiClusting O : A novelbiclustering approach and itsapplication to species-VOC relational data. IEEE/ACM TCBB2020;17(6):1955-65.[13]Eguchi,Ryohei等人,一种基于网络的综合方法来识别新的疾病基因和途径:炎症性肠病背景下的案例研究。BMC Bioinformatics2018;19(1):264.[14]作者:Kristan M,Kristan M,J.(献给T教授)Okada和T. DPPROOST:一个用于通用图形聚类的软件工具. J Comput Aid Chem2017;18:76-93.[15]Hossain,Farhad Shaanyi,et al.基于网络分析的Unani公式的植物-疾病关系预测。2018年IEEE第18届生物信息学和生物工程国 际 会 议 (BIBE)。IEEE;2018.[16]Wijaya,Hartono Sony,et al.基于DPPIO的监督聚类:使用KNApSAck数据库的Jamu公式预测植物疾病关系。In:BioMed research international 2014;2014.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功