使用聚类挖掘评估软件可维护性的研究

数据挖掘聚类

Java源代码

116 浏览量更新于2024-06-18 收藏 800KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

"软件系统可维护性的评估方法通过聚类挖掘技术进行研究，旨在帮助维护工程师理解和评估软件的可维护性及其演化。该方法利用Java源代码中的软件测量数据，特别是通过一种两步聚类过程，首先分析软件的各个版本，然后进行宏观聚类分析，以洞察系统的演变。这一工作在Apache Geronimo J2EE应用程序服务器上进行了验证，通过分析不同版本来考察其可维护性随时间的变化。" 文章介绍了一种创新的评估软件可维护性的方法，它基于数据挖掘中的聚类技术。在软件开发过程中，维护通常是最复杂且成本高昂的阶段。为了减少维护成本并提高竞争力，理解和评估软件的可维护性至关重要。为此，研究者们开发了一个两步聚类过程，该过程首先对软件的不同版本进行单独的可维护性评估，然后通过宏观聚类分析来研究整个系统的演化模式。在第一步中，他们使用名为RITHM的工具从Java源代码中提取软件度量数据。这些度量数据可能包括类的复杂性、耦合度、继承关系等多个方面，它们能够反映代码的结构和质量。通过对这些数据的分析，可以识别出哪些类更容易出错，哪些更难以理解和维护。第二步的宏观聚类分析则将不同版本的软件系统组合在一起，形成更大的聚类，从而揭示系统在不同版本间的演化趋势。这种分析有助于识别出软件系统在不同阶段可能出现的共性和变化，为维护工程师提供有价值的洞察，以便于优化维护策略。在实际应用中，研究人员选择Apache Geronimo，这是一个开源的J2EE应用服务器，作为案例研究。通过对多个版本的Geronimo进行分析，可以观察到软件可维护性的动态变化，从而评估其随着时间的演变是否变得更加易于维护。总结起来，该研究提供了一种有效的方法，通过数据挖掘和聚类分析来评估和理解软件系统的可维护性，这对于优化软件维护过程和降低维护成本具有重要意义。未来的工作可能会进一步扩展这种方法，以适应更多类型的软件系统和更复杂的软件生态系统。

资源详情

资源推荐

P. Antonellis

等人

理论计算机科学电子笔记

233

（

2009

）

相关文献见[31]。该解决方案的范围是评估提供动态依赖关系作为软件集群租赁的

输入的有用性。此外，模块依赖图（MDG）[20]上的聚类使用了一系列算法，这些

算法有助于从其源代码中自动恢复软件系统的模块结构。该方法基于源代码中可以

检测到的组件和组件之间的关系，将

此外，[19]提出了一种方法，可以检查存储在源代码控制存储库中的代码的演

变。这种技术识别变更集群，可以帮助管理人员将不同的代码变更活动分类为维护

或新开发。另一方面，[29]分析了源代码实体之间的一些变化耦合是否很重要，或

者只有微小的文本调整被检入;以反映源代码实体的变化。开发了一种基于代码修订

的变更类型分析和分类方法。此外，Beyer和Noack [13]提出了一种基于软件工件聚

类的方法，以便将软件系统组织成子系统，并通过这种方式使更改成本更低，更不

易出错。为了通过创建软件系统结构的抽象来理解大型软件系统，Mitchell和

Mancorn [16]提出了Bunch聚类系统。在这项工作中，聚类是通过搜索技术来实现

的，并在表示系统结构的图上执行。子系统是通过划分实体和关系图来生成的。另

一种在软件集群上下文中的方法是Limbo算法，由Tzerpos和Andritsos [8]引入。这

种可扩展的分层算法的重点是最大限度地减少信息的损失时，聚类系统，通过应用

加权方案，每个组件的重要性

聚类算法也被Mancorn等人使用。[21]为了支持从其源代码中自动恢复软件系统

的模块化结构。在这种情况下选择的算法是传统的爬山和遗传算法。为了理解程

序，关键的一步是检测系统的重要类，因为它们实现了最基本和最高级的操作。

Zaidman等人[32]介绍了四种静态Web挖掘和耦合度量，以识别此类类并通常分析软

件系统。

本文的工作与上述文献不同，通过对软件度量数据进行聚类，旨在对软件系统进

行组合，并评估其可维护性。更具体地说，我们不是在图上或直接在源代码上应用

聚类算法，而是在反映软件系统质量和可维护性的最重要设计方面的指标上使用k-

吸引子聚类算法。我们采用了两步聚类分析，以提供一个快速和粗略的把握软件系

统，并描绘其从版本到版本的演变

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

使用聚类挖掘评估软件可维护性的研究

数据挖掘中聚类分析的研究

聚类算法挖掘

Python：层次聚类分析——基于基站定位数据商圈分析

多核k聚类算法的优点在于

聚类类别选择层次聚类的原因

sklearn.cluster模块

简述系统聚类分析的优缺点？

spss聚类分析的优点

分层聚类方法和两步聚类方法的优缺点和适用条件

DBSCAN聚类方法运行结果不能一致

大数据分析与挖掘聚类特点

基于聚类分析的车牌定位方法

综述常用的聚类算法（包括：单聚类算法和双聚类算法）

数据挖掘聚类分析项目

基于聚类分析的空气质量研究方法

怎么比较层次聚类的结果

数据挖掘电影聚类分析，建模

pheatmap聚类方法

网格化的聚类方法对比其他聚类方法有什么优势

高维数据聚类的探索过程

最新资源