基于LDA的bug严重性预测:有效性提升与方法创新

需积分: 10 2 下载量 16 浏览量 更新于2024-09-06 收藏 318KB PDF 举报
该篇论文《一种基于LDA的bug严重性预测方法》由王新亮和孟祥武合作完成,两位作者分别来自北京邮电大学计算机学院。论文的研究背景是针对bug严重性预测中的挑战,即由于bug描述信息通常简短,导致传统文本空间向量模型在处理这些信息时存在稀疏性和预测准确性不足的问题。为了克服这一问题,作者们创新性地提出了结合语料库扩展bug信息,并利用潜在狄利克雷分配(Latent Dirichlet Allocation, LDA)模型进行处理。 LDA是一种概率图模型,用于发现文本数据中的主题分布,通过将文档中的词语映射到潜在的主题,使得原本离散的词语可以被聚合成有意义的主题。在这个过程中,bug描述被转化为主题表示,从而减少了维度,解决了稀疏性问题。通过设定不同数量的主题数,论文采用了向量余弦值来度量bug信息之间的相似性,这种方法与传统的向量空间模型(如TF-IDF)以及基于主题的相似性方法进行了对比。 作者们的研究目标是提高bug严重性预测的准确性,通过实验证明,他们的方法在bug严重性预测领域展现出显著的优势。论文的创新之处在于将主题模型应用到bug严重性评估上,这不仅有助于软件工程师更准确地识别和优先处理高风险的bug,还能节省大量时间和资源。此外,该研究还得到了国家自然科学基金(60872051)的支持,显示出其学术价值和社会实践意义。 这篇论文的核心贡献在于提出了一种新颖的bug严重性预测框架,通过结合LDA和语料库扩展,有效地提高了bug描述信息的处理质量和预测精度,为软件质量管理和维护提供了有力的工具和技术支持。