第 36 卷第 2 期
2008 年 4 月
浙 江 工 业 大 学 学 报
JOURNAL OF ZHEJIANG UNIVERSITY OF TECHNOLOGY
Vol .36 No .2 *
Apr .2008
收稿日期 :2007‐07‐21
作者简介 :古 辉 (1956 — ) ,男 ,山西太原人 ,教授 ,主要从事多媒体应用技术研究 .
一 种 改 进 的 程 序 理 解 信 息 抽 取 系 统 (T S E )设 计
古 辉 ,马灵春 ,阳继旭
(浙江工业大学 信息工程学院 ,浙江 杭州 310032)
摘要 :程序理解是实现对软件系统自动分析和理解的技术 .作为程序理解中必不可少的环节 ,信息
抽取是实现程序理解的第一步 .信息抽取机制的优劣直接影响着抽取信息的效率 .通过对比较典型
的抽取机制和工具的分析研究 ,阐述了现有程序理解系统存在的问题 ,提出相应的改进措施 ,设计
出了一种改进型信息抽取系统 .
关键词 :程序理解 ;信息抽取 ;抽取机制 ;程序理解管道
中图分类号 :TP311 .5 文献标识码 :A 文章编号 :1006‐4303(2008)02‐0174‐04
Design of an improved information extraction system (TSE)
in program understanding
GU Hui ,MA Ling‐chun ,YANG Ji‐xu
(College of Information Engineering ,Zhejiang University of Technology ,Hangzhou 310032 ,China)
Abstract :Program understanding is a kind of technology that can achieve automatic analysis and
understanding of software system .As an essential sector ,information extraction is the first step
in program understanding .The quality of the information extraction mechanisms will influence
the efficiency of information extraction directly .By comparing typical extraction mechanisms and
tools ,the problems in existing program understanding is discussed .An improved method is pro‐
vided and a new information extraction system is designed .
Key words :
p
rogram understanding ; information extraction ; extraction mechanism ;
p
rogram
comprehension pipeline
0 引 言
由于分析和理解的困难性 ,软件系统特别是大
型复杂软件系统 ,其生存期往往长达数十年 .然而 ,
对这些系统常年的维护或演化任务异常困难 ,且成
本开销巨大 .实践研究表明 ,软件资源预算的 50%
~ 80%
[1]
消耗在对现有系统的维护上 ,而软件维护
者理 解 程 序 代 码 的 时 间 占 软 件 维 护 的 47% ~
62%
[2]
.软件维护已成为软件工程界面临的重要课
题之一 ,而正确和全面地理解软件系统是对软件进
行维护的前提 .对软件的理解是一项非常枯燥和费
时的过程 ,要自动实现对程序的分析 、理解和表达 ,
首先要解决软件系统信息抽取这一关键技术 ,而且 ,
抽取的信息完整性与快速性将直接影响到后续的软
件理解系统的整体性能
[3]
.
1 现有方法 、典型工具的评析
当前的信息抽取方法主要有三类 :第一类是基