哈尔滨工业大学本科毕业设计(论文)
-2-
息繁多且复杂,人们很难直接准确地获取到满足相应需求的信息。面对这样的问题,
自动问答系统研究和发展得到了各个公司和研究机构的关注。1999 年,文本信息
检索会议(Text Retrieval Conference,TREC)第一次把 Automatic Question Answering
Track 设为评测专项。
目前,国外相对成熟的问答系统有,麻省理工大学(MIT)的 Start
[2]
,密歇根州立
大学的 AnswerBus
[3]
,美国的 AskJeeves 自然语言检索系统,IBM 基于统计的问答系
统
[4]
。Start 是第一个基于 Web 的自动问答系统,能够向用户提供准确的回答信息,
Start 基于知识库和信息检索的混合模式,先在知识库中检索,若能检索到则直接
输出,若不能检索到,则采用搜索引擎检索处理后输出。AnswerBus 是个多语种的
问答系统,它不仅可以回答英语的问题,还可以回答法语、西班牙语、德语、意大
利语、和葡萄牙语的问题。
国内也有很多进行自动问答系统研究的机构,哈尔滨工业大学开发了基于常
用问题集的中文问答系统,该系统先根据用户提问句建立候选问题集,然后通过句
子语义相似度计算,在候选问题集中找到相似的问句,然后将答案返回给用户。除
此,还有中科院自动问答系统、百度知道、北京理工大学的银行领域汉语自动问答
系统 BAQS
[5]
。
1.3 本文的主要研究内容
本课题的研究内容主要是针对特定领域,即高考招生咨询领域,进行自动问答
系统的设计与实现。
问答系统一般包括三个主要部分:问题分析、信息检索和答案抽取
[6]
。
对于问答系统来说,接受的是用户自然语言描述的问题,首先要做的就是分析
和理解问题,例如“哈工大 2017 年计算机类在河北招多少人?”,问题分析模块
通过问题分析可以知道该问题询问招生计划问题。中文的问句分析一般包括的基
础工作有分词、词性标注、句法分析、命名实体识别、关键词提取与扩展,并在此
基础上完成对问句的分类和语义分析等。
[7]
经过问题分析后,我们能够获得问题的关键词,对于基于文档的问答系统,我
们需要对文档进行检索,然后按照相关性进行排序;基于数据库的问答系统,我们
需要进行数据库查询语句的构造,保证能够查询到相应的字段,返回查询结果。
最后,答案抽取模块将从信息检索模块返回的数据进行处理,对于基于问答的
问答系统,我们返回了若干候选文档,在 进行词法、句法、语义等分析并根据问题
分析模块的问题类型,我们返回一个词、短语、或一句话的答案;基于数据库的问