短文本聚类在问答系统中的应用与TermCut策略

2星 需积分: 50 12 下载量 188 浏览量 更新于2024-07-22 2 收藏 1.36MB PDF 举报
"问答系统中的短文本聚类研究与应用" 本文是华蓓和刘文印指导的中国科学技术大学计算机软件与理论专业博士生倪兴良的学位论文,主要探讨了如何在交互式问答系统中有效地处理和组织大量相似或重复的短文本问题,以提升信息检索效率和用户体验。论文提出了名为TermCut的新型聚类策略,该策略针对短文本的特点,通过识别和利用核心词汇进行文本的二分聚类。 在TermCut策略中,首先构建一个基于短文本的图模型,每个节点代表一条文本,边则表示文本间的语义关联。通过分析图的结构,找出那些能最大化类内相似度和最小化类间相似度的关键词,即核心词汇。根据核心词汇的出现与否,将文本集划分为两个子集,一个子集中包含该词汇,另一个则不包含。这个过程通过不断的二分迭代,最终形成一系列的聚类结果。 基于TermCut策略,作者进一步发展了两种具体聚类算法:基于目标类数的TermCut(CNTC)和基于阈值的TermCut(TTC)。CNTC算法以预设的聚类数量作为停止条件,当达到设定的聚类数时停止二分。而在无法确定确切聚类数的情况下,TTC算法引入了一个相似度阈值,当进一步划分无法改善类内相似度和类间相似度时,算法停止并输出结果。 为了实际应用这些理论,作者设计了一个原型系统,将短文本聚类应用于问题推荐。系统首先建立了一个基于主题的用户兴趣度模型,用于理解不同用户的兴趣偏好。然后,根据用户的兴趣对问题进行排序,高兴趣度的问题将被聚类并推荐给用户。这种方法旨在提供更个性化的信息推荐,优化问答系统的用户交互体验。 总结来说,这篇论文深入研究了短文本聚类在问答系统中的应用,提出了一种新颖的聚类策略和相关算法,旨在解决交互式问答系统中重复问题的困扰,提高信息检索效率,同时通过个性化推荐增强用户体验。