利用本体优化中文元搜索引擎结果分类

需积分: 10 5 下载量 164 浏览量 更新于2024-07-29 收藏 2.28MB PDF 举报
"这篇硕士论文探讨了如何利用本体技术优化中文元搜索引擎的搜索结果,旨在解决独立搜索引擎面临的覆盖面下降、结果过多、筛选困难等问题。通过应用本体,论文提出了对查询结果进行自动分类的方法,以提高用户界面的清晰度和检索效率。此外,还对用户查询请求进行语义分析,提升查询的查全率和查准率。论文构建了特定领域的‘药学本体’,并设计了基于本体的自动分类模型,包括查询词的扩展、结果的领域限定以及分类过程。" 本篇论文关注的是在信息爆炸的时代,如何利用技术改善搜索引擎的性能,特别是针对中文元搜索引擎。元搜索引擎通过整合多个独立搜索引擎的结果,提高了信息覆盖面和查询效率,但仍然存在诸多挑战。论文作者王梅文在导师徐辉明的指导下,深入研究了本体技术在解决这些问题上的潜力。 本体是一种规范化表达,用于描述特定领域内的概念和它们之间的关系,它在智能信息检索、信息代理和信息分类等领域有着广泛应用。论文指出,将本体应用于元搜索引擎的结果分类,可以实现基于语义的自动化,生成层次分明、逻辑清晰的反馈界面,便于用户快速找到所需信息。 为了实现这一目标,论文首先概述了搜索引擎和元搜索引擎的基本工作原理,分析了它们存在的问题和已有改进策略。接着,论文详细讨论了文档自动分类技术,特别是中文网页分类的关键技术,如网页结构解析、中文分词、特征提取和分类算法。然后,论文引入了本体的基本理论,并阐述了它在中文元搜索引擎中实现结果自动分类的角色。 论文的主要创新点在于三个方面: 1. 构建了药学领域的本体,包括核心概念的提取、类和属性的设计,以及本体的编码方法。 2. 基于本体对用户查询词进行扩展和规范,以拓宽用户的检索视野,激发潜在需求,并根据领域限定搜索结果,减少无关信息。 3. 设计了一个模型,该模型包括了查询输入、相关检索词提示、结果提取、集成、分词和自动分类的流程。 通过这些创新,论文提出的方案有望提升中文元搜索引擎的用户体验和搜索性能,特别是在药学这样的专业领域。