维基百科驱动的自动语义知识库与文本分类精度提升

需积分: 10 6 下载量 37 浏览量 更新于2024-07-26 收藏 2.45MB PDF 举报
本篇硕士学位论文深入探讨了语义理解知识库在当前互联网信息时代的重要性和应用价值。随着计算机技术的发展和互联网的普及,人们面临着海量文本信息处理的需求,如何高效地提取和利用其中的语义知识成为了关键问题。研究者苏小康针对这一挑战,提出了从维基百科等大规模真实文本资源中自动构建语义知识库的方法。 首先,论文强调了现有语义知识来源的多样性,包括人工构造的知识库(如HowNet)和大规模真实文本,如维基百科、语料库和百科知识库。人工知识库虽然有其优势,但已难以满足快速增长的信息处理需求。因此,作者选择了维基百科作为数据源,因为其丰富的链接关系蕴含着大量的潜在语义信息。 论文在知识表示上采用了一种创新的方法,即使用语义标签和语义指纹。语义标签用来指代概念,而语义指纹则通过概率公式刻画每个概念背后的背景信息及其对标签的贡献程度。这种表示方式借鉴了人工知识库的显式语义表达,同时引入概率信息,使得语义描述更为精确,并能够无缝融入到文本计算模型中。 接着,论文详述了构建知识库的具体步骤,包括预处理维基百科数据、选择语义标签、抽取相关概念以及确定贡献度值。通过对维基百科页面间的链接关系进行挖掘,成功地建立了维基百科语义知识库。 为了验证知识库的有效性,作者将构建的语义知识库应用于中文文本分类任务中。通过扩展文本词条并利用知识库,论文提出了一种新的文本分类方法,这种方法通过知识库的辅助提高了文本分类的精度。通过与传统文本分类方法的对比实验,结果明确显示了语义知识库在提升分类精度方面的积极作用。 这篇论文不仅阐述了构建语义知识库的技术细节,还展示了其实际应用在文本分类中的价值,证明了从大规模真实文本中提取语义知识对于信息处理和自然语言处理领域的重要意义。通过维基百科语义知识库的实例,研究者展现了如何将理论与实践相结合,解决实际问题,推动了语义理解和信息提取技术的发展。