北京大学研究生课程:文本挖掘技术概述

需积分: 9 0 下载量 171 浏览量 更新于2024-07-27 收藏 356KB PDF 举报
"文本挖掘技术01" 文本挖掘技术是一门深入探讨如何从大量文本数据中提取有价值信息的研究生课程,由北京大学计算机科学技术研究所的杨建武教授讲授。这门课程主要针对2009年春季学期的学生,上课时间为每周四晚上10点至12点,在文史219教室进行。课程网页可在线访问,提供了详细的课程资料和更新信息。助教是王晨峰,可以通过指定邮箱进行联系。 在教学过程中,虽然没有指定特定的教材,但推荐了几本重要的参考书,包括《数据挖掘:概念与技术》、《统计自然语言处理基础》、《现代信息检索》以及《半结构化文本挖掘方法》等,这些书籍涵盖了数据挖掘、自然语言处理和信息检索等多个领域,为学生提供了全面的知识基础。 课程内容广泛,共分为14章,包括了文本挖掘的基本概念、文本特征提取、检索技术、自动分类与聚类、话题检测与追踪、文本过滤、关联分析、文档自动摘要、信息抽取、智能问答(QA)、Ontology(本体论)以及半结构化文本挖掘。每一章都涵盖了不同深度的技术和应用,旨在让学生掌握从文本中发现模式、关系和知识的方法。 评估学生学习效果的方式包括平时作业和期末考试。平时作业占比50%,其中包含了阅读文章写报告和系统实现两个部分,而系统实现又细分为系统设计文档、源程序代码和运行演示。期末闭卷考试则主要测试学生对基本概念、原理和算法的理解。 在第一章“引言”中,课程将介绍文本挖掘的概念,讨论为什么需要进行文本挖掘,以及它在信息爆炸时代的重要性。通过这一章的学习,学生将建立起对文本挖掘的基本认识,并为后续深入研究打下基础。