互联网时代的信息抽取:关键技术与应用探索
需积分: 9 52 浏览量
更新于2024-07-24
收藏 6.99MB PDF 举报
"中文信息抽取关键技术研究与实现"
这篇硕士学位论文主要关注的是中文信息抽取的关键技术,作者杨永贵在导师钟义信的指导下,探讨了如何从海量的中文电子文档中有效提取所需信息。信息抽取是应对互联网快速发展带来的挑战而产生的一种技术。论文的核心研究集中在以下几个方面:
1. **有监督机器学习算法**:开发了一种自底向上的监督学习方法,该方法能够自动化地提取规则,并具有较好的跨领域适用性。这一算法被应用于财经领域的公司人事变动新闻信息抽取实验系统以及移动赛事新闻点播系统。实验结果证明,规则提取算法在两个系统中均表现出有效性,并且论文还探讨了信息抽取技术与移动终端服务的结合,展示了“信息抽取+短信息”模式的可行性。
2. **隐马尔科夫模型(HMM)**:利用HMM对体育赛事新闻文本进行信息抽取,设计并实现了实验系统三。通过结合统计方法和规则方法,提高了信息抽取的性能。实验显示,这种统计与规则相结合的方式在中文信息抽取中取得了较好的效果。
3. **命名实体识别(NER)**:在体育赛事新闻领域深入研究了命名实体识别,特别是对赛事名称和比赛结果等关键信息的识别,采用了基于规则的方法,取得了良好的识别效果。
4. **信息内容安全应用**:论文还探讨了信息抽取在信息内容安全领域的应用,如中文手机垃圾短信过滤。提出了一种规则与统计相结合的倾向性判断模型,以此为基础构建了中文短信内容监控实验系统,实验结果显示该系统运行良好。
最后,作者对整个研究工作进行了总结,并对未来可能的研究方向和思路进行了展望。关键词包括信息抽取、机器学习、命名实体识别和隐马尔科夫模型,这些都揭示了论文的研究重点和方法论。
这篇论文的工作对于理解中文信息抽取的理论与实践,以及如何在实际应用场景中利用这些技术,如移动信息服务和信息安全,提供了重要的参考。同时,它也展示了机器学习和统计方法在自然语言处理中的应用价值,特别是在处理中文文本时的有效性。
点击了解资源详情
点击了解资源详情
点击了解资源详情
2010-12-05 上传
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
hbluojiahui
- 粉丝: 4
- 资源: 57