DeepWeb信息抽取系统:研究与实现
需积分: 9 184 浏览量
更新于2024-07-22
收藏 1.66MB PDF 举报
"这篇论文是贵州大学2009届硕士研究生宋玉军在导师陈梅的指导下完成的,属于计算机应用技术领域的数据库技术研究。论文主要探讨了DeepWeb信息抽取系统的理论与实现方法,旨在解决DeepWeb中半结构化和无结构数据的利用难题,以自动化方式从DeepWeb中提取有价值的信息。"
在当今互联网时代,随着Web技术的不断发展和DeepWeb(深层网络)数据量的急剧增长,从Web数据库中获取信息已经成为获取知识的重要途径。DeepWeb包含海量的未被搜索引擎索引的数据资源,但由于这些数据通常以半结构化或无结构的形式存在,直接利用它们面临很大挑战。因此,开发有效的DeepWeb信息抽取系统显得尤为重要。
本文采用XML(Extensible Markup Language)作为数据交换的通用语言,研究了基于XML的Web信息抽取技术。XML因其良好的结构化特性,能有效地将非结构化的数据转化为结构化形式,便于处理和分析。然而,由于HTML(HyperText Markup Language)的语法灵活性,单纯依赖HTML代码进行信息抽取在实际应用中可能遇到困难。因此,论文提出了一种基于页面分块的全自动Web页面抽取算法,该算法利用网页的视觉特征进行分析,通过划分页面区域来实现高效准确的抽取。
为了适应开放、动态的Web环境,论文还提出了一种可伸缩的DeepWeb信息抽取系统设计方案,该方案考虑了不同应用对抽取准确性、易用性、适应性和效率的需求。在这一方案的基础上,作者实现了DeepWeb信息抽取的原型系统,并将其技术应用于贵州省信息产业厅2008年的信息化专项资金项目——科技文献异构数据库共享检索平台,显示了其实际应用价值。
关键词包括:DeepWeb、XSL转换(eXtensible Stylesheet Language Transformation,用于XML数据转换)、信息抽取、网页视觉信息以及网页分块。这些关键词揭示了论文的核心内容和技术焦点,即如何利用XSL转换技术结合网页的视觉特征,通过信息抽取技术有效地挖掘和利用DeepWeb中的信息资源。
2020-07-06 上传
2012-05-11 上传
2008-11-03 上传
2011-07-25 上传
2024-04-05 上传
2022-06-02 上传
2021-07-10 上传
点击了解资源详情
github_27915757
- 粉丝: 0
- 资源: 2
最新资源
- GreenHills v2020.1.4 编译手册及错误诊断信息
- 龙芯ls1b-pwm-Led
- MAUI Helloworld测试程序功能实现,注意2022升级最新版本;
- 一个用C语言编写的学生管理系统.zip
- 学生成绩管理系统 大一的C语言大作业.zip
- 编译工具+makefile+自动生成依赖+用于多目录C工程的构建和编译
- 年會抽獎年會抽獎年會抽獎年會抽獎年會抽獎年會抽獎年會抽獎
- PS3111 SSD MP Tool Pro Plus Ver 7.10固态硬盘开卡量产工具
- 相当牛B的机器人框架TRX自动兑换机器人源码+搭建教程简单快速方便
- 完美修复的视频影视网站源码 视频影视APP源码 萝卜影视系统源码4.0.5
- 简历-求职简历-word-文件-简历模版免费分享-应届生-高颜值简历模版-个人简历模版-简约大气-大学生在校生-求职-实习
- 经典版海螺模版V20电影网站源码 影视网站模板源码 苹果CMS影视网站模板源码 广告代码添加与优化
- server-client-python-master.zip
- 反编译开源影视视频APP源码 绿豆影视对接苹果CMS 支持多功能自定义DIY页面布局
- imgui-java-main.zip
- Linux Centos7.6.1810(x86-64)操作系统安装gcc4.8.5所需要的rpm包