DeepWeb信息抽取系统：研究与实现

需积分: 9 184 浏览量更新于2024-07-22 收藏 1.66MB PDF 举报

"这篇论文是贵州大学2009届硕士研究生宋玉军在导师陈梅的指导下完成的，属于计算机应用技术领域的数据库技术研究。论文主要探讨了DeepWeb信息抽取系统的理论与实现方法，旨在解决DeepWeb中半结构化和无结构数据的利用难题，以自动化方式从DeepWeb中提取有价值的信息。" 在当今互联网时代，随着Web技术的不断发展和DeepWeb（深层网络）数据量的急剧增长，从Web数据库中获取信息已经成为获取知识的重要途径。DeepWeb包含海量的未被搜索引擎索引的数据资源，但由于这些数据通常以半结构化或无结构的形式存在，直接利用它们面临很大挑战。因此，开发有效的DeepWeb信息抽取系统显得尤为重要。本文采用XML（Extensible Markup Language）作为数据交换的通用语言，研究了基于XML的Web信息抽取技术。XML因其良好的结构化特性，能有效地将非结构化的数据转化为结构化形式，便于处理和分析。然而，由于HTML（HyperText Markup Language）的语法灵活性，单纯依赖HTML代码进行信息抽取在实际应用中可能遇到困难。因此，论文提出了一种基于页面分块的全自动Web页面抽取算法，该算法利用网页的视觉特征进行分析，通过划分页面区域来实现高效准确的抽取。为了适应开放、动态的Web环境，论文还提出了一种可伸缩的DeepWeb信息抽取系统设计方案，该方案考虑了不同应用对抽取准确性、易用性、适应性和效率的需求。在这一方案的基础上，作者实现了DeepWeb信息抽取的原型系统，并将其技术应用于贵州省信息产业厅2008年的信息化专项资金项目——科技文献异构数据库共享检索平台，显示了其实际应用价值。关键词包括：DeepWeb、XSL转换（eXtensible Stylesheet Language Transformation，用于XML数据转换）、信息抽取、网页视觉信息以及网页分块。这些关键词揭示了论文的核心内容和技术焦点，即如何利用XSL转换技术结合网页的视觉特征，通过信息抽取技术有效地挖掘和利用DeepWeb中的信息资源。

github_27915757

粉丝: 0
资源: 2

DeepWeb信息抽取系统：研究与实现

基于蚂蚁算法的Deep Web页面信息抽取方法研究

基于WEB的快速信息抽取技术的研究和实现

Deep Web研究现状

Deep Web 数据集成问题研究.pdf

Deep+Web垂直搜索引擎设计与实现.pdf

全局模式下的深网数据抽取.pdf

基于大数据的计算机信息处理技术研究.docx

基于人工智能的医院商务智能系统构建.pdf

Web数据库集成系统：基于关键字的数据抽取与DeepWeb挑战

Web数据库集成系统：深挖Surface与DeepWeb

最新资源