互联网上的无模式XML文档映射算法与数据库整合

需积分: 5 143 浏览量更新于2024-08-11 收藏 288KB PDF 举报

本文档探讨了在2006年针对互联网上大量非结构化、无DTD和Schema的XML文档处理问题，提出了一种新的映射方法。这种方法首先通过扫描XML文档将其转换为XML文档树，这是一种将复杂结构分解为可管理组件的有效方式。作者采用了深度遍历算法来实现节点到数据库的映射，这种方法能够确保XML数据内容的完整性，并且在数据存储后能够实现完全恢复。深度遍历算法的优势在于它不受XML文档模式的严格约束，因此即使文档结构变化，也能适应并保持数据的一致性。这种方法避免了基于DTD或XML Schema的转换算法可能带来的模式依赖性问题，提高了系统的灵活性和适应性。对于那些未被预定义模式覆盖的XML文档，这种方法显得尤为实用。传统的映射算法通常关注基于模式的转换，但这种方法无法处理大量零散的XML文档，尤其是那些没有DTD或Schema的文档。相比之下，提出的这个映射算法更加注重数据本身，从而能够在不改变原始XML文档结构的情况下，将其有效地存储到关系数据库中，这对于处理互联网上的异构数据源至关重要。该论文还提到了文献标识码A和中国图书分类号TP311.11，表明这是一篇关于信息技术领域，特别是XML技术与数据库管理之间关系的学术研究，具有较高的理论价值和实践意义。文章通过具体的实例验证了新算法的可行性和有效性，证明了在实际场景中，这种映射方法能够高效地解决XML文档的存储、检索和管理问题，提升了数据处理的效率和系统灵活性。这篇论文对XML文档与数据库之间的映射提供了一种创新的解决方案，为互联网上非结构化XML数据的管理和存储提供了一种实用且灵活的方法，对于IT专业人士和数据库管理员来说，具有很高的参考价值。

第

卷第

期

2006

年

月

北京工业大学学报

JOURNAL

I]I

UNIVERSITY

TECHNOLOGY

Vol. 32

No.9

Sept.

2006

利用文档树建立

XML

文档与数据库的映射

朱青，李建字，刘宇辉

(北京工业大学计算机学院，北京

100022)

摘

要:为了处理互联网上大量独立于模式不规则的、零散的

XML

文档，提出了一种通过扫描

XML

文档转换

为

XML

文档树，再对文档树进行深度遍历算法把节点映射到数据库的算法，并与其他算法做了简单比较.该算

法能把

XML

数据内容完整地保存到数据库，还可以完全恢复.通过实例证明了算法的可行性和有效性.

关键词:

XML;

映射算法;关系数据库

中图分类号:

文献标识码

文章编号:

0254 -

0037(2006)09

- 0859 - 06

随着信息技术的发展，企业间的信息交流也变得越来越重要，而

XML(eXtensible

markup

language)

技

术的出现正好使信息交换变得容易起来.如今，

XML

已成为互联网上数据表示和数据交换的标准，其嵌

套的自描述结构应用建模和数据交换提供了既简单又灵活的方式.伴随着各种

XML

应用的飞速发展，如

何存储、管理

XML

文档已经成为一个亟待解决的问题.最常见的方法是用数据库对

XML

进行存储、检

索和操作.目前，有关

XML

数据向关系数据转换的研究主要分为

个方面:一是基于模式的转换算法研

究.其中基于模式的算法又分为基于

DTD(

document type

definition)

的转换算法

[1-4J

和基于

XML

Schema

模式的转换算法

[5-6]

二是基于数据的非结构化

XML

文档和独立于模式的数据文件在数据库中的存储

研究.然而，

Internet

网上存在着大量的无

DTD

和

Schema

的

XML

文档需要处理.基于模式的映射算法

存在着一些不足，例如，

XML

文档必须严格遵守其模式，限制了文档的一些范围，而且，其模式有时也可能

发生变化，模式的改变必然导致数据库结构的改变，限制了系统的灵活性.另外，以往映射算法基本上不

能解决把

XML

文档存储到数据库后不能完全复原的问题.综上所述，作者提出了一种独立于模式的任意

结构良好的

XML

文档和数据库文件互相转换的映射方法，即通过扫描

XML

文档建立

XML

文档树，再对

文档树进行深度遍历算法把节点映射到数据库该方法能把

XML

文档的所有信息存储到数据库中，并能

从数据库中完全恢复而不丢失任何信息，此方法还能保证再从数据库文件恢复到

XML

文档时保持原有

节点的顺序.

从

XML

文档向数据库文件转换

XML

文挡

XML

文档可以分为良构文档和有效文档.良构文档就是语法上正确满足

XML

规范描述的生成规

则，但不一定符合某个模式.有效文档是针对某个模式

DTD

或

Schema

验证过的文档.本文就是针对独

立于模式的良构文档进行映射当然有效文档也可以在放弃它的模式下通过本文的方法进行映射.

一个

XML

良构文档由字符数据和标记组成，标记将文档的内容(字符数据)与其起始标注、结束标

注、引用、注释、处理指令等分开.下面是一个简单的

XML

文档实例

sample.

xml version=

"1.

0" ?)

a sample to XML--)

收稿日期:

2005-06-01

基金项曰:北京市教育委员会科技发展计划面上项目

(KM20061000502

作者简介:朱青(1

965

一)

，女，浙江义乌人，教授

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38654382

粉丝: 1
资源: 932

互联网上的无模式XML文档映射算法与数据库整合

XML与数据库的映射技术研究* (2006年)

纯XML数据库研究综述* (2006年)

基于分段位向量编码的XML文档到关系存储 (2006年)

基于关系数据库的实时XML数据查询处理 (2006年)

JavaEE源码个人博客系统源码数据库sql文档

j2ee 帮助文档

J2EE帮助文档

j2ee api帮助文档

J2EE API帮助文档

JAVAEE5API开发文档

最新资源