收 稿日期 : 2008-05-06; 修 回日期 : 2008-08-20 基 金项 目: 北 京市 教委科 技发 展重点 资助项 目( KZ200810772017)
作 者简介 : 吴 倩( 1984- ) , 女 , 天 津塘 沽人, 硕士 研究 生, 主要研 究方 向为文 档处 理( qian10051@ 163. com) ; 李宁 ( 1964- ) , 男 , 北京 人, 研 究 员, 博
士, 主要研 究方 向为 XML应 用、文档 处理、多媒 体; 方春 燕( 1983- ) , 女, 江 苏人, 助理 研究 员, 硕士, 主 要研究 方向为 信息 技术标 准化 、文 档处理 .
“标 文 通 ”与 OOXML 文 字 处 理
文 档 格 式 的 比 较 与 转 换
*
吴 倩, 李 宁, 方春燕
( 北京 信息 科技 大学 计 算机学 院, 北京 100192)
摘 要: 较 系 统 地介 绍 了 “标 文 通”和 office open XML 两 种 文 档格 式 在 字处 理 部 分的 相 同 点及 其 存 在的 差 异 。
综合 功能 和描 述方式 , 提出 了预 处理、主 转 换 与 后 继处 理 相 结 合 的 文 档 格 式 转 换 的 转 换 思 路, 并通 过 构 建 转 换
器, 实现 了两 种文 档格 式之 间的 字处理 文档 的转 换。 该项 研究 对于文 档信 息共 享和 “标文 通”国家 标准 的推 广实
施具 有重 要意 义。
关键 词: 标 文通 ; OOXML; 文字 处理; 文档 格式 ; 格式 转换 器
中图 分类 号: TP317 文 献标 志码: A 文 章编 号: 1001-3695( 2009) 02-0591-04
Comparison and conversion between word processing format UOF and OOXML
WUQian, LI Ning, FANG Chun-yan
( School of Computer, Beijing Information Science & Technology University, Beijing 100192, China)
Abstract: This paper analyzed the document formats, UOF and office open XML, focused on word processing structures, to
draw the comparison between these two. Taking into account both the functionalities and expressions, suggested a3-phase con-
version process for formattransformation, including the pre-processing, major converting and post-processing phases. As the
result, a convertor was implemented and could handle the conversion correctly. This research is beneficial to the widely use of
UOF as well as to document information exchange.
Key words: UOF( uniform office format) ; OOXML( office open XML) ; word processing; document format; formatconverter
0 引言
日常办公常用的电子文档有字处理、电子表格和演示文稿
三类, 其中字处 理文 档 的使 用尤 为 广泛。字 处 理文 档种 类 很
多, 从采用二进制格式 描述的 文档到 基于 XML 语言描 述的 文
档, 从批处理编辑系统生成的文档到可视化编辑系统生成的文
档, 文档在描述信息的种类和描述的方式上都得到了丰富的发
展
[ 1]
。以往的字处 理文 档通 常 是具 体文 档 编辑 系统 的 产物,
用于保存用户编辑的数据 以及显 示效果。文 档的格 式由开 发
人员根据系统需求定义, 格式的具体细节不对外公布。封闭的
办公文档格式逐渐成为阻碍用户信息交流的桎梏, 制约了文档
的生命力, 增加了用户的 使用成 本, 也 给用户 保存数 据带来 安
全隐患, 因此, 文档格式走向开放成为业界的共识。
标准无疑 成为 开 放 文档 格 式 重要 的 突 破口。2002 年 11
月, OASIS 成立了开放办公 XML 格式技术委员会, 目标是 为了
建立一个开放的、基 于 XML 的办 公软 件文 件格 式规 范。2005
年开放文档格式 ODF( open document format) 通过 了 ISO 的 表
决, 正式成为国际标 准
[ 2]
。微软也 于 2005 年开 始放弃 封闭 的
二进制 DOC文档格式, 将 它制定 的 OOXML( office open XML)
通过 ECMA 组织 申请 成为 ECMA 标 准
[ 3]
。2007 年, ECMA 通
过快速通 道 使 之 进 入 ISO 国 际标 准 的 批 准 程 序, 并 最 终 于
2008 年 3 月通过并成为国际标准
[ 4]
。此事引起 了社会的广 泛
关注
[ 5]
。
OOXML 将文档看做一个 容器, 规定了 其中的 各个 组成 部
件。除了 少数代 表图形 的二进 制数据 或内嵌 OLE 对象, 大 多
数部件都采用 XML 文件形式, 这 些部件 相互之 间通过 关系 协
同工作。Office open XML 基本上覆 盖了办公软 件的各个基 本
功能, 如描述字处理文档的 wordprocessingML、描述电子表格 的
spreadsheetML、描述演示文稿的 presentationML 等, 同时也增 加
了对矢量图形( drawingML 和 VML) 、数学公式( mthML) 。用 户
XML数据等的支持。微软 Office 2007 实 现了 对 OOXML 的部
分支持。
2002 年开始, 我国 开始 了国 家标 准“标 文通”( uniform of-
fice format, UOF) 的研制, 并于 2007 年 正 式成 为 国 家标 准
[ 6]
。
“标文通”以中文办公软件需求为出 发点, 在 分析、借 鉴国际 相
关主流格式的基础上, 结合我国国情, 从实际应用出发, 制订了
针对文字处理文档、电子表格和演示文档三种主要文档格式的
描述体系。“标文通”采用了 W3C XML Schema 作为描述文 字
处理、电子表格和演示文档 格式信 息的语 言; 同时也 定义了 针
对物理存储格式以及文档 标准应 用过程 中的辅 助性规 范。 此
规范作为中文办公软件文档格式和存储格式的定义, 支持不同
的中文办公软件之间的兼容和文档互换。目前, 主要的国内办
公软件均已支持“标文通”。
虽然文档格式逐渐走向 开放, 但是由 于多种 标准的 存在,
文档信息的共享和互操作问题仍然存在。在短期之内, 多种格
式标准走向融合是不现实 的。 解决这 个问题 的一个 可行的 方
第 26 卷 第 2 期
2009 年 2 月
计 算 机 应 用 研 究
Application Research of Computers
Vol. 26 No. 2
Feb. 2009