Python解析XML的高效对比：DOM、SAX、ET与ET_iter

168 浏览量更新于2024-08-31 收藏 124KB PDF 举报

本文主要探讨了在Python中解析XML的四种常见方式：DOM、SAX、ElementTree（ET）以及ElementTree的迭代解析器（ET_iter）。在早期学习Python时，DOM和SAX是常用的解析方法，但由于它们在处理大型XML文件时效率较低，不适合处理大量数据。因此，作者引入了ElementTree，特别是ET和ET_iter，这两种方式因其较高的效率和广泛应用而被推荐。首先，DOM解析方法采用了Python的xml.dom.minidom模块，它将整个XML文档加载到内存中，形成一个树形结构，便于遍历和操作。DOM解析的主要缺点是内存消耗大，不适合处理大型XML文件，因为它会将整个文档读入内存。其次，SAX解析器（没有在文中具体实现，但通常基于xml.sax模块）是一种事件驱动的解析方式，逐行读取XML文件，不会一次性加载整个文档。这种方式内存占用较小，但需要编写更多的处理代码来跟踪当前状态，对程序员的编程技巧要求较高。 ElementTree（ET）是另一种解析方式，它提供了一个更易用的API来处理XML，与DOM不同，ET可以边读边解析，不需要一次性加载整个文档。ET在效率上优于DOM，尤其是当处理大型文件时，但它仍然可以通过iterparse（ET_iter）进一步优化。 ET_iter是一种迭代解析器，它通过生成器函数逐步处理XML文档，每次只返回一个小块数据，这使得内存消耗极低，尤其适用于流式处理大型XML文件。ET_iter提供了更好的性能和内存管理，适合于实时处理或者有限内存环境。文章通过编写四个解析函数，并在主程序中依次调用来比较它们的效率，通过统计处理文件的时间来评估每个方法的性能。在最初版本中，每个函数返回两个值导致调用重复，后来优化了代码，一次调用接收两个变量，减少了不必要的函数调用次数。这篇文章为Python开发者提供了一种比较实用的方法来选择适合自己应用场景的XML解析方式，尤其是在面对大规模数据和内存限制时，ET和ET_iter通常是更为优选的选择。

横向对比分析横向对比分析Python解析解析XML的四种方式的四种方式

主要以横向对比方式分析Python解析XML的四种方式，感兴趣的小伙伴们可以参考一下

在最初学习PYTHON的时候，只知道有DOM和SAX两种解析方法，但是其效率都不够理想，由于需要处理的文件数量太大，

这两种方式耗时太高无法接受。

在网络搜索后发现，目前应用比较广泛，且效率相对较高的ElementTree也是一个比较多人推荐的算法，于是拿这个算法来实

测对比，ElementTree也包括两种实现，一个是普通ElementTree（ET），一个是ElementTree.iterparse（ET_iter）。

本文将对DOM、SAX、ET、ET_iter四种方式进行横向对比，通过处理相同文件比较各个算法的用时来评估其效率。

程序中将四种解析方法均写为函数，在主程序中分别调用，来评估其解析效率。

解压后的XML文件内容示例为：

主程序函数调用部分代码为：

print("文件计数：%d/%d." % (gz_cnt,paser_num))

str_s,cnt = dom_parser(gz)

#str_s,cnt = sax_parser(gz)

#str_s,cnt = ET_parser(gz)

#str_s,cnt = ET_parser_iter(gz)

output.write(str_s)

vs_cnt += cnt

在最初的函数调用中函数返回两个值，但接收函数调用值时用两个变量分别调用，导致每个函数都要执行两次，之后修改为一

次调用两个变量接收返回值，减少了无效调用。

1、、DOM解析解析

函数定义代码：

def dom_parser(gz):

import gzip,cStringIO

import xml.dom.minidom

vs_cnt = 0

str_s = ''

file_io = cStringIO.StringIO()

xm = gzip.open(gz,'rb')

print("已读入：%s.解析中：" % (os.path.abspath(gz)))

doc = xml.dom.minidom.parseString(xm.read())

bulkPmMrDataFile = doc.documentElement

#读入子元素

enbs = bulkPmMrDataFile.getElementsByTagName("eNB")

measurements = enbs[0].getElementsByTagName("measurement")

objects = measurements[0].getElementsByTagName("object")

#写入csv文件

for object in objects:

vs = object.getElementsByTagName("v")

vs_cnt += len(vs)

for v in vs:

file_io.write(enbs[0].getAttribute("id")+' '+object.getAttribute("id")+' '+\

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38598745

粉丝: 3
资源: 924

Python解析XML的高效对比：DOM、SAX、ET与ET_iter

python比较2个xml内容的方法

Python爬虫爬取电影票房数据及图表展示操作示例

Python基础-6个案例.rar

MATLAB编程实践：自上而下的方法解析

【XPath高级应用】：在Python中用xml.etree实现高级查询

Python进阶秘籍：urlparse在RESTful API中的10个高级应用

Python CGI与数据库交互：从基础到高级应用（构建动态内容）

Python库文件的数据持久化：存储策略、数据库交互和文件操作

MyBatis框架全方位解析

CDR系统架构与原理解析

最新资源