Python解析XML：ElementTree模块与DOM、SAX对比

4 浏览量更新于2024-08-31 收藏 171KB PDF 举报

"Python XML 解析方法" 在Python中，处理XML文档有多种方式，本文将详细介绍其中的三种常见方法：xml.dom.*模块、xml.sax.*模块以及xml.etree.ElementTree模块（简称ET）。这些方法各具特点，适用于不同的场景。一、xml.dom.*模块 XML DOM（Document Object Model）是一种W3C标准，它定义了一种统一的方式来表示和操作XML文档。Python中的xml.dom.*模块提供了对DOM API的支持。这个模块允许开发者将整个XML文档加载到内存中，形成一个树状结构，便于对XML进行遍历、修改和保存。然而，由于需要将整个文档加载到内存，对于大型XML文件，这种方法可能会消耗大量内存。二、xml.sax.*模块与DOM不同，xml.sax.*模块实现了SAX（Simple API for XML）接口，这是一种基于事件的解析器。SAX解析器在读取XML文件时，遇到元素开始、结束、文本节点等事件时，会触发相应的回调函数。这种方式不需将整个文档加载到内存，而是逐行处理，因此在处理大型XML文件时，SAX通常比DOM更高效。但SAX的编程模式相对复杂，需要编写更多的事件处理器代码。三、xml.etree.ElementTree模块 (ET) ET是Python中处理XML的一种推荐方式，它提供了一个轻量级且易于使用的API。ET模块结合了DOM的易用性和SAX的效率。它能快速解析XML，并允许用户以Pythonic的方式处理XML元素树。例如，可以轻松地查找、添加或删除元素。ET还提供了一个`iterparse`方法，可以实现类似SAX的流式解析，只处理需要的部分，节省内存。以下是一个使用ET解析上述`country.xml`文件的示例： ```python import xml.etree.ElementTree as ET tree = ET.parse('country.xml') root = tree.getroot() for country in root.findall('country'): name = country.get('name') rank = country.find('rank').text year = country.find('year').text gdppc = country.find('gdppc').text print(f'Country: {name}, Rank: {rank}, Year: {year}, GDP per Capita: {gdppc}') ``` 在这个例子中，我们首先解析XML文件得到一个ElementTree对象，然后获取根元素。接着，我们遍历所有的`country`元素，通过元素的属性和子元素获取所需数据。总结，选择哪种XML解析方法取决于具体需求。如果XML文件较小，或者需要对整个文档进行深度处理，xml.dom.*可能是合适的选择。如果处理大型文件，且仅需访问特定部分，xml.sax.*模块的事件驱动模型更适合。而xml.etree.ElementTree模块在多数情况下提供了平衡的性能和易用性，是大多数Python开发者的首选。

用用Python解析解析XML的几种常见方法的介绍的几种常见方法的介绍

主要介绍了用Python解析XML的几种常见方法,包括快速的使用ElementTree模块等方法的实例介绍,需要的朋友

可以参考下

一、简介一、简介

XML（eXtensible Markup Language）指可扩展标记语言，被设计用来传输和存储数据，已经日趋成为当前许多新生技

术的核心，在不同的领域都有着不同的应用。它是web发展到一定阶段的必然产物，既具有SGML的核心特征，又有着HTML

的简单特性，还具有明确和结构良好等许多新的特性。

python解析XML常见的有三种方法：一是xml.dom.*模块，它是W3C DOM API的实现，若需要处理DOM API则该模块很

适合，注意xml.dom包里面有许多模块，须区分它们间的不同；二是xml.sax.*模块，它是SAX API的实现，这个模块牺牲了便

捷性来换取速度和内存占用，SAX是一个基于事件的API，这就意味着它可以“在空中”处理庞大数量的的文档，不用完全加载

进内存；三是xml.etree.ElementTree模块（简称 ET），它提供了轻量级的Python式的API，相对于DOM来说ET 快了很多，

而且有很多令人愉悦的API可以使用，相对于SAX来说ET的ET.iterparse也提供了 “在空中” 的处理方式，没有必要加载整个文

档到内存，ET的性能的平均值和SAX差不多，但是API的效率更高一点而且使用起来很方便。

二、详解二、详解

解析的xml文件（country.xml）：

在CODE上查看代码片派生到我的代码片

<?xml version="1.0"?>

<data>

</country>

</country>

</data>

1、、xml.etree.ElementTree

ElementTree生来就是为了处理XML，它在Python标准库中有两种实现：一种是纯Python实现的，如

xml.etree.ElementTree，另一种是速度快一点的xml.etree.cElementTree。注意：尽量使用C语言实现的那种，因为它速度更

快，而且消耗的内存更少。

在CODE上查看代码片派生到我的代码片

try:

import xml.etree.cElementTree as ET

except ImportError:

import xml.etree.ElementTree as ET

这是一个让Python不同的库使用相同API的一个比较常用的办法，而从Python 3.3开始ElementTree模块会自动寻找可用

的C库来加快速度，所以只需要import xml.etree.ElementTree就可以了。

在CODE上查看代码片派生到我的代码片

#!/usr/bin/evn python

#coding:utf-8

try:

import xml.etree.cElementTree as ET

except ImportError:

import xml.etree.ElementTree as ET

import sys

try:

tree = ET.parse("country.xml") #打开xml文档

#root = ET.fromstring(country_string) #从字符串传递xml

root = tree.getroot() #获得root节点

except Exception, e:

print "Error:cannot parse file:country.xml."

sys.exit(1)

print root.tag, "---", root.attrib

for child in root:

print child.tag, "---", child.attrib

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38558870

粉丝: 4
资源: 899

Python解析XML：ElementTree模块与DOM、SAX对比

深入解读Python解析XML的几种方式

python 解析XML python模块xml.dom解析xml实例代码

python解析xml简单示例

python解析html的几种方法

python解析xml模块封装代码

python解析xml文件增删查找

python解析xml文件方式(解析、更新、写入)

Python解析XML：xml.dom模块详解及实例

Python解析XML的ElementTree深度指南

python解析xml文件

最新资源