Python中的XML处理：xmllib与SAX解析

160 浏览量更新于2024-08-30 收藏 98KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"这篇文章主要探讨了Python中处理XML的模块`xmllib`，以及推荐使用更先进的SAX技术。文章提供了使用`xmllib`的示例代码，展示如何解析XML文档，提取其中的引言数据。" 在Python编程中，XML（可扩展标记语言）是一种常用的数据交换和存储格式，特别是在需要结构化数据的地方。`xmllib`是Python 1.5x至Python 2.0+版本中提供的一个非验证的低级XML解析库。它是一个语法分析器，允许程序员覆盖`XMLParser`类，自定义处理XML文档元素的方法，如处理特定标记、属性或字符实体。然而，`xmllib`并不是处理XML的最佳选择，特别是对于大型或复杂文档。由于它是一个非验证的解析器，它不检查XML文档是否符合其相关的DTD（文档类型定义）或XSD（XML Schema），这可能导致解析错误被忽视。此外，`xmllib`不支持面向事件的解析模型，这使得处理大型XML文件时内存效率较低。在Python中，SAX（Simple API for XML）通常被认为是处理XML的首选方法，尤其是对于大文件。SAX是一种基于事件驱动的解析模型，它以流式方式处理XML文档，只在遇到特定事件（如开始标签、结束标签等）时调用回调函数，从而减少了内存消耗。与`xmllib`相比，SAX更适合处理大型XML文档，且对开发者更加友好，因为它遵循XML处理的标准实践。文章提供了一个名为`QuotationParser`的简单示例，该类继承自`xmllib.XMLParser`。这个类用于解析一个包含引言的XML文档（sample.xml），并且在遇到`<quotations>`、`<quotation>`等特定标记时，会打印出引言内容。`handle_data`方法累积遇到的文本数据，而`start_quotation`和`end_quotation`方法则用于标记引言的开始和结束，以便提取和打印引言。需要注意的是，`QuotationParser`没有实现验证机制，因此可能会忽略XML文档的语法规则。此外，`syntax_error`方法被定义为空，这意味着在解析过程中遇到的任何语法错误都将被忽略，这在实际应用中可能引发问题。虽然`xmllib`在早期的Python版本中被使用，但随着SAX和其他更现代的XML处理库（如`lxml`或Python标准库中的`xml.etree.ElementTree`）的出现，开发者现在有更多高效、功能丰富的选择来处理XML数据。在编写XML解析程序时，应优先考虑使用这些更现代的库，以确保代码的稳定性和性能。

资源详情

资源推荐

进一步了解进一步了解Python中的中的XML 工具工具

模块：模块：xmllib

xmllib 是一个非验证的低级语法分析器。应用程序员使用的 xmllib 可以覆盖 XMLParser 类，并提供处理文档元素（如特定或

类属标记，或字符实体）的方法。从 Python 1.5x 到 Python 2.0+ 以来， xmllib 的使用方法并没变化；在绝大多数情况下更好

的选择是使用 SAX 技术，它也是种面向流的技术，对语言和开发者来说更为标准。

本文中的示例与原来专栏中的相同：包括一个叫做 quotations.dtd 的 DTD 以及这个 DTD 的文档 sample.xml （请参阅参考资

料，以获取本文中提到的文件的档案）。以下的代码显示了 sample.xml 中每段引言的前几行，并生成了非常简单的未知标记

和实体的 ASCII 指示符。经过分析的文本作为连续流来处理，所使用的任何累加器都由程序员负责（如标记中的字符串

(#PCDATA)，或所遇到的标记的列表或词典）。

清单清单 1: try_xmllib.py

import

xmllib, string

classQuotationParser

(xmllib.XMLParser):

"""Crude xmllib extractor for quotations.dtd document"""

def__init__

(self):

xmllib.XMLParser.__init__(self)

self.thisquote = ''

# quotation accumulator

defhandle_data

(self, data):

self.thisquote = self.thisquote + data

defsyntax_error

(self, message):

pass

defstart_quotations

(self, attrs):

# top level tag

'--- Begin Document ---'

defstart_quotation

(self, attrs):

'QUOTATION:'

defend_quotation

(self):

string.join(string.split(self.thisquote[:230]))+'...',

'('+str(len(self.thisquote))+' bytes)'

self.thisquote = ''

defunknown_starttag

(self, tag, attrs):

self.thisquote = self.thisquote + '{'

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38649315

粉丝: 6
资源: 932

Python中的XML处理：xmllib与SAX解析

python自定义解析简单xml格式文件的方法

python_XML-6-17.rar_python 文件_python xml_python读写xml_python读写xm

python京东数据分析爬虫

如何解析xml地图文件

零基础学python爬虫

python爬取招聘网站源码及数据分析

paddlepaddle xml2json.py

python soup

python 自动化操作网页

yolov5 txt转换xml格式

testlink xml转excel

python开发自动化测试页面

在调研过程中,经常需要对一些网站进行定向抓取。由于python包含各种强大的库

python爬虫白夜行

Python 爬虫怎么写

labelimg对应python

is620ns1r6i xml文件

python使用openvino 2022部署模型

python爬虫数据练习

最新资源