Python网络编程：HTMLParser与BeautifulSoup实战解析

134 浏览量更新于2024-08-31 收藏 102KB PDF 举报

在本篇Python网络编程学习笔记中，我们主要探讨了如何使用HTMLParser模块进行网页解析。HTMLParser是Python标准库中的一个用于解析HTML文档的工具，它提供了一种基于事件驱动的方式来解析HTML结构。在这一章节中，我们通过一个具体的实例来理解如何运用HTMLParser。首先，我们看到一个名为`test1.html`的简单HTML文件，其内容包括`<html>`、`<head>`、`<title>`和`<body>`标签，标题部分包含了文本"XHTML与HTML4.01标准没有太多的不同"，而主体部分是文本"iloveyou"。为了解析这个文件，我们创建了一个自定义的`TitleParser`类，继承自HTMLParser，并重写了几个关键方法： 1. `__init__`方法初始化了两个属性：`taglevels`用于存储处理过的标签层次，`handledtags`是一个列表，包含我们想要处理的标签（在这个例子中是'title'和'body'）。 2. `handle_starttag`方法会在遇到新的开始标签时被调用，如果该标签在`handledtags`列表中，它会设置`self.data`为空字符串，并将当前处理的标签设为`tag`。 3. `handle_data`方法在遇到数据时被调用，将数据添加到对应的处理标签的值中。如果`self.processing`不为空，表示正在处理某个标签，就将接收到的数据添加到`self.data`中。 4. `handle_endtag`方法处理结束标签，当遇到与`self.processing`相同的标签时，打印出处理结果并清空`self.processing`。 5. `gettitle`方法返回处理过的title标签的内容。在实际操作中，我们打开`test1.html`文件，创建`TitleParser`对象`tp`，然后调用`feed`方法，传入文件内容。程序运行后，会解析出标题和主体部分的内容，分别输出为"title:XHTML与HTML4.01标准没有太多的不同"和"body:iloveyou"。这个例子展示了如何使用HTMLParser的基本功能，即在遇到特定标签时执行相应的操作。对于更复杂的HTML文档，可以通过递归或使用更高级的解析库如BeautifulSoup来处理，但HTMLParser是理解和掌握HTML解析的基础。学习这种基础技巧对于编写网络爬虫、处理网页数据提取等场景非常有帮助。同时，HTMLParser也适合于初学者理解HTML文档的结构，为进一步学习其他解析库做准备。

python网络编程学习笔记网络编程学习笔记(七七)：：HTML和和XHTML解析解析(HTMLParser、、

BeautifulSoup)

一、利用一、利用HTMLParser进行网页解析进行网页解析

具体HTMLParser官方文档可参考http://docs.python.org/library/htmlparser.html#HTMLParser.HTMLParser

1、从一个简单的解析例子开始

例1：

test1.html文件内容如下：

复制代码代码如下:

<html>

<head>

<title> XHTML 与 HTML 4.01 标准没有太多的不同</title>

</head>

<body>

i love you

</body>

</html>

下面是能够列出title和body的程序示例：

复制代码代码如下:

##@小五义：

##HTMLParser示例

import HTMLParser

class TitleParser(HTMLParser.HTMLParser):

def __init__(self):

self.taglevels=[]

self.handledtags=[‘title’,’body’] #提出标签

self.processing=None

HTMLParser.HTMLParser.__init__(self)

def handle_starttag(self,tag,attrs):

if tag in self.handledtags:

self.data=”

self.processing=tag

def handle_data(self,data):

if self.processing:

self.data +=data

def handle_endtag(self,tag):

if tag==self.processing:

print str(tag)+’:’+str(tp.gettitle())

self.processing=None

def gettitle(self):

return self.data

fd=open(‘test1.html’)

tp=TitleParser()

tp.feed(fd.read())

运行结果如下：

title: XHTML 与 HTML 4.01 标准没有太多的不同

body:

i love you

程序定义了一个TitleParser类，它是HTMLParser类的子孙。HTMLParser的feed方法将接收数据，并通过定义的HTMLParser对象对数据进行相应的解析。其中

handle_starttag、handle_endtag判断起始和终止tag，handle_data检查是否取得数据，如果self.processing不为None，那么就取得数据。

2、解决、解决html实体问题实体问题

（HTML 中有用的字符实体）

（1）实体名称

当与到HTML中的实体问题时，上面的例子就无法实现，如这里将test1.html的代码改为：

例2：

复制代码代码如下:

<html>

<head>

<title> XHTML 与" HTML 4.01 "标准没有太多的不同</title>

</head>

<body>

i love you×

</body>

</html>

利用上面的例子进行分析，其结果是：

title: XHTML 与 HTML 4.01 标准没有太多的不同

body:

下载后可阅读完整内容，剩余8页未读，立即下载

weixin_38680340

粉丝: 4

Python网络编程：HTMLParser与BeautifulSoup实战解析

java源码：HTML文档解析器 HTMLParser.rar

htmlparser(HTML页面解析)例子

Python HTML解析器BeautifulSoup用法实例详解【爬虫解析器】

Java爬虫必备：HttpClient、jsoup及HtmlParser压缩包

HTML解析技术：深入解析htmlparser1_6.jar

DOMHandler：HTML解析库htmlparser2中的DOM构建工具

Python HTMLParser教程：解析HTML文档基础

Python BeautifulSoup 4：HTML解析器实例与安装教程

Python爬虫解析利器：BeautifulSoup详解与实例

Python网络抓取指南：使用BeautifulSoup实现

最新资源