pyquery用法讲解
时间: 2023-10-09 14:13:01 浏览: 81
Python爬虫PyQuery库基本用法入门教程
PyQuery是一个类似于jQuery的Python库,它允许我们使用类似于jQuery的语法来操作HTML和XML文档。PyQuery基于lxml库构建,并提供了一种更为Pythonic的方式来进行文档解析和操作。
下面是一些PyQuery的基本用法:
1. 安装PyQuery库
使用pip命令来安装PyQuery库:
```
pip install pyquery
```
2. 创建PyQuery对象
可以通过传入HTML或XML字符串来创建PyQuery对象,也可以从本地文件或URL获取文档并创建对象。
```
from pyquery import PyQuery as pq
# 从HTML字符串创建PyQuery对象
html = '''
<div class="wrap">
<div class="box"></div>
<div class="box"></div>
<div class="box"></div>
</div>
'''
doc = pq(html)
# 从本地文件创建PyQuery对象
doc = pq(filename='example.html')
# 从URL创建PyQuery对象
doc = pq(url='http://www.example.com')
```
3. 查找元素
可以使用类似于CSS选择器的语法来查找元素。
```
from pyquery import PyQuery as pq
html = '''
<div class="wrap">
<div class="box"></div>
<div class="box"></div>
<div class="box"></div>
</div>
'''
doc = pq(html)
# 查找class为box的元素
items = doc('.box')
print(items)
```
4. 获取属性和文本
可以使用attr()方法来获取元素的属性,text()方法来获取元素的文本。
```
from pyquery import PyQuery as pq
html = '''
<div class="wrap">
<a href="http://www.example.com">example</a>
</div>
'''
doc = pq(html)
# 获取a标签的href属性
link = doc('a')
print(link.attr('href'))
# 获取a标签的文本
text = link.text()
print(text)
```
5. 修改属性和文本
可以使用attr()方法来修改元素的属性,text()方法来修改元素的文本。
```
from pyquery import PyQuery as pq
html = '''
<div class="wrap">
<a href="http://www.example.com">example</a>
</div>
'''
doc = pq(html)
# 修改a标签的href属性
link = doc('a')
link.attr('href', 'http://www.newexample.com')
print(link)
# 修改a标签的文本
link.text('new example')
print(link)
```
6. 遍历元素
可以使用for循环遍历元素。
```
from pyquery import PyQuery as pq
html = '''
<div class="wrap">
<div class="box"></div>
<div class="box"></div>
<div class="box"></div>
</div>
'''
doc = pq(html)
# 遍历class为box的元素
items = doc('.box')
for item in items:
print(item)
```
以上就是PyQuery的一些基本用法,可以帮助我们更方便地解析和操作HTML和XML文档。
阅读全文