用jupyter notebook 爬取百度贴吧中的减肥吧页面
时间: 2023-10-10 16:13:48 浏览: 67
好的,首先我们需要安装 `requests` 和 `lxml` 库。
可以通过以下命令来安装:
```
!pip install requests lxml
```
然后,我们就可以开始编写爬虫代码了。以下是一个简单的示例:
```python
import requests
from lxml import etree
url = 'https://tieba.baidu.com/f?kw=%E5%87%8F%E8%82%A5&ie=utf-8&pn=0'
response = requests.get(url)
html = etree.HTML(response.text)
titles = html.xpath('//a[@class="j_th_tit"]/text()')
for title in titles:
print(title)
```
这个代码会爬取百度贴吧中“减肥吧”页面的帖子标题,并打印出来。
解释一下代码:
1. 首先,我们使用 `requests` 库发送 HTTP GET 请求,获取页面内容。
2. 然后,我们使用 `lxml` 库解析 HTML 页面内容,得到一个 Element 对象。
3. 我们使用 `xpath` 方法从 Element 对象中提取帖子标题数据。
4. 最后,我们遍历所有的标题,并打印出来。
需要注意的是,这个示例只能爬取第一页的帖子标题。如果要爬取更多页面的内容,需要修改 `url` 中的 `pn` 参数,例如:
```python
url = 'https://tieba.baidu.com/f?kw=%E5%87%8F%E8%82%A5&ie=utf-8&pn=50'
```
这个 URL 将会爬取第二页的帖子标题。其中,`pn` 参数的值表示偏移量,每页有 50 个帖子,所以第二页的偏移量是 50。