python爬取百度贴吧
时间: 2023-09-30 18:03:13 浏览: 88
可以使用Python的requests和BeautifulSoup库来爬取百度贴吧。
首先,需要确定要爬取的贴吧的名称和页数。然后,使用requests库向贴吧的URL发送GET请求,将响应内容解析为BeautifulSoup对象,从中提取出帖子的标题、作者、时间等信息。
以下是一个简单的示例代码,以爬取“Python”贴吧为例:
```python
import requests
from bs4 import BeautifulSoup
# 设置要爬取的贴吧名称和页数
tieba_name = "Python"
page_num = 2
# 循环爬取每一页的内容
for i in range(1, page_num+1):
url = f"https://tieba.baidu.com/f?kw={tieba_name}&ie=utf-8&pn={(i-1)*50}"
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")
# 解析帖子列表
post_list = soup.find_all("div", {"class": "threadlist_title"})
for post in post_list:
title = post.a.text.strip()
author = post.find_next_sibling("div", {"class": "threadlist_author"}).a.text.strip()
time = post.find_next_sibling("div", {"class": "threadlist_author"}).span.text.strip()
print(f"标题:{title},作者:{author},时间:{time}")
```
这段代码会爬取“Python”贴吧的前两页帖子的标题、作者和时间,并输出到控制台。你可以根据自己的需求进行修改和扩展。
阅读全文