首页python爬取百度贴吧

python爬取百度贴吧

时间: 2023-09-30 18:03:13 浏览: 88

可以使用Python的requests和BeautifulSoup库来爬取百度贴吧。首先，需要确定要爬取的贴吧的名称和页数。然后，使用requests库向贴吧的URL发送GET请求，将响应内容解析为BeautifulSoup对象，从中提取出帖子的标题、作者、时间等信息。以下是一个简单的示例代码，以爬取“Python”贴吧为例： ```python import requests from bs4 import BeautifulSoup # 设置要爬取的贴吧名称和页数 tieba_name = "Python" page_num = 2 # 循环爬取每一页的内容 for i in range(1, page_num+1): url = f"https://tieba.baidu.com/f?kw={tieba_name}&ie=utf-8&pn={(i-1)*50}" response = requests.get(url) soup = BeautifulSoup(response.content, "html.parser") # 解析帖子列表 post_list = soup.find_all("div", {"class": "threadlist_title"}) for post in post_list: title = post.a.text.strip() author = post.find_next_sibling("div", {"class": "threadlist_author"}).a.text.strip() time = post.find_next_sibling("div", {"class": "threadlist_author"}).span.text.strip() print(f"标题：{title}，作者：{author}，时间：{time}") ``` 这段代码会爬取“Python”贴吧的前两页帖子的标题、作者和时间，并输出到控制台。你可以根据自己的需求进行修改和扩展。

阅读全文