python爬虫爬取贴吧内容
时间: 2023-11-08 10:55:30 浏览: 96
基于python爬虫对百度贴吧进行爬取的设计与实现.docx
5星 · 资源好评率100%
你可以使用Python的爬虫库来爬取贴吧内容,常用的库有requests和BeautifulSoup。以下是一个简单的示例代码:
```python
import requests
from bs4 import BeautifulSoup
def crawl_tieba(keyword):
url = f"https://tieba.baidu.com/f?kw={keyword}"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.content, "html.parser")
# 解析页面并提取想要的内容
posts = soup.find_all("div", class_="threadlist_lz")
for post in posts:
title = post.find("a", class_="j_th_tit").text.strip()
author = post.find("span", class_="tb_icon_author").text.strip()
print(f"帖子标题:{title}")
print(f"作者:{author}")
print("=" * 50)
# 调用函数并传入要搜索的关键词
crawl_tieba("python爬虫")
```
这段代码通过发送HTTP请求获取百度贴吧中相关关键词的页面,并使用BeautifulSoup解析HTML内容。你可以根据需要修改代码,提取想要的数据。不过需要注意的是,请遵守网站的爬虫规则和法律法规,以免造成不必要的纠纷。
阅读全文