爬取百度贴吧评论的具体代码
时间: 2024-10-29 10:06:58 浏览: 99
python2爬取百度贴吧指定关键字和图片代码实例
爬取百度贴吧评论通常涉及到网络请求、HTML解析和数据处理等步骤。这里是一个基本的Python示例,使用`requests`和`BeautifulSoup`库来获取帖子及其评论:
```python
import requests
from bs4 import BeautifulSoup
import re
# 百度贴吧帖子URL
base_url = "http://tieba.baidu.com/p/"
def get_comments(url):
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
}
response = requests.get(url, headers=headers)
if response.status_code == 200:
soup = BeautifulSoup(response.text, 'lxml')
# 找到评论部分
divs = soup.find_all('div', class_='threadlist_content')
for div in divs:
username = div.find('a', class_='face')['title']
content = div.find('span', class_='txt').text
# 这里可能需要对内容进行清洗,例如去除HTML标签
clean_content = re.sub('<[^<]+?>', '', content)
print(f'{username}: {clean_content}')
else:
print(f"无法获取页面: {response.status_code}")
# 使用函数,输入具体的帖子ID(例如,p123456)
get_comments(base_url + "123456")
```
注意:这只是一个基础示例,实际的网页结构可能会有所不同,可能需要调整CSS选择器来适应变化。此外,频繁爬取可能违反百度贴吧的robots.txt规则,所以在操作前请确保遵守相关规定。
阅读全文