python爬虫微博评论
时间: 2023-06-22 17:23:15 浏览: 129
好的,以下是一个简单的爬虫示例,可供参考:
1. 安装必要的库
需要安装 requests, BeautifulSoup4 和lxml 库来帮助我们获取 HTML 页面并解析它。
```
pip install requests
pip install beautifulsoup4
pip install lxml
```
2. 获取页面 HTML 内容
使用 requests 库来获取微博页面的 HTML 内容,这里以某一条微博的评论为例。
```python
import requests
url = 'https://weibo.com/xxxxx/xxxxx'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
response = requests.get(url, headers=headers)
if response.status_code == 200:
html = response.text
```
3. 解析 HTML 内容
使用 BeautifulSoup4 库和 lxml 解析器来解析 HTML 内容。
```python
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
```
4. 提取评论数据
通过查看页面 HTML 结构,我们可以观察到评论数据是在一个 class 为 "list_box" 的 div 元素中的。我们可以使用 find 方法来找到这个 div 元素,并进一步提取评论数据。
```python
comment_list = []
comment_div = soup.find('div', {'class': 'list_box'})
if comment_div:
comment_list = comment_div.find_all('div', {'class': 'list_li S_line1 clearfix'})
```
5. 输出评论数据
最后,我们可以遍历评论数据列表并输出每一条评论数据。
```python
for comment in comment_list:
user = comment.find('div', {'class': 'WB_text'}).find('a').text
content = comment.find('div', {'class': 'WB_text'}).find('span', {'class': 'ctt'}).text
print(user, content)
```
完整代码如下:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://weibo.com/xxxxx/xxxxx'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
response = requests.get(url, headers=headers)
if response.status_code == 200:
html = response.text
soup = BeautifulSoup(html, 'lxml')
comment_list = []
comment_div = soup.find('div', {'class': 'list_box'})
if comment_div:
comment_list = comment_div.find_all('div', {'class': 'list_li S_line1 clearfix'})
for comment in comment_list:
user = comment.find('div', {'class': 'WB_text'}).find('a').text
content = comment.find('div', {'class': 'WB_text'}).find('span', {'class': 'ctt'}).text
print(user, content)
```
需要注意的是,微博对于爬虫行为有限制,可能会出现被封禁的情况。请注意使用爬虫,遵守相关法律法规。
阅读全文