python爬取https://www.iqiyi.com/u/1290995902/videos前10页视频的 视频标题、URL、当前热度、评论数
时间: 2023-12-23 14:03:16 浏览: 112
python爬取网站视频资源
由于该网站需要登录后才能访问,因此需要使用Selenium模拟登录。
具体步骤如下:
1. 安装Selenium和ChromeDriver,并导入相关库。
```
pip install selenium
```
2. 打开Chrome浏览器,并访问https://www.iqiyi.com/u/1290995902/videos。
```python
from selenium import webdriver
browser = webdriver.Chrome()
browser.get('https://www.iqiyi.com/u/1290995902/videos')
```
3. 点击登录按钮,输入账号密码并登录。
```python
# 点击登录按钮
login_button = browser.find_element_by_css_selector('.qy-header .login')
login_button.click()
# 输入账号密码并登录
browser.switch_to.frame('login_frame')
username_input = browser.find_element_by_name('email')
password_input = browser.find_element_by_name('password')
login_button = browser.find_element_by_css_selector('.submit-btn')
username_input.send_keys('your_username')
password_input.send_keys('your_password')
login_button.click()
```
4. 循环遍历前10页视频,并获取视频标题、URL、当前热度、评论数。
```python
import time
for page in range(1, 11):
# 获取页面所有视频元素
video_elements = browser.find_elements_by_css_selector('.list_item')
for video_element in video_elements:
# 获取视频标题和URL
title_element = video_element.find_element_by_css_selector('.title a')
title = title_element.text
url = title_element.get_attribute('href')
# 获取当前热度
hot_element = video_element.find_element_by_css_selector('.play-count .num')
hot = hot_element.text
# 获取评论数
comment_element = video_element.find_element_by_css_selector('.comment .num')
comment = comment_element.text
# 输出结果
print(title, url, hot, comment)
# 点击下一页按钮
next_page_button = browser.find_element_by_css_selector('.a1 .next')
next_page_button.click()
# 等待页面加载完成
time.sleep(3)
```
完整代码如下:
阅读全文