爬取 https://haokan.baidu.com/?sfrom=baidu-top 所有的视频
时间: 2023-12-15 09:07:06 浏览: 39
首先,我们需要分析该网站的页面结构,发现该网站采用了动态加载技术,因此我们需要使用模拟浏览器的方式来获取页面内容。
以下是实现的步骤:
1. 安装 selenium 库,并下载对应浏览器的 webdriver。
2. 打开浏览器并访问 https://haokan.baidu.com/?sfrom=baidu-top。
3. 模拟下拉操作,等待页面加载完毕。
4. 使用 BeautifulSoup 解析页面内容,获取视频链接。
5. 使用 requests 库下载视频。
以下是代码示例:
```python
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from bs4 import BeautifulSoup
import requests
import time
# 打开浏览器
driver = webdriver.Chrome()
# 访问网站
driver.get('https://haokan.baidu.com/?sfrom=baidu-top')
# 模拟下拉操作
for i in range(10):
driver.find_element_by_tag_name('body').send_keys(Keys.END)
time.sleep(2)
# 解析页面内容
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')
videos = soup.find_all('a', {'class': 'video-card-common'})
# 下载视频
for video in videos:
url = video.get('href')
r = requests.get(url, stream=True)
with open(url.split('/')[-1], 'wb') as f:
for chunk in r.iter_content(chunk_size=1024):
if chunk:
f.write(chunk)
```
需要注意的是,该代码只能爬取最新的视频,如果需要爬取更多视频,则需要模拟翻页操作,并修改代码来实现。同时,由于视频较多,建议使用多线程或异步方式来下载视频以提高效率。