首页爬取 https://haokan.baidu.com/?sfrom=baidu-top 所有的视频

爬取 https://haokan.baidu.com/?sfrom=baidu-top 所有的视频

时间: 2023-12-15 09:07:06 浏览: 39

首先，我们需要分析该网站的页面结构，发现该网站采用了动态加载技术，因此我们需要使用模拟浏览器的方式来获取页面内容。以下是实现的步骤： 1. 安装 selenium 库，并下载对应浏览器的 webdriver。 2. 打开浏览器并访问 https://haokan.baidu.com/?sfrom=baidu-top。 3. 模拟下拉操作，等待页面加载完毕。 4. 使用 BeautifulSoup 解析页面内容，获取视频链接。 5. 使用 requests 库下载视频。以下是代码示例： ```python from selenium import webdriver from selenium.webdriver.common.keys import Keys from bs4 import BeautifulSoup import requests import time # 打开浏览器 driver = webdriver.Chrome() # 访问网站 driver.get('https://haokan.baidu.com/?sfrom=baidu-top') # 模拟下拉操作 for i in range(10): driver.find_element_by_tag_name('body').send_keys(Keys.END) time.sleep(2) # 解析页面内容 html = driver.page_source soup = BeautifulSoup(html, 'html.parser') videos = soup.find_all('a', {'class': 'video-card-common'}) # 下载视频 for video in videos: url = video.get('href') r = requests.get(url, stream=True) with open(url.split('/')[-1], 'wb') as f: for chunk in r.iter_content(chunk_size=1024): if chunk: f.write(chunk) ``` 需要注意的是，该代码只能爬取最新的视频，如果需要爬取更多视频，则需要模拟翻页操作，并修改代码来实现。同时，由于视频较多，建议使用多线程或异步方式来下载视频以提高效率。

最新推荐

tinyplay /storage/BFEF-19EE/wav.wav -D 0 cannot open device 0 for card 0 Unable to open PCM device 0.

这个错误信息可能是由于无法打开PCM设备0导致的。请检查以下几个方面，以便解决这个问题： 1. 你是否有足够的权限来访问该设备？ 2. 检查一下PCM设备0是否已经被其他程序占用了。 3. 确认一下你的PCM设备是否已经被正确地配置和设置。 4. 检查一下你的系统是否有足够的内存和资源来支持你的PCM设备。如果以上几个方面都检查过了，仍然无法解决问题，你可以尝试使用其他的设备号或者采用其他的操作系统来测试这个问题。

建筑供配电系统相关课件.pptx

爬取 https://haokan.baidu.com/?sfrom=baidu-top 所有的视频

相关推荐

所有浏览器主页惨遭篡改：http://wangzhi6.dhtz444.top/或https://www.2345.com/

c代码-C语言三个数从小到大排序/输出： 任意输入 3 个整数，编程实现对这 3 个整数由小到大进行排序。 冒泡排序的动画 https://haokan.baidu.com/v?vid=8080732080990475789&pd=bjh&fr=bjhauthor&type=video

leetcode296-LeetCode:https://leetcode-cn.com/problemset/all/

TF-Blender：视频对象检测中的时间关系建模与特征聚合方法

制作一个导航栏 参考网址https://www.hao123.com/?src=from_pc

写js代码，把http://www.baidu.com/proxy=http://www.hao123.com，这个url中的http://www.baidu.com/proxy= 提取出来

使用网络爬虫爬取hao123上的新闻网站的网址和网站名 初始url：http://www.hao123.com/newswangzhi 将结果存储到csv文件中，提交py和csv文件

百度 新浪 搜狐 腾讯 网易 百度地图 如何让ul在div中居中

用python实现使用网络爬虫爬取hao123上的新闻网站的网址和网站名 初始url：http://www.hao123.com/newswangzhi 将结果存储到csv文件中，提交py和csv文件

Exception in thread "main" java.lang.ArithmeticException: / by zero at Bb.Er.main(Er.java:18)

sudo vi /var/named/hao.cn.zone

echo "计算机网络二班yuhao: 本机 IP 202.206.18.12" > /var/hao/www/index.htm

No suitable driver found for jdbc:mysql://localhost:3306/hao

最新推荐

高校学生选课系统项目源码资源

RTL8188FU-Linux-v5.7.4.2-36687.20200602.tar(20765).gz

管理建模和仿真的文件

：YOLOv1目标检测算法：实时目标检测的先驱，开启计算机视觉新篇章

info-center source defatult

c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf

"互动学习：行动中的多样性与论文攻读经历"

：YOLO目标检测算法的挑战与机遇：数据质量、计算资源与算法优化，探索未来发展方向

tinyplay /storage/BFEF-19EE/wav.wav -D 0 cannot open device 0 for card 0 Unable to open PCM device 0.

建筑供配电系统相关课件.pptx

c代码-C语言三个数从小到大排序/输出：任意输入 3 个整数，编程实现对这 3 个整数由小到大进行排序。冒泡排序的动画 https://haokan.baidu.com/v?vid=8080732080990475789&pd=bjh&fr=bjhauthor&type=video

制作一个导航栏参考网址https://www.hao123.com/?src=from_pc

使用网络爬虫爬取hao123上的新闻网站的网址和网站名初始url：http://www.hao123.com/newswangzhi 将结果存储到csv文件中，提交py和csv文件

百度新浪搜狐腾讯网易百度地图如何让ul在div中居中

用python实现使用网络爬虫爬取hao123上的新闻网站的网址和网站名初始url：http://www.hao123.com/newswangzhi 将结果存储到csv文件中，提交py和csv文件