selenium 找到<video>的标签,并提取src的值
时间: 2024-04-01 16:35:21 浏览: 141
你可以使用Selenium的`find_element_by_tag_name()`方法来找到`<video>`标签,然后使用该元素的`get_attribute()`方法来提取`src`属性的值,具体的代码如下:
```python
from selenium import webdriver
# 创建一个Chrome浏览器实例
browser = webdriver.Chrome()
# 打开网页
browser.get("http://example.com")
# 找到video标签
video_element = browser.find_element_by_tag_name("video")
# 提取src属性的值
video_src = video_element.get_attribute("src")
# 打印src属性的值
print(video_src)
# 关闭浏览器
browser.quit()
```
在上面的代码中,我们首先创建了一个Chrome浏览器实例,然后打开一个网页。接着,我们使用`find_element_by_tag_name()`方法找到了`<video>`标签,并将其赋值给`video_element`变量。最后,我们使用`get_attribute()`方法提取了`src`属性的值,并将其赋值给`video_src`变量。
相关问题
1、使用selenium库实现个人账号(QQ账号登录以及QQ链接登录)登录百度网盘,爬取网盘视频文件列表(文件名、修改时间、大小); 2、在网盘中创建个人文件夹,将指定分享链接中的文件保存到网盘个人文件夹中等相关操作。
非常感谢您的提问!根据您提供的问题,我可以为您提供一些思路和方向。
第一部分:登录百度网盘,爬取视频文件列表
您可以使用selenium库来模拟用户的登录操作,以及爬取网盘视频文件列表的操作。以下是一些可能有用的步骤:
1. 导入必要的库:
```python
from selenium import webdriver
import time
```
2. 启动浏览器,并打开百度网盘登录界面:
```python
browser = webdriver.Chrome() # 如果需要使用其他浏览器,请更改相应的驱动程序
browser.get('https://pan.baidu.com/')
time.sleep(2) # 等待页面加载完成
```
3. 查找并点击登录按钮:
```python
login_button_xpath = '//*[@id="top-login-btns"]/a[2]'
login_button = browser.find_element_by_xpath(login_button_xpath)
login_button.click()
time.sleep(2) # 等待登录框弹出
```
4. 切换到QQ登录界面,并输入账号和密码:
```python
qq_login_button_xpath = '/html/body/div[5]/div/div/div/div/div[2]/div[2]/div[1]/a[1]'
qq_login_button = browser.find_element_by_xpath(qq_login_button_xpath)
qq_login_button.click()
time.sleep(2) # 等待QQ登录框弹出
qq_frame_xpath = '//*[@id="login_frame_qq"]'
browser.switch_to.frame(browser.find_element_by_xpath(qq_frame_xpath))
qq_account_name = 'your_qq_account_name'
qq_account_password = 'your_qq_account_password'
account_name_input_xpath = '//*[@id="u"]'
account_name_input = browser.find_element_by_xpath(account_name_input_xpath)
account_name_input.send_keys(qq_account_name)
account_password_input_xpath = '//*[@id="p"]'
account_password_input = browser.find_element_by_xpath(account_password_input_xpath)
account_password_input.send_keys(qq_account_password)
login_submit_button_xpath = '//*[@id="login_button"]'
login_submit_button = browser.find_element_by_xpath(login_submit_button_xpath)
login_submit_button.click()
time.sleep(2) # 等待登录完成
```
5. 切换回网盘主页面,并进入目标文件夹:
```python
browser.switch_to.default_content() # 切换回主页面
target_folder_url = 'https://pan.baidu.com/disk/home#list/path=%2Fvideo%2Fmovie'
browser.get(target_folder_url)
time.sleep(2) # 等待页面加载完成
```
6. 爬取文件列表:
```python
# 使用xpath查找所有的文件列表行
rows_xpath = '//*[@id="file-list"]/div/div/div[1]/table/tbody/tr'
rows = browser.find_elements_by_xpath(rows_xpath)
for row in rows:
# 查找文件名
name_element = row.find_element_by_xpath('.//span[@class="filename"]/a/span')
name = name_element.text
# 查找修改时间
time_element = row.find_element_by_xpath('.//td[3]')
time = time_element.text
# 查找文件大小
size_element = row.find_element_by_xpath('.//td[4]')
size = size_element.text
print(name, time, size)
```
第二部分:将指定分享链接中的文件保存到网盘个人文件夹中
这部分的功能可以通过百度网盘的API来实现。以下是一些可能有用的步骤:
1. 导入必要的库:
```python
import requests
import json
```
2. 设置API的基本参数:
```python
access_token = 'your_access_token'
pan_api_url = 'https://pan.baidu.com/rest/2.0/xpan/file'
```
3. 查找分享链接的文件信息:
```python
file_info_url = 'https://pan.baidu.com/s/1gmFJlGv'
file_info_response = requests.get(file_info_url)
src_url_start = file_info_response.text.find('https://pan.baidu.com/disk') #定位到地址开头索引
src_url_end = file_info_response.text.find('.mp4') + 4 #定位到地址结尾索引,对于mp4文件,一直到文件名末尾
file_src_url = file_info_response.text[src_url_start:src_url_end] #提取完整的百度云分享链接
print(file_src_url)
```
4. 调用API上传文件到网盘:
```python
# 首先需要获取目标文件夹的dir_path参数,可以通过API的list接口来查询
list_params = {
'method': 'list',
'access_token': access_token,
'dir': '/video/movie',
'order': 'name',
'web': '1'
}
list_response = requests.post(pan_api_url, data=list_params)
list_data = json.loads(list_response.text)
# 查找目标文件夹的dir_path参数
dir_path = ''
for item in list_data['list']:
if item['isdir'] and item['server_filename'] == 'test_folder':
dir_path = item['path']
break
# 调用API上传文件
upload_params = {
'method': 'upload',
'access_token': access_token,
'path': dir_path + '/test.mp4',
'ondup': 'newcopy'
}
upload_headers = {
'User-Agent': 'netdisk;3.8.2.2;PC;PC-Windows;10.0.18363;WindowsBaiduYunGuanjia'
}
requests.post(pan_api_url, params=upload_params, headers=upload_headers, data=requests.get(file_src_url).content)
```
以上是一些可能有用的代码,需要根据具体的情况进行调整。希望可以帮助到您!
使用python爬虫打开指定网站,解析网站源码 找出视频相关资源 并进行 播放,请写出两种以上的方法并注释含义
### 回答1:
方法一:使用 requests 和 BeautifulSoup 库
代码实现:
```
import requests
from bs4 import BeautifulSoup
url = "https://example.com/videos"
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")
# 找到视频资源链接并播放
video_links = soup.find_all("a", {"class": "video-link"})
for link in video_links:
video_url = link.get("href")
# 使用相应的视频播放库播放视频,如VLC
print("Now playing: ", video_url)
```
注释:
1. 首先使用 requests 库获取网页的源代码,然后使用 BeautifulSoup 库解析 HTML 文件。
2. 然后找到所有包含视频链接的标签(如a标签,其class为"video-link"),并提取链接地址。
3. 最后使用相应的视频播放库来播放视频资源。
方法二:使用 scrapy 框架
代码实现:
```
import scrapy
class VideoSpider(scrapy.Spider):
name = "videos"
start_urls = ["https://example.com/videos"]
def parse(self, response):
video_links = response.css("a.video-link::attr(href)").getall()
for link in video_links:
# 使用相应的视频播放库播放视频,如VLC
print("Now playing: ", link)
```
注释:
1. scrapy是Python中一个功能强大、高效的框架,用于快速开发爬虫程序。
2. 上述代码定义了爬虫的名称和起始URL,并使用parse方法解析响应,从响应中提取所有视频链接地址。
3. 最后使用相应的视频播放库播放视频。
### 回答2:
方法一:
```python
import requests
from bs4 import BeautifulSoup
import webbrowser
# 1. 发送 HTTP 请求,获取网站源码
url = "http://example.com"
response = requests.get(url)
html = response.text
# 2. 解析网站源码,找出视频相关资源
soup = BeautifulSoup(html, "html.parser")
video_tags = soup.find_all("video")
video_urls = [tag["src"] for tag in video_tags]
# 3. 播放视频
for url in video_urls:
webbrowser.open(url)
```
方法二:使用第三方库 `selenium`,模拟浏览器行为实现播放。
```python
from selenium import webdriver
# 1. 使用 Selenium 打开指定网站
url = "http://example.com"
driver = webdriver.Chrome() # 需要提前安装 Chrome 浏览器和对应的 ChromeDriver
driver.get(url)
# 2. 解析网站源码,找出视频相关资源
video_elements = driver.find_elements_by_tag_name("video")
video_urls = [element.get_attribute("src") for element in video_elements]
# 3. 播放视频
for url in video_urls:
driver.get(url)
# 添加适当的等待时间,确保视频加载完成
time.sleep(5)
# 关闭浏览器
driver.quit()
```
注释:
1. 通过发送 HTTP 请求来获取网站的源码,使用 `requests` 库的 `get()` 方法,将响应结果的文本内容获取到。
2. 使用 `BeautifulSoup` 库来解析网站源码,利用其提供的方法和属性来提取需要的视频相关资源。
3. 通过 `webbrowser` 库,调用 `open()` 方法来打开视频相关资源的链接。该方法会选择默认的浏览器来实现打开操作。
4. 使用 `selenium` 库,可以模拟浏览器的行为来实现打开网站、解析网站源码、播放视频等操作。
5. `find_elements_by_tagname()` 方法用于根据标签名获取元素列表,`get_attribute()` 方法获取元素的属性值。
6. 使用 `time.sleep()` 方法加入适当的等待时间,等待视频加载完成后再进行播放。
7. 最后要通过 `driver.quit()` 方法来关闭浏览器,释放资源。
### 回答3:
方法一:
```
import requests
from bs4 import BeautifulSoup
import webbrowser
# 发送GET请求并获取网页源码
url = "指定网站的URL"
response = requests.get(url)
html = response.text
# 使用BeautifulSoup解析网页源码
soup = BeautifulSoup(html, "html.parser")
# 找出视频相关资源
video_links = soup.find_all("a", {"class": "video-link"})
# 随机选择一个视频链接
if len(video_links) > 0:
video_url = video_links[0]["href"]
playback_url = "转换为可以播放的URL格式"
# 使用webbrowser模块打开并播放视频
webbrowser.open(playback_url)
else:
print("未找到相关视频资源")
```
方法二:
```
import requests
from bs4 import BeautifulSoup
import subprocess
# 发送GET请求并获取网页源码
url = "指定网站的URL"
response = requests.get(url)
html = response.text
# 使用BeautifulSoup解析网页源码
soup = BeautifulSoup(html, "html.parser")
# 找出视频相关资源
video_links = soup.find_all("a", {"class": "video-link"})
# 随机选择一个视频链接
if len(video_links) > 0:
video_url = video_links[0]["href"]
# 使用subprocess模块调用系统默认播放器播放视频
subprocess.call(["open", video_url])
else:
print("未找到相关视频资源")
```
方法三:
```
import requests
from bs4 import BeautifulSoup
import vlc
# 发送GET请求并获取网页源码
url = "指定网站的URL"
response = requests.get(url)
html = response.text
# 使用BeautifulSoup解析网页源码
soup = BeautifulSoup(html, "html.parser")
# 找出视频相关资源
video_links = soup.find_all("a", {"class": "video-link"})
# 随机选择一个视频链接
if len(video_links) > 0:
video_url = video_links[0]["href"]
# 使用VLC库创建媒体对象并进行播放
player = vlc.MediaPlayer(video_url)
player.play()
else:
print("未找到相关视频资源")
```
注释:以上三种方法都使用了requests库发送GET请求获取网页源码,然后使用BeautifulSoup库解析源码。方法一使用webbrowser模块,通过打开指定URL实现视频播放。方法二使用subprocess模块,通过调用系统默认播放器实现视频播放。方法三使用vlc库,创建媒体对象并进行播放。注意替换代码中的"指定网站的URL"为具体的网站地址。
阅读全文