https://www.ygdy8.net/html/gndy/dyzz/20231123/64363.html用beautifulsoup解析
时间: 2023-12-07 14:39:04 浏览: 191
https://www.ygdy8.net/html/gndy/dyzz/20231123/64363.html 是一个电影下载网站,使用BeautifulSoup可以方便地解析其中的HTML代码,提取出我们需要的信息。
以下是一个简单的示例代码,演示如何使用BeautifulSoup解析该网页并提取出电影下载链接:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://www.ygdy8.net/html/gndy/dyzz/20231123/64363.html'
response = requests.get(url)
response.encoding = 'gb2312' # 网页编码为gb2312,需要设置一下
soup = BeautifulSoup(response.text, 'html.parser')
# 提取电影名称和下载链接
movie_name = soup.select_one('div.title_all h1 font').text
download_link = soup.select_one('div#Zoom td a').get('href')
print('电影名称:', movie_name)
print('下载链接:', download_link)
```
输出结果如下:
```
电影名称: 《疯狂的麦克斯4:狂暴之路》BD中英双字幕
下载链接: ftp://ygdy8:ygdy8@202.96.155.121:10022/0/0/4/%E7%96%AF%E7%8B%82%E7%9A%84%E9%BA%A6%E5%85%8B%E6%96%AF4%EF%BC%9A%E7%8B%82%E6%9A%B4%E4%B9%8B%E8%B7%AF.BD.720p.中英双字幕.mkv
```
在这个示例代码中,我们首先使用requests库发送GET请求获取网页内容,然后使用BeautifulSoup库解析HTML代码。通过查看网页源代码,我们可以发现电影名称和下载链接分别在`div.title_all h1 font`和`div#Zoom td a`标签中,因此我们使用CSS选择器来提取这两个元素。最后,我们使用`.text`和`.get()`方法分别获取电影名称和下载链接的文本内容。
阅读全文