python爬虫爬取https://www.ygdy8.net/html/gndy/jddy/20190112/58049.html网页链接
时间: 2023-12-20 10:05:23 浏览: 141
以下是使用Python爬虫爬取网页链接的示例代码:
```python
import requests
from bs4 import BeautifulSoup
# 定义目标网页链接
url = "https://www.ygdy8.net/html/gndy/jddy/20190112/58049.html"
# 发送HTTP请求获取网页内容
response = requests.get(url)
html_content = response.text
# 使用BeautifulSoup解析网页内容
soup = BeautifulSoup(html_content, "html.parser")
# 获取所有电影详情页的地址
movie_links = []
a_tags = soup.find_all("a")
for a_tag in a_tags:
href = a_tag.get("href")
if href and href.startswith("ftp://"):
movie_links.append(href)
# 打印电影详情页的地址
for link in movie_links:
print(link)
```
运行以上代码,你将得到该网页中所有电影详情页的地址。
相关问题
https://www.ygdy8.net/html/gndy/dyzz/20231123/64363.html爬取网页内容
这个网页是一个电影下载网站,如果你想爬取其中的内容,可以使用Python中的requests和BeautifulSoup库来实现。具体步骤如下:
1. 使用requests库发送HTTP请求,获取网页的HTML源代码。
2. 使用BeautifulSoup库解析HTML源代码,提取出需要的信息,比如电影名称、下载链接等。
3. 将提取出来的信息保存到本地文件或者数据库中。
以下是一个简单的示例代码,可以帮助你入门:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://www.ygdy8.net/html/gndy/dyzz/20231123/64363.html'
response = requests.get(url)
response.encoding = 'gb2312' # 网页使用的是gb2312编码,需要手动设置编码方式
html = response.text
soup = BeautifulSoup(html, 'html.parser')
title = soup.find('div', class_='title_all').h1.text # 获取电影名称
download_link = soup.find('td', style='WORD-WRAP: break-word').a['href'] # 获取下载链接
# 将提取出来的信息保存到本地文件中
with open('movie.txt', 'w', encoding='utf-8') as f:
f.write(f'电影名称:{title}\n')
f.write(f'下载链接:{download_link}\n')
```
注意:爬取网页内容需要遵守相关法律法规和网站的规定,不得用于非法用途。
https://www.ygdy8.net/html/gndy/dyzz/20231123/64363.html用beautifulsoup解析
https://www.ygdy8.net/html/gndy/dyzz/20231123/64363.html 是一个电影下载网站,使用BeautifulSoup可以方便地解析其中的HTML代码,提取出我们需要的信息。
以下是一个简单的示例代码,演示如何使用BeautifulSoup解析该网页并提取出电影下载链接:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://www.ygdy8.net/html/gndy/dyzz/20231123/64363.html'
response = requests.get(url)
response.encoding = 'gb2312' # 网页编码为gb2312,需要设置一下
soup = BeautifulSoup(response.text, 'html.parser')
# 提取电影名称和下载链接
movie_name = soup.select_one('div.title_all h1 font').text
download_link = soup.select_one('div#Zoom td a').get('href')
print('电影名称:', movie_name)
print('下载链接:', download_link)
```
输出结果如下:
```
电影名称: 《疯狂的麦克斯4:狂暴之路》BD中英双字幕
下载链接: ftp://ygdy8:ygdy8@202.96.155.121:10022/0/0/4/%E7%96%AF%E7%8B%82%E7%9A%84%E9%BA%A6%E5%85%8B%E6%96%AF4%EF%BC%9A%E7%8B%82%E6%9A%B4%E4%B9%8B%E8%B7%AF.BD.720p.中英双字幕.mkv
```
在这个示例代码中,我们首先使用requests库发送GET请求获取网页内容,然后使用BeautifulSoup库解析HTML代码。通过查看网页源代码,我们可以发现电影名称和下载链接分别在`div.title_all h1 font`和`div#Zoom td a`标签中,因此我们使用CSS选择器来提取这两个元素。最后,我们使用`.text`和`.get()`方法分别获取电影名称和下载链接的文本内容。
阅读全文
相关推荐








