用python写一个爬虫自动爬取指定网站的视频,图片,文字,分别存储到d盘的三个文件夹里
时间: 2023-03-19 09:21:19 浏览: 117
好的,以下是用Python写一个爬虫自动爬取指定网站的视频、图片、文字,并将它们分别存储到D盘的三个文件夹的代码。
首先,需要导入所需的库,比如requests、beautifulsoup4等等,具体代码如下:
```python
import requests
from bs4 import BeautifulSoup
import os
```
然后,需要设定一些参数,比如要爬取的网站的URL,以及要存储数据的文件夹路径等等,具体代码如下:
```python
url = "https://www.example.com"
video_path = "D:/videos"
image_path = "D:/images"
text_path = "D:/texts"
```
接着,我们可以使用requests库来获取网页的HTML内容,并使用BeautifulSoup库来解析HTML内容,从而得到我们需要的数据,具体代码如下:
```python
r = requests.get(url)
soup = BeautifulSoup(r.text, "html.parser")
# 获取视频链接
video_links = []
for video in soup.find_all("video"):
src = video.get("src")
if src:
video_links.append(src)
# 获取图片链接
image_links = []
for img in soup.find_all("img"):
src = img.get("src")
if src:
image_links.append(src)
# 获取文字内容
text_content = ""
for p in soup.find_all("p"):
text_content += p.get_text()
```
最后,我们可以使用Python的os库来创建并保存我们获取到的数据,具体代码如下:
```python
# 创建视频文件夹并保存视频
os.makedirs(video_path, exist_ok=True)
for link in video_links:
filename = link.split("/")[-1]
r = requests.get(link)
with open(os.path.join(video_path, filename), "wb") as f:
f.write(r.content)
# 创建图片文件夹并保存图片
os.makedirs(image_path, exist_ok=True)
for link in image_links:
filename = link.split("/")[-1]
r = requests.get(link)
with open(os.path.join(image_path, filename), "wb") as f:
f.write(r.content)
# 创建文字文件并保存文字
with open(os.path.join(text_path, "text.txt"), "w", encoding="utf-8") as f:
f.write(text_content)
```
这样,我们就可以自动爬取指定网站的视频、图片、文字,并将它们分别存储到D盘的三个文件夹里了。
阅读全文