请用python爬取jandan.net 下面无聊图中的两页图片以及两页树洞内容。图片保存到自己电脑里,树洞内容存储到一个txt文件内。
时间: 2024-06-10 12:04:36 浏览: 9
好的,我知道了您的要求。可以使用Python中的requests和BeautifulSoup库来实现网页内容的爬取和解析,并使用os和urllib库实现文件的下载和存储。
首先需要安装requests、BeautifulSoup和lxml库,可以通过以下命令来安装:
```
pip install requests
pip install beautifulsoup4
pip install lxml
```
然后,可以按照以下步骤来实现您的需求:
1. 导入所需的库:
```
import requests
from bs4 import BeautifulSoup
import os
import urllib
```
2. 获取网页内容并解析:
```
# 网页链接
url = 'https://jandan.net/'
# 请求头部
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 发送请求获取内容
response = requests.get(url, headers=headers)
# 解析网页内容
soup = BeautifulSoup(response.text, 'lxml')
```
3. 获取无聊图和树洞内容的链接:
```
# 获取无聊图链接
img_links = []
for i in range(2):
link = soup.select('.text p a')[i]['href']
img_links.append(link)
# 获取树洞内容链接
duanzi_links = []
for i in range(2):
link = soup.select('.text .list-post li a')[i]['href']
duanzi_links.append(link)
```
4. 下载无聊图并存储:
```
# 新建无聊图文件夹
if not os.path.exists('jandan'):
os.mkdir('jandan')
# 下载无聊图并保存
for i in range(2):
response = requests.get(img_links[i], headers=headers)
filename = 'jandan/' + str(i+1) + '.jpg'
with open(filename, 'wb') as f:
f.write(response.content)
```
5. 获取树洞内容并存储到txt文件:
```
# 新建txt文件
with open('jandan.txt', 'w', encoding='utf-8') as f:
# 获取树洞内容并存储到txt文件
for i in range(2):
link = duanzi_links[i]
response = requests.get(link, headers=headers)
soup = BeautifulSoup(response.text, 'lxml')
content = soup.select('.text .post')[0].get_text()
f.write(content+'\n\n')
```
这样,就可以实现对jandan.net网站下面无聊图和树洞内容的爬取和保存了。