使用代码爬10.1.88.252:7000网页中章节内容,将每个章节内容以及章节名称爬取下来并且将爬取下来的章节名称匿名为文件夹名称,而且在每个文件夹内拥有相对应的章节内容,并且存储为txt文档在文件夹中
时间: 2023-12-06 22:44:57 浏览: 178
Scrapy爬取多级网页内容源代码加实现.txt
以下是使用Python爬取网页内容并保存到本地的代码:
```python
import os
import requests
from bs4 import BeautifulSoup
url = "http://10.1.88.252:7000/"
res = requests.get(url)
soup = BeautifulSoup(res.text, 'html.parser')
# 获取所有章节链接
links = soup.find_all('a')
for link in links:
# 获取章节名称
title = link.text.strip()
# 获取章节链接
href = url + link.get('href')
# 新建文件夹
folder_name = title.replace('/', '_') # 文件夹名称不能包含特殊字符
os.makedirs(folder_name, exist_ok=True)
# 获取章节内容
res = requests.get(href)
soup = BeautifulSoup(res.text, 'html.parser')
content = soup.find('div', {'class': 'chapter'}).text
# 将章节内容保存到txt文件中
with open(os.path.join(folder_name, f"{title}.txt"), 'w', encoding='utf-8') as f:
f.write(content)
```
这个代码会获取网页中所有的章节链接,然后遍历每个链接,获取对应的章节内容,并保存到以章节名称命名的txt文件中,在以章节名称命名的文件夹中。需要注意的是,为了避免文件夹名称包含特殊字符,我们使用了replace函数将文件夹名称中的 '/' 替换成了 '_'。
阅读全文