帮我爬取http://10.1.88.252:7000/这个网址的内容,并将它们按照名字命名一个文件夹,里面要包括所用的章节,且不同的用原来章节的名字存储,章节用TXT文档存储,
时间: 2023-12-06 07:45:07 浏览: 71
Dism++10.1.1002.zip
好的,首先我们需要安装 requests 和 BeautifulSoup 模块来进行网页内容爬取和解析。您可以使用以下命令来安装这两个模块:
```
pip install requests
pip install beautifulsoup4
```
然后,我们可以编写以下代码来实现您的需求:
```python
import os
import requests
from bs4 import BeautifulSoup
# 设置爬取的网址和存储的路径
url = "http://10.1.88.252:7000/"
save_path = "./books/"
# 发送请求获取网页内容
response = requests.get(url)
content = response.content.decode('utf-8')
# 使用 BeautifulSoup 解析网页内容
soup = BeautifulSoup(content, 'html.parser')
# 获取所有的章节链接和名称
chapters = soup.find_all('a', attrs={'class': 'chapter'})
# 遍历每个章节链接
for chapter in chapters:
chapter_url = url + chapter['href'] # 拼接完整的章节链接
chapter_name = chapter.text.strip() # 获取章节名称并去除空格
# 发送请求获取章节内容
chapter_response = requests.get(chapter_url)
chapter_content = chapter_response.content.decode('utf-8')
# 创建文件夹并保存章节内容
folder_path = os.path.join(save_path, chapter_name)
os.makedirs(folder_path, exist_ok=True) # 如果文件夹已存在则不创建
file_path = os.path.join(folder_path, chapter_name + ".txt")
with open(file_path, "w", encoding="utf-8") as f:
f.write(chapter_content)
print(f"{chapter_name} 已保存!")
```
该代码会将爬取的章节内容保存到以章节名称命名的文件夹中,每个文件夹中包含该章节的 TXT 文档。您只需要将代码中的 `save_path` 修改为您想要存储的目录即可。
阅读全文