利用所学requests库和正则表达式的技术,下载汉程网 三国演义单章内容并输出 https://guoxue.httpcn.com/book/sgyy/ 存放到记事本
时间: 2024-12-11 17:26:57 浏览: 5
https://tuchong.com/community spider,可爬取图虫网指定标签下图片
为了利用`requests`库和正则表达式技术从汉程网下载《三国演义》的单章内容,并将其保存到记事本,你需要按照以下步骤操作:
1. 首先,安装必要的库,如果你还没有安装,可以使用pip:
```bash
pip install requests beautifulsoup4
```
2. 然后,编写Python脚本来访问指定网页并提取单章链接:
```python
import requests
from bs4 import BeautifulSoup
import re
url = "https://guoxue.httpcn.com/book/sgyy/"
response = requests.get(url)
if response.status_code == 200:
soup = BeautifulSoup(response.text, 'lxml')
# 正则表达式可能需要针对实际HTML结构调整
chapter_links = soup.find_all('a', href=re.compile(r'/book/sgyy/chapter/\d+')) # 查找章节链接
for link in chapter_links:
chapter_url = url + link['href'] # 构造完整章节URL
chapter_content = requests.get(chapter_url).text # 下载内容
# 将内容写入记事本,这里以txt文件为例
with open(f'sgyy_chapter_{link.text.strip()}.txt', 'w', encoding='utf-8') as f:
f.write(chapter_content)
else:
print("请求失败")
```
注意:
- 实际代码可能会因为网站结构变动而失效,因为正则表达式和HTML解析依赖于网站的具体布局。
- 这段代码将每个章节的内容保存成单独的文本文件,文件名包含章节标题。
- 记事本可能不是最佳选择,现代操作系统通常建议使用文本编辑器(如Notepad++或Visual Studio Code)。
阅读全文