抓取https://so.gushiwen.cn/gushi/tangshi.aspx的古诗内容,按学号202101221045选五言绝句中鹿柴这首诗,且保存为txt文件和mp3音频文件
时间: 2024-01-11 16:03:01 浏览: 158
Python爬取成语接龙类网站
好的,我了解了你的要求。针对你的问题,我可以提供以下 Python 代码来实现:
```python
import requests
from bs4 import BeautifulSoup
from gtts import gTTS
# 获取网页内容
url = 'https://so.gushiwen.cn/gushi/tangshi.aspx'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
# 找到指定诗歌的信息
poem = soup.find('div', class_='typecont').find_all('span', class_='s2')
title = poem[14].text.strip()
author = poem[15].text.strip()
content = poem[16].text.strip()
# 保存文本文件
with open('鹿柴.txt', 'w', encoding='utf-8') as f:
f.write('{}\n{}\n{}\n'.format(title, author, content))
# 保存音频文件
tts = gTTS(content)
tts.save('鹿柴.mp3')
```
这段代码中,我们首先使用 requests 库获取了指定网页的内容,然后使用 BeautifulSoup 库来解析网页内容。通过查看网页源代码,我们可以找到诗歌信息所在的 HTML 标签,进而通过 find 和 find_all 方法来获取所需信息。
接着,我们使用 Python 的内置函数 open 打开文件,使用 write 方法将诗歌信息写入文本文件中。同时,我们使用 gTTS 库来将诗歌内容转换为音频文件,使用 save 方法来保存音频文件。
最后,我们就可以在本地找到生成的文本文件和音频文件,以便进行后续操作。
阅读全文