三国演义爬虫python代码
时间: 2024-10-16 08:01:16 浏览: 37
《三国演义》是中国古典四大名著之一,如果想通过Python编写爬虫获取相关数据,通常会使用requests库来发送HTTP请求,然后BeautifulSoup或PyQuery等库解析HTML内容。以下是一个简单的示例,展示如何爬取《三国演义》的故事章节列表:
```python
import requests
from bs4 import BeautifulSoup
# 网站URL
url = 'https://so.gushiwen.org/book.aspx?bookid=8975'
# 发送GET请求
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 解析HTML
soup = BeautifulSoup(response.text, 'html.parser')
# 找到故事章节列表
chapters = soup.select('.list_item a') # 假设章节标题在a标签内
for chapter in chapters:
title = chapter.text.strip() # 提取章名
link = chapter['href'] # 提取链接
print(f"章名:{title}\n链接:{link}\n")
else:
print("请求失败,状态码:", response.status_code)
```
请注意,这只是一个基本示例,实际网站结构可能会有所不同,需要调整CSS选择器来匹配正确的元素。另外,频繁抓取网站数据可能涉及法律问题以及对目标服务器的压力,因此在爬取前应确保了解并尊重网站的robots.txt规则。
阅读全文