首页三国演义爬虫python代码

三国演义爬虫python代码

时间: 2024-10-16 19:01:16 浏览: 52

《三国演义》是中国古典四大名著之一，如果想通过Python编写爬虫获取相关数据，通常会使用requests库来发送HTTP请求，然后BeautifulSoup或PyQuery等库解析HTML内容。以下是一个简单的示例，展示如何爬取《三国演义》的故事章节列表： ```python import requests from bs4 import BeautifulSoup # 网站URL url = 'https://so.gushiwen.org/book.aspx?bookid=8975' # 发送GET请求 response = requests.get(url) # 检查请求是否成功 if response.status_code == 200: # 解析HTML soup = BeautifulSoup(response.text, 'html.parser') # 找到故事章节列表 chapters = soup.select('.list_item a') # 假设章节标题在a标签内 for chapter in chapters: title = chapter.text.strip() # 提取章名 link = chapter['href'] # 提取链接 print(f"章名：{title}\n链接：{link}\n") else: print("请求失败，状态码:", response.status_code) ``` 请注意，这只是一个基本示例，实际网站结构可能会有所不同，需要调整CSS选择器来匹配正确的元素。另外，频繁抓取网站数据可能涉及法律问题以及对目标服务器的压力，因此在爬取前应确保了解并尊重网站的robots.txt规则。

阅读全文