首页python爬虫爬取古诗词网代码

python爬虫爬取古诗词网代码

时间: 2024-12-18 21:29:26 浏览: 8

Python爬虫用于抓取网页内容非常常见，以爬取古诗词网站为例，我们通常会使用`requests`库获取HTML内容，然后利用如`BeautifulSoup`或`lxml`等解析库解析HTML结构，提取我们需要的诗词信息。以下是一个简单的示例，假设目标页面的诗词信息在class为"poem"的元素中： ```python import requests from bs4 import BeautifulSoup # 目标URL url = "https://www.gushiwen.org" # 发送GET请求 response = requests.get(url) # 检查请求是否成功 if response.status_code == 200: # 解析HTML soup = BeautifulSoup(response.text, 'html.parser') # 找到包含诗词的div，这里以class="poem"为例 poems = soup.find_all('div', class_='poem') for poem in poems: title = poem.find('h3').text # 标题 content = poem.find('p').text # 内容 print(f"{title}\n{content}\n---\n") else: print("请求失败") # 提醒注意：实际操作时需要遵守网站的robots.txt规则，并考虑反爬机制

阅读全文