python爬虫爬取古诗词网代码
时间: 2024-12-18 21:29:26 浏览: 8
Python爬虫用于抓取网页内容非常常见,以爬取古诗词网站为例,我们通常会使用`requests`库获取HTML内容,然后利用如`BeautifulSoup`或`lxml`等解析库解析HTML结构,提取我们需要的诗词信息。以下是一个简单的示例,假设目标页面的诗词信息在class为"poem"的元素中:
```python
import requests
from bs4 import BeautifulSoup
# 目标URL
url = "https://www.gushiwen.org"
# 发送GET请求
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 解析HTML
soup = BeautifulSoup(response.text, 'html.parser')
# 找到包含诗词的div,这里以class="poem"为例
poems = soup.find_all('div', class_='poem')
for poem in poems:
title = poem.find('h3').text # 标题
content = poem.find('p').text # 内容
print(f"{title}\n{content}\n---\n")
else:
print("请求失败")
# 提醒注意:实际操作时需要遵守网站的robots.txt规则,并考虑反爬机制
阅读全文