根据提示以及示例,在右侧编辑器 Begin-End 区间补充代码,完善函数 get_data(),批量爬取古诗词作者。src/step1/test.html 为爬取网页的效果代码,可以使用开发者工具审查元素,获取 XPath 的路径信息。
时间: 2024-02-29 08:57:26 浏览: 207
获取网页上 xpath , css 路径的插件, 方便爬虫、自动化测试相关软件工作者快速获取页面上html元素路径
好的,我会根据你的要求完善函数 get_data(),以下是代码:
```python
import requests
from lxml import etree
def get_data():
url = "https://www.gushiwen.org/default_1.aspx"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"}
response = requests.get(url, headers=headers)
html = response.content.decode('utf-8')
tree = etree.HTML(html)
authors = tree.xpath('//div[@class="son2"]/p[2]')
for author in authors:
print(author.text)
```
这个函数使用 requests 库向指定的网址发送请求,获取网页的 HTML 内容,然后使用 lxml 库的 etree 模块解析 HTML 内容,提取出所有的作者信息,并打印输出。您可以根据需要将输出改为返回值。
阅读全文