爬取https://www.xuexi.cn/f997e76a890b0e5a053c57b19f468436/018d244441062d8916dd472a4c6a0a0b.html页面中的新闻数据。
时间: 2023-10-31 21:59:18 浏览: 26
好的,这个任务可以使用Python的requests和BeautifulSoup库来完成。以下是代码实现:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://www.xuexi.cn/f997e76a890b0e5a053c57b19f468436/018d244441062d8916dd472a4c6a0a0b.html'
res = requests.get(url)
soup = BeautifulSoup(res.text, 'html.parser')
news_list = soup.select('.news-item')
for news in news_list:
title = news.select_one('.title').text.strip()
source = news.select_one('.source').text.strip()
time = news.select_one('.time').text.strip()
print(title, source, time)
```
这段代码首先使用requests库发送GET请求获取网页内容,然后使用BeautifulSoup库解析HTML文档。接着,通过CSS选择器定位到新闻列表中每个新闻的元素,并分别提取标题、来源和时间信息,并打印输出。