首页爬取https://www.xuexi.cn/f997e76a890b0e5a053c57b19f468436/018d244441062d8916dd472a4c6a0a0b.html页面中的新闻数据。

爬取https://www.xuexi.cn/f997e76a890b0e5a053c57b19f468436/018d244441062d8916dd472a4c6a0a0b.html页面中的新闻数据。

时间: 2023-10-31 13:59:18 浏览: 31

好的，这个任务可以使用Python的requests和BeautifulSoup库来完成。以下是代码实现： ```python import requests from bs4 import BeautifulSoup url = 'https://www.xuexi.cn/f997e76a890b0e5a053c57b19f468436/018d244441062d8916dd472a4c6a0a0b.html' res = requests.get(url) soup = BeautifulSoup(res.text, 'html.parser') news_list = soup.select('.news-item') for news in news_list: title = news.select_one('.title').text.strip() source = news.select_one('.source').text.strip() time = news.select_one('.time').text.strip() print(title, source, time) ``` 这段代码首先使用requests库发送GET请求获取网页内容，然后使用BeautifulSoup库解析HTML文档。接着，通过CSS选择器定位到新闻列表中每个新闻的元素，并分别提取标题、来源和时间信息，并打印输出。