首页用python爬取 http://www.news.cn/politics/leaders/2023- 04/28/c_1129576764.htm并采用 CSS 选择器筛选元素的方法提取日期。

用python爬取 http://www.news.cn/politics/leaders/2023- 04/28/c_1129576764.htm并采用 CSS 选择器筛选元素的方法提取日期。

时间: 2023-10-06 19:12:13 浏览: 97

sided_news_web-master.zip

首先，只需克隆存储库并运行npm install && npm run dev ： git clone https://github.com/dulajkavinda/sided.news.git npm install npm run dev 贡献对如何使它变得更好有想法？打开一个问题欢迎发布问题，请求请求和所有评论！执照麻省理工学院:copyright:

好的，以下是用Python爬取并筛选元素的代码： ```python import requests from bs4 import BeautifulSoup url = 'http://www.news.cn/politics/leaders/2023-04/28/c_1129576764.htm' html = requests.get(url).text soup = BeautifulSoup(html, 'html.parser') date = soup.select_one('.h-time').text.strip() print(date) ``` 解释一下代码：首先导入了requests和BeautifulSoup库，然后指定要爬取的URL地址，并使用requests库的get方法获取该网页的HTML文本。然后使用BeautifulSoup库将获取到的HTML文本解析成一个BeautifulSoup对象。接下来使用CSS选择器选取日期所在的元素，这里我们选取一个class为'h-time'的元素。由于我们只需要日期的文本内容，所以再通过text属性获取元素的文本内容，并使用strip方法删除多余的空格。最后，将提取到的日期打印输出。

阅读全文