用python爬取 http://www.news.cn/politics/leaders/2023- 04/28/c_1129576764.htm并采用 CSS 选择器筛选元素 的方法提取日期。
时间: 2023-10-06 12:12:13 浏览: 89
sided_news_web-master.zip
好的,以下是用Python爬取并筛选元素的代码:
```python
import requests
from bs4 import BeautifulSoup
url = 'http://www.news.cn/politics/leaders/2023-04/28/c_1129576764.htm'
html = requests.get(url).text
soup = BeautifulSoup(html, 'html.parser')
date = soup.select_one('.h-time').text.strip()
print(date)
```
解释一下代码:
首先导入了requests和BeautifulSoup库,然后指定要爬取的URL地址,并使用requests库的get方法获取该网页的HTML文本。
然后使用BeautifulSoup库将获取到的HTML文本解析成一个BeautifulSoup对象。
接下来使用CSS选择器选取日期所在的元素,这里我们选取一个class为'h-time'的元素。由于我们只需要日期的文本内容,所以再通过text属性获取元素的文本内容,并使用strip方法删除多余的空格。
最后,将提取到的日期打印输出。
阅读全文