python爬取人民网新闻标题
时间: 2023-08-19 12:05:34 浏览: 223
用Python实现了新闻的爬取、展示,搭建Web页面给用户提供收藏、评论、查询,使用基于用户的协同过滤推荐
好的,以下是一个简单的 Python 爬取人民网新闻标题的示例代码:
```python
import requests
from bs4 import BeautifulSoup
url = "http://www.people.com.cn/"
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")
news_titles = []
for news in soup.select(".hdNews li a"):
title = news.get_text().strip()
news_titles.append(title)
print(news_titles)
```
解释一下代码:
1. 首先,我们使用 requests 库向人民网发送请求,获取到网页的 HTML 内容。
2. 接着,使用 BeautifulSoup 将 HTML 解析成 BeautifulSoup 对象 soup。
3. 使用 soup.select() 方法选择 HTML 中的新闻标题所在的元素,这里我们选择的是 class 为 "hdNews" 的 ul 元素下的所有 li 元素中的 a 标签。
4. 遍历每个新闻标题元素,获取其文本内容并添加到 news_titles 列表中。
5. 最后,输出所有新闻标题。
需要注意的是,此代码只能爬取当前页面的新闻标题,若要爬取更多新闻,需要对网站的翻页机制进行处理。另外,爬取网站数据时需要遵守相关法律法规,不要进行非法爬取。
阅读全文