python爬取人民网新闻代码
时间: 2023-07-28 16:05:29 浏览: 546
在Python中,我们可以使用第三方库requests来发送HTTP请求并获取网页内容。根据人民网新闻的网页结构,我们可以通过分析和抓取HTML标签来获取新闻标题、URL等信息。
首先,我们需要安装requests库。可以使用pip install requests命令进行安装。
然后,我们可以使用以下代码来实现爬取人民网新闻的功能:
import requests
from bs4 import BeautifulSoup
def get_news():
url = 'http://www.people.com.cn/' # 人民网新闻网址
response = requests.get(url) # 发送HTTP请求,获取网页内容
response.encoding = 'utf-8' # 设置网页编码为utf-8
soup = BeautifulSoup(response.text, 'html.parser') # 创建BeautifulSoup对象,用于解析网页内容
news_list = soup.select('.title_news a') # 通过CSS选择器选择所有新闻标题的链接
for news in news_list:
title = news.get_text() # 获取新闻标题
link = news['href'] # 获取新闻链接
print(f"标题:{title},链接:{link}")
运行get_news函数,就可以获取人民网新闻的标题和链接信息。这里使用了BeautifulSoup库来解析HTML内容,并通过CSS选择器来选择所需的新闻标题和链接。
需要注意的是,为了遵守网站的爬虫规则,我们应该在进行爬取前先了解网站的robots.txt文件,遵循网站的爬虫规则,避免对网站造成不必要的压力。另外,爬取网站内容需要遵守法律法规,不得用于非法用途。
阅读全文