python爬取当日新闻
时间: 2024-05-25 13:09:39 浏览: 7
Python可以使用多种库进行网页爬取,比如Requests、BeautifulSoup、Scrapy等。其中,Requests库可以用于获取网页内容,BeautifulSoup可以用于解析网页内容,Scrapy是一个高效的爬虫框架。
以下是一个使用Requests和BeautifulSoup爬取当日新闻的示例代码:
```python
import requests
from bs4 import BeautifulSoup
# 设置请求头,模拟浏览器请求
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
# 发送请求获取网页内容
url = 'https://news.baidu.com/'
response = requests.get(url, headers=headers)
content = response.content
# 解析网页内容
soup = BeautifulSoup(content, 'html.parser')
news_list = soup.select('.ulist.focuslistnews.topli')
# 打印当日新闻标题和链接
for news in news_list:
title = news.select_one('a').get_text()
link = news.select_one('a').get('href')
print(title, link)
```