python爬取百度新闻热点
时间: 2024-12-08 17:18:29 浏览: 21
Python爬取百度新闻热点通常涉及网络抓取(Web Scraping)技术,利用如requests、BeautifulSoup、Scrapy等库来获取网页数据。以下是一个简单的步骤概述:
1. **安装必要的库**:首先需要安装`requests`库来发送HTTP请求,以及如`lxml`或`beautifulsoup4`用于解析HTML。
```bash
pip install requests beautifulsoup4
```
2. **发送请求**:使用requests库向百度新闻的URL发起GET请求,获取页面源码。
```python
import requests
url = "https://news.baidu.com/"
response = requests.get(url)
```
3. **解析HTML**:通过BeautifulSoup解析返回的HTML内容,找到包含新闻标题和链接的部分。
```python
from bs4 import BeautifulSoup
soup = BeautifulSoup(response.text, 'lxml')
hot_news_elements = soup.find_all('div', class_='hotnews') # 根据实际情况调整选择器
```
4. **提取信息**:遍历解析后的元素,提取出新闻标题和链接。
```python
hot_news = []
for element in hot_news_elements:
title = element.find('a').text
link = element.find('a')['href']
hot_news.append({'title': title, 'link': link})
```
5. **保存结果**:将抓取的数据存储到文件或数据库中,或者直接打印出来展示。
```python
with open('news.txt', 'w', encoding='utf-8') as f:
for item in hot_news:
f.write(f'{item["title"]}\n{item["link"]}\n\n')
```
阅读全文