python 爬虫深圳新闻网热点新闻的例程
时间: 2024-10-30 19:06:36 浏览: 3
python例程 (1).rar_Python 例程_python_python例程
Python爬虫抓取深圳新闻网热点新闻的一个简单示例通常会涉及到使用`requests`库获取网页内容,然后用`BeautifulSoup`解析HTML。下面是一个基础的步骤:
1. **安装所需库**:
首先需要安装`requests`(用于发送HTTP请求)、`beautifulsoup4`(用于解析HTML)以及`lxml`(BeautifulSoup的一个高效引擎)。运行以下命令:
```
pip install requests beautifulsoup4 lxml
```
2. **编写代码**:
```python
import requests
from bs4 import BeautifulSoup
# 设置URL
url = "http://news.sznews.com/"
# 发送GET请求
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 使用BeautifulSoup解析响应文本
soup = BeautifulSoup(response.text, 'lxml')
# 找到包含新闻标题的部分,例如CSS选择器或XPath
news_titles = soup.select('.hotnews .title a') # 假设热点新闻标题在class为"hotnews"的div下的a标签内
# 遍历新闻标题并打印
for title in news_titles:
print(title.text) # 获取纯文本
print(title['href']) # 获取链接地址
else:
print("请求失败, 状态码:", response.status_code)
```
3. **注意事项**:
- 在实际应用中,可能需要处理反爬策略,如验证码、登录验证等。
- 如果网站结构频繁变动,可能需要调整选择器来匹配正确的元素。
- 尊重网站的robots.txt规则,并遵守使用条款。
阅读全文