python爬虫采集网页网的新闻标题
时间: 2024-09-14 21:10:33 浏览: 85
Python爬虫爬取新闻资讯案例详解
5星 · 资源好评率100%
Python爬虫用于采集网页上的信息非常常见,特别是在新闻网站上抓取文章标题。这通常通过以下几个步骤完成:
1. **引入库**:首先,需要导入Python的网络请求库如`requests`来发送HTTP请求获取HTML内容,以及解析库如`BeautifulSoup`或`lxml`来解析HTML结构。
2. **发送GET请求**:向目标新闻网站的URL发送GET请求,获取页面源代码。
```python
import requests
url = "http://example.com/news"
response = requests.get(url)
```
3. **解析HTML**:使用选择器(例如CSS选择器或XPath)从HTML中提取新闻标题。这里我们假设标题包含在`<h1>`、`<h2>`等标签内。
```python
from bs4 import BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')
titles = soup.select('h1, h2') # 根据实际网站结构调整选择器
```
4. **存储数据**:将抓取到的标题存储在一个列表或其他数据结构中,比如字典,方便后续处理。
```python
news_titles = [title.text for title in titles]
```
5. **异常处理**:记得添加适当的错误处理,以防网络问题或服务器限制访问。
```python
except requests.exceptions.RequestException as e:
print(f"请求出错: {e}")
```
阅读全文