python爬虫爬取新华网《数据新闻》栏目网页数据的代码
时间: 2024-06-18 19:01:06 浏览: 24
在Python中,使用如BeautifulSoup或Scrapy这样的库来爬取网页数据是常见的做法。以下是一个基本的例子,演示如何使用requests和BeautifulSoup从新华网《数据新闻》栏目获取HTML内容:
```python
import requests
from bs4 import BeautifulSoup
# 目标网页URL
url = "http://data.news.xinhuanet.com/"
# 发送GET请求
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 解析HTML内容
soup = BeautifulSoup(response.text, 'lxml')
# 选择需要的数据元素(这里假设是文章列表)
article_list = soup.find_all('div', class_='article-item') # 需要根据实际网页结构修改
# 处理每个文章
for article in article_list:
title = article.find('h2', class_='title').text # 获取标题
link = article.find('a')['href'] # 获取链接
print(f"标题: {title}\n链接: {link}\n---")
# 存储数据或做进一步处理
else:
print(f"请求失败,状态码:{response.status_code}")
# 提供相关问题
相关推荐
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)