请写出python爬取新浪新闻的代码
时间: 2024-10-17 16:08:10 浏览: 41
python爬虫:爬取新浪新闻数据
在Python中,我们可以使用requests和BeautifulSoup库来爬取新浪新闻网站。以下是一个基本的示例,展示如何抓取首页的部分新闻标题和链接。注意这只是一个基础示例,实际操作时可能需要处理反爬虫策略,比如设置User-Agent、使用代理等。
```python
import requests
from bs4 import BeautifulSoup
def sina_news_scraper():
url = 'https://news.sina.com.cn/' # 新浪新闻首页URL
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
news_list = soup.find('div', {'class': 'hotnews-list'}).find_all('li') # 查找新闻列表
for news_item in news_list:
title = news_item.find('a').text # 提取标题
link = news_item.find('a')['href'] # 提取链接
print(f"标题:{title}\n链接:{link}\n")
sina_news_scraper()
```
运行此代码会打印出部分新浪新闻的标题和链接。但是请注意,频繁地爬取新浪或其他网站可能会违反服务条款,甚至构成侵权,因此在实际应用中,请确保遵守相关规定,并尊重网站的Robots.txt协议。
阅读全文