编写爬取CNN新闻的python代码
时间: 2024-09-18 18:17:00 浏览: 46
编写Python代码来爬取CNN(美国有线电视新闻网)的新闻通常会涉及网络请求、HTML解析以及数据处理。这里是一个基本的示例,使用requests库获取网页内容,然后BeautifulSoup库解析HTML结构。请注意,实际的网页结构可能会变化,因此你需要根据CNN网站的具体HTML结构调整这个例子。
```python
import requests
from bs4 import BeautifulSoup
def fetch_cnn_news(url):
# 发送GET请求
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 解析响应内容
soup = BeautifulSoup(response.text, 'html.parser')
# 找到新闻标题和链接元素 (这只是一个基本示例,需要根据CNN的实际HTML结构定位)
news_titles = soup.find_all('h2', class_='cd__headline') # 请替换合适的CSS选择器
news_links = [link['href'] for link in soup.find_all('a', class_='cd__headline-link')] # 同理
# 返回新闻列表
return [{'title': title.text.strip(), 'link': 'https://www.cnn.com' + link} for title, link in zip(news_titles, news_links)]
else:
print(f"请求失败,状态码: {response.status_code}")
return []
# 示例URL
url = "https://www.cnn.com/world"
news_list = fetch_cnn_news(url)
# 打印结果
for item in news_list:
print(f"{item['title']}\n{item['link']}\n")
阅读全文