请编写爬虫,爬取搜狐新闻(https://news.sohu.com/),解析新闻网页新闻中标题与链接
时间: 2024-09-20 14:05:00 浏览: 139
为了编写一个简单的Python爬虫来抓取搜狐新闻的标题和链接,我们可以使用requests库获取网页内容,然后使用BeautifulSoup库来解析HTML。以下是一个基础的示例:
```python
import requests
from bs4 import BeautifulSoup
def get_sohu_news():
url = "https://news.sohu.com/"
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
# 发送GET请求并获取页面源码
response = requests.get(url, headers=headers)
response.raise_for_status() # 检查是否成功请求
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(response.text, 'lxml')
# 找到所有新闻标题和链接
news_items = soup.find_all('a', class_='title') # 需要根据实际HTML结构调整选择器
for item in news_items:
title = item.text.strip() # 提取标题文本
link = "https://news.sohu.com" + item['href'] # 构建完整链接
print(f"标题: {title}, 链接: {link}")
if __name__ == "__main__":
get_sohu_news()
```
注意:这个示例假设了搜狐新闻的HTML结构中含有特定的类名`title`和`href`属性用于获取新闻标题和链接。在实际应用中,你需要查看和分析网页的源码,找到正确的CSS选择器或者XPath表达式来定位元素。
阅读全文