python爬取百度新闻页面的所有新闻正文,地址为: http://news . baidu. com/ guonei的代码
时间: 2024-09-25 12:08:21 浏览: 90
php 8.3.11 下载, windows / linux / macos 平台下载
Python 爬虫使用`requests`库获取网页内容,然后通过`BeautifulSoup`解析HTML来提取新闻正文。这里是一个简单的示例,展示如何抓取百度新闻首页的部分新闻链接及标题:
```python
import requests
from bs4 import BeautifulSoup
# 请求百度新闻主页
url = "http://news.baidu.com/guonei"
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 解析HTML内容
soup = BeautifulSoup(response.text, 'lxml')
# 找到所有新闻块(div class="hotnewslist")
news_blocks = soup.find_all('div', class_='hotnewslist')
for block in news_blocks:
# 提取每个新闻标题和链接
title = block.h3.a.text.strip()
link = block.h3.a['href']
print(f"标题: {title}")
print(f"链接: {link}\n")
else:
print(f"无法连接到网页, 状态码: {response.status_code}")
阅读全文