python爬取百度新闻页面的所有新闻正文,地址为: http://news . baidu. com/ guonei的代码
时间: 2024-09-25 21:08:21 浏览: 39
Python 爬虫使用`requests`库获取网页内容,然后通过`BeautifulSoup`解析HTML来提取新闻正文。这里是一个简单的示例,展示如何抓取百度新闻首页的部分新闻链接及标题:
```python
import requests
from bs4 import BeautifulSoup
# 请求百度新闻主页
url = "http://news.baidu.com/guonei"
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 解析HTML内容
soup = BeautifulSoup(response.text, 'lxml')
# 找到所有新闻块(div class="hotnewslist")
news_blocks = soup.find_all('div', class_='hotnewslist')
for block in news_blocks:
# 提取每个新闻标题和链接
title = block.h3.a.text.strip()
link = block.h3.a['href']
print(f"标题: {title}")
print(f"链接: {link}\n")
else:
print(f"无法连接到网页, 状态码: {response.status_code}")
相关问题
根据API文档,写一个移动端新闻网站对接接口地址如下:http://v.juhe.cn/toutiao/index,并且调用相应API数据;返回格式:json;请求方式:get/post;参数如下:key:123456 ;type:参数名:yule、top、qiche
、junshi、keji、caijing、shishang、tiyu、guonei、guoji(新闻类型);page:当前页数;page_size:每页返回的条数。
接口地址:http://v.juhe.cn/toutiao/index?key=123456&type=yule&page=1&page_size=10
请求方式:GET
返回格式:json
参数:
- key:接口调用凭证
- type:新闻类型,可选值为yule、top、qiche、junshi、keji、caijing、shishang、tiyu、guonei、guoji
- page:当前页数,从1开始
- page_size:每页返回的条数,最大不超过50条
示例代码:
```javascript
const api_key = '123456';
const api_type = 'yule';
const api_page = 1;
const api_page_size = 10;
const url = `http://v.juhe.cn/toutiao/index?key=${api_key}&type=${api_type}&page=${api_page}&page_size=${api_page_size}`;
fetch(url)
.then(response => response.json())
.then(data => {
console.log(data); // 打印接口返回的数据
// 处理数据...
})
.catch(error => console.error(error));
```
说明:
1. 需要先获取接口调用凭证key;
2. type参数可选值为新闻类型,根据不同类型请求相应的数据;
3. page参数从1开始,每次请求返回一页数据;
4. page_size参数最大不超过50条数据,根据实际需要设置;
5. 返回的数据为json格式,可以通过response.json()方法转换为JavaScript对象方便处理。