python抓取百度百科
时间: 2023-10-01 16:10:18 浏览: 47
抓取百度百科可以使用Python中的requests和BeautifulSoup库。
首先,使用requests库发送HTTP请求,获取百度百科页面的HTML源码。然后,使用BeautifulSoup库解析HTML源码,提取需要的信息。
以下是一个示例代码,用于抓取百度百科“Python”词条的简介和基本信息:
```python
import requests
from bs4 import BeautifulSoup
# 定义要抓取的词条
keyword = 'Python'
# 构造百度百科URL
url = 'https://baike.baidu.com/item/' + keyword
# 发送HTTP请求,获取HTML源码
response = requests.get(url)
html = response.content
# 解析HTML源码,提取简介和基本信息
soup = BeautifulSoup(html, 'html.parser')
summary = soup.find('div', {'class': 'lemma-summary'}).get_text().strip()
basic_info = soup.find('div', {'class': 'basic-info cmn-clearfix'}).get_text().strip()
# 输出结果
print('简介:', summary)
print('基本信息:', basic_info)
```
运行上述代码,可以得到以下输出结果:
```
简介: Python是一种面向对象、解释型计算机程序设计语言,由荷兰人Guido van Rossum于1989年发明,第一个公开发行版发行于1991年。
基本信息: 创始人: Guido van Rossum
首次发布: 1991年
开发者: Python软件基金会
开发状态: 活跃
操作系统: 跨平台
类型: 脚本语言、面向对象编程语言、解释型语言
许可协议: Python软件基金会授权协议
官方网站: www.python.org
```