python爬虫爬取百度百科
时间: 2023-09-29 12:08:27 浏览: 119
以下是一个简单的 Python 爬虫程序,可以爬取百度百科上指定页面的标题、摘要和正文内容:
```python
import requests
from bs4 import BeautifulSoup
# 要爬取的页面 URL
url = 'https://baike.baidu.com/item/Python/407313'
# 发送 HTTP 请求
response = requests.get(url)
# 使用 BeautifulSoup 解析 HTML 页面
soup = BeautifulSoup(response.content, 'html.parser')
# 获取页面标题
title = soup.find('h1', class_='lemma-title').text.strip()
# 获取摘要内容
summary = ''
summary_elem = soup.find('div', class_='lemma-summary')
if summary_elem is not None:
summary = summary_elem.text.strip()
# 获取正文内容
content = ''
content_elem = soup.find('div', class_='lemma-main-content')
if content_elem is not None:
content = content_elem.text.strip()
# 输出结果
print('标题:', title)
print('摘要:', summary)
print('正文:', content)
```
需要注意的是,这只是一个简单的示例程序,实际爬取过程中可能需要处理各种异常情况和反爬措施。此外,爬取百度百科等网站时需要注意遵守相关的法律法规和网站的规定,不得进行恶意爬取和其他违法行为。
阅读全文