写一个爬取百度百科的爬虫程序
时间: 2024-03-28 13:28:16 浏览: 78
好的,以下是一个简单的爬取百度百科词条页面的 Python 程序:
```python
import requests
from bs4 import BeautifulSoup
# 要爬取的词条页面 URL
url = 'https://baike.baidu.com/item/Python/407313'
# 发送请求并获取 HTML 页面内容
response = requests.get(url)
html = response.content
# 解析 HTML 页面内容
soup = BeautifulSoup(html, 'html.parser')
# 获取词条标题
title = soup.h1.text
# 获取词条摘要
summary = soup.find('div', {'class': 'lemma-summary'}).text.strip()
# 获取词条正文内容
content = soup.find('div', {'class': 'lemma-main-content'}).text.strip()
# 打印词条信息
print('标题:', title)
print('摘要:', summary)
print('正文:', content)
```
这个程序使用了 requests 库和 BeautifulSoup 库来进行 HTTP 请求和 HTML 解析。它首先发送 HTTP 请求获取百度百科词条页面的 HTML 内容,然后使用 BeautifulSoup 解析 HTML 页面内容,提取出词条的标题、摘要和正文内容,并打印出来。你也可以将这些信息保存到本地文件中,或者用其他方式进行处理。
阅读全文