首页写一个爬取百度百科的爬虫程序

写一个爬取百度百科的爬虫程序

时间: 2024-03-28 20:28:16 浏览: 84

好的，以下是一个简单的爬取百度百科词条页面的 Python 程序： ```python import requests from bs4 import BeautifulSoup # 要爬取的词条页面 URL url = 'https://baike.baidu.com/item/Python/407313' # 发送请求并获取 HTML 页面内容 response = requests.get(url) html = response.content # 解析 HTML 页面内容 soup = BeautifulSoup(html, 'html.parser') # 获取词条标题 title = soup.h1.text # 获取词条摘要 summary = soup.find('div', {'class': 'lemma-summary'}).text.strip() # 获取词条正文内容 content = soup.find('div', {'class': 'lemma-main-content'}).text.strip() # 打印词条信息 print('标题:', title) print('摘要:', summary) print('正文:', content) ``` 这个程序使用了 requests 库和 BeautifulSoup 库来进行 HTTP 请求和 HTML 解析。它首先发送 HTTP 请求获取百度百科词条页面的 HTML 内容，然后使用 BeautifulSoup 解析 HTML 页面内容，提取出词条的标题、摘要和正文内容，并打印出来。你也可以将这些信息保存到本地文件中，或者用其他方式进行处理。

阅读全文