首页python爬取https://baike.baidu.com/item/%E5%91%98%E5%B7%A5%E7%A6%8F%E5%88%A9/3100153?qq-pf-to=pcqq.c2c%22的信息

python爬取https://baike.baidu.com/item/%E5%91%98%E5%B7%A5%E7%A6%8F%E5%88%A9/3100153?qq-pf-to=pcqq.c2c%22的信息

时间: 2023-08-15 10:06:52 浏览: 116

您可以使用 Python 的 requests 和 BeautifulSoup 库来爬取百度百科的信息。首先，您需要安装这两个库，您可以使用以下命令进行安装： ``` pip install requests beautifulsoup4 ``` 然后，您可以使用以下代码来爬取指定网页的信息： ```python import requests from bs4 import BeautifulSoup url = 'https://baike.baidu.com/item/%E5%91%98%E5%B7%A5%E7%A6%8F%E5%88%A9/3100153?qq-pf-to=pcqq.c2c' # 发送GET请求获取网页内容 response = requests.get(url) # 使用BeautifulSoup解析网页内容 soup = BeautifulSoup(response.text, 'html.parser') # 获取词条摘要 summary = soup.find('div', {'class': 'lemma-summary'}).text.strip() # 获取词条正文 content = soup.find('div', {'class': 'main-content'}).text.strip() # 打印结果 print('摘要:', summary) print('正文:', content) ``` 这段代码会输出指定网页的词条摘要和正文内容。请注意，由于百度百科的页面结构可能会有变化，以上代码可能需要根据实际情况进行调整。同样，在爬取网页内容时要遵守相关网站的使用规则，并尊重网站的隐私政策。在爬取之前，最好先查看网站的 robots.txt 文件，了解哪些内容可以爬取。

阅读全文