python爬取https://baike.baidu.com/item/%E5%91%98%E5%B7%A5%E7%A6%8F%E5%88%A9/3100153?qq-pf-to=pcqq.c2c%22的信息
时间: 2023-08-15 22:06:52 浏览: 108
您可以使用 Python 的 requests 和 BeautifulSoup 库来爬取百度百科的信息。首先,您需要安装这两个库,您可以使用以下命令进行安装:
```
pip install requests beautifulsoup4
```
然后,您可以使用以下代码来爬取指定网页的信息:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://baike.baidu.com/item/%E5%91%98%E5%B7%A5%E7%A6%8F%E5%88%A9/3100153?qq-pf-to=pcqq.c2c'
# 发送GET请求获取网页内容
response = requests.get(url)
# 使用BeautifulSoup解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')
# 获取词条摘要
summary = soup.find('div', {'class': 'lemma-summary'}).text.strip()
# 获取词条正文
content = soup.find('div', {'class': 'main-content'}).text.strip()
# 打印结果
print('摘要:', summary)
print('正文:', content)
```
这段代码会输出指定网页的词条摘要和正文内容。请注意,由于百度百科的页面结构可能会有变化,以上代码可能需要根据实际情况进行调整。
同样,在爬取网页内容时要遵守相关网站的使用规则,并尊重网站的隐私政策。在爬取之前,最好先查看网站的 robots.txt 文件,了解哪些内容可以爬取。
阅读全文