编写一个网络爬虫程序,使用BeautifulSoup库,抓取百度词条中丽江市词条的目录。Python
时间: 2024-09-23 14:03:31 浏览: 54
使用BeautifulSoup爬取想要的标签(《python网络爬虫权威指南》笔记)
编写一个Python网络爬虫程序,使用BeautifulSoup库抓取百度百科中关于丽江市的目录,首先需要安装必要的库,如requests用于发送HTTP请求,以及BeautifulSoup用于解析HTML内容。以下是一个简单的步骤示例:
```python
# 导入所需库
import requests
from bs4 import BeautifulSoup
def fetch_directory(url):
# 发送GET请求获取网页内容
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(response.text, 'html.parser')
# 找到包含目录的部分,这通常在页面的某个特定class或者id下
# 这部分依赖于实际网页结构,假设这里的目录在<h2 class="section-title">标签内
directory_elements = soup.find_all('h2', class_='section-title')
# 提取并返回目录列表
directory = [element.text.strip() for element in directory_elements]
return directory
else:
print(f"请求失败,状态码:{response.status_code}")
return []
# 百度百科丽江市的URL(请替换为你实际要抓取的页面)
url = "https://baike.baidu.com/item/%E4%BB%8A%E9%9D%A2%E5%B8%82"
# 调用函数并打印结果
directory = fetch_directory(url)
if directory:
print("丽江市目录:")
for item in directory:
print(item)
else:
print("未能找到目录信息。")
阅读全文