首页python3 抓取网页

python3 抓取网页

时间: 2024-10-05 13:02:11 浏览: 5

在Python中抓取网页通常使用的是第三方库，如requests和BeautifulSoup（或者更高级的Selenium）。以下是一个基础示例，展示了如何使用这两个库来获取HTML内容： ```python import requests from bs4 import BeautifulSoup # 定义目标URL url = 'https://www.example.com' # 使用requests库发送GET请求获取网页内容 response = requests.get(url) # 判断请求是否成功（状态码200表示成功） if response.status_code == 200: # 解析HTML内容为BeautifulSoup对象 soup = BeautifulSoup(response.text, 'html.parser') # 通过BeautifulSoup对解析出的内容进行遍历和提取所需的信息 title = soup.find('title').text # 提取页面标题 content = soup.find('div', {'class': 'content'}) # 根据CSS选择器提取内容区域 # 打印提取的数据 print("标题:", title) print("内容:", content) else: print("请求失败，状态码：", response.status_code) ``` 在这个例子中，首先发送一个HTTP GET请求到指定URL，然后解析返回的HTML文档。BeautifulSoup帮助我们解析复杂结构的HTML，通过标签名或属性找到我们需要的内容。