pycharm 爬取网页前10页数据
时间: 2024-06-10 17:10:24 浏览: 79
以下是使用Python和Pycharm爬取网页前10页数据的示例代码:
```python
import requests
from bs4 import BeautifulSoup
# 设置请求头,模拟浏览器访问
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 待爬取的网页链接及页数
url = 'https://www.example.com/page/'
page_num = 10
# 遍历各页并爬取数据
for i in range(1, page_num+1):
# 构造完整的网页链接
page_url = url + str(i)
# 发送GET请求并获取响应内容
response = requests.get(page_url, headers=headers)
# 使用BeautifulSoup解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')
# 获取需要的数据,这里以获取所有标题为例
titles = soup.find_all('h2', class_='title')
# 输出数据
for title in titles:
print(title.text.strip())
```
以上代码中,我们使用requests库发送GET请求获取网页内容,并使用BeautifulSoup库解析网页内容,最后输出需要的数据。`page_num`变量用于设置需要爬取的页数,可以根据实际需求进行修改。
阅读全文