Python写一段爬取多级页面的代码,并将爬取的数据保存在TXT文件中
时间: 2024-05-10 08:16:03 浏览: 124
python爬虫 爬取文字生成TXT文件
好的,首先需要安装 requests 和 BeautifulSoup 库,可以使用以下命令进行安装:
```
pip install requests beautifulsoup4
```
下面是一个简单的多级页面爬取和保存数据的示例代码:
```python
import requests
from bs4 import BeautifulSoup
# 需要爬取的页面链接
url = "https://example.com"
# 发送 GET 请求获取页面内容
response = requests.get(url)
# 解析页面内容
soup = BeautifulSoup(response.content, "html.parser")
# 获取需要爬取的数据
data = soup.find_all("a")
# 保存数据到文本文件中
with open("data.txt", "w", encoding="utf-8") as file:
for item in data:
file.write(item.text + "\n")
# 获取下一页链接
next_page = soup.find("a", {"class": "next"})
# 如果存在下一页链接,则继续爬取
while next_page:
# 构造下一页链接
next_page_url = url + next_page["href"]
# 发送 GET 请求获取下一页内容
response = requests.get(next_page_url)
# 解析下一页内容
soup = BeautifulSoup(response.content, "html.parser")
# 获取需要爬取的数据
data = soup.find_all("a")
# 保存数据到文本文件中
with open("data.txt", "a", encoding="utf-8") as file:
for item in data:
file.write(item.text + "\n")
# 获取下一页链接
next_page = soup.find("a", {"class": "next"})
```
这段代码会先访问指定的页面,获取页面内容,解析出需要爬取的数据,并将数据保存到文本文件中。然后获取下一页链接,如果存在下一页链接,则继续爬取下一页内容,直到没有下一页为止。
阅读全文