首页Python写一段爬取多级页面的代码，并将爬取的数据保存在TXT文件中

Python写一段爬取多级页面的代码，并将爬取的数据保存在TXT文件中

时间: 2024-05-10 07:16:03 浏览: 134

好的，首先需要安装 requests 和 BeautifulSoup 库，可以使用以下命令进行安装： ``` pip install requests beautifulsoup4 ``` 下面是一个简单的多级页面爬取和保存数据的示例代码： ```python import requests from bs4 import BeautifulSoup # 需要爬取的页面链接 url = "https://example.com" # 发送 GET 请求获取页面内容 response = requests.get(url) # 解析页面内容 soup = BeautifulSoup(response.content, "html.parser") # 获取需要爬取的数据 data = soup.find_all("a") # 保存数据到文本文件中 with open("data.txt", "w", encoding="utf-8") as file: for item in data: file.write(item.text + "\n") # 获取下一页链接 next_page = soup.find("a", {"class": "next"}) # 如果存在下一页链接，则继续爬取 while next_page: # 构造下一页链接 next_page_url = url + next_page["href"] # 发送 GET 请求获取下一页内容 response = requests.get(next_page_url) # 解析下一页内容 soup = BeautifulSoup(response.content, "html.parser") # 获取需要爬取的数据 data = soup.find_all("a") # 保存数据到文本文件中 with open("data.txt", "a", encoding="utf-8") as file: for item in data: file.write(item.text + "\n") # 获取下一页链接 next_page = soup.find("a", {"class": "next"}) ``` 这段代码会先访问指定的页面，获取页面内容，解析出需要爬取的数据，并将数据保存到文本文件中。然后获取下一页链接，如果存在下一页链接，则继续爬取下一页内容，直到没有下一页为止。

阅读全文