首页用Python爬取http://www.bcactc.cn/home/gcxx/index.aspx?gs&sg_gs

用Python爬取http://www.bcactc.cn/home/gcxx/index.aspx?gs&sg_gs

时间: 2023-07-19 09:38:19 浏览: 52

您好！针对您提出的问题，我可以提供以下思路： 1. 使用 requests 库发送 HTTP 请求，获取网页 HTML 内容； 2. 使用 BeautifulSoup 库解析 HTML 内容，获取需要的信息； 3. 将获取的信息保存到本地文件或者数据库中。具体实现步骤如下： ```python import requests from bs4 import BeautifulSoup url = "http://www.bcactc.cn/home/gcxx/index.aspx?gs&sg_gs" # 发送 HTTP 请求获取网页内容 response = requests.get(url) # 解析 HTML 内容 soup = BeautifulSoup(response.content, "html.parser") # 获取需要的信息 items = soup.find_all("div", class_="items") for item in items: title = item.find("h2").text.strip() # 标题 content = item.find("p").text.strip() # 内容 # 打印信息 print(title) print(content) print("=" * 50) ``` 这段代码会输出 http://www.bcactc.cn/home/gcxx/index.aspx?gs&sg_gs 网页上所有信息的标题和内容。您可以根据需要修改代码，将获取的信息保存到本地文件或者数据库中。希望这个思路能够帮到您！