爬取http://admission.scut.edu.cn/30821/list.html下的所有数据形成csv文件
时间: 2023-12-17 12:03:24 浏览: 129
好的,我可以为您编写一个Python脚本来实现这个功能。您需要安装requests和beautifulsoup4这两个库。以下是完整的代码:
```python
import csv
import requests
from bs4 import BeautifulSoup
url = "http://admission.scut.edu.cn/30821/list.html"
# 发送HTTP GET请求获取HTML页面
response = requests.get(url)
# 解析HTML页面
soup = BeautifulSoup(response.content, "html.parser")
# 找到所有的新闻条目
news_items = soup.find_all("div", class_="news-item")
# 将新闻条目的标题、链接和日期存储到二维列表中
data = []
for item in news_items:
title = item.find("a").text.strip()
link = item.find("a")["href"]
date = item.find("span", class_="news-meta-date").text.strip()
data.append([title, link, date])
# 将数据写入CSV文件
with open("news.csv", "w", newline="", encoding="utf-8") as csvfile:
writer = csv.writer(csvfile)
writer.writerow(["标题", "链接", "日期"])
for item in data:
writer.writerow(item)
print("数据已保存到news.csv文件中。")
```
这个脚本会先发送HTTP GET请求获取网页内容,然后使用BeautifulSoup库解析HTML页面,找到所有的新闻条目,并将标题、链接和日期存储到一个二维列表中。最后,将数据写入CSV文件中。您可以修改代码中的文件名和路径来保存CSV文件到您想要的位置。
阅读全文