请爬取计算机学院教师信息,链接如下: https://scs.bupt.edu.cn/szjs1/jsyl.htm 结果存放到文件中 文件数据格式为:id,中心名称,教师姓名
时间: 2024-12-20 22:28:36 浏览: 9
要爬取指定网页并保存数据到文件,我们可以使用Python的`requests`库获取网页内容,然后利用`BeautifulSoup`解析HTML结构,提取所需信息。下面是一个示例脚本:
```python
import requests
from bs4 import BeautifulSoup
import csv
def get_teacher_info(url):
response = requests.get(url)
if response.status_code == 200:
soup = BeautifulSoup(response.text, 'html.parser')
table_data = soup.find('table', {'class': 'listTable'}).tbody
rows = table_data.find_all('tr')
teacher_info_list = []
for row in rows[1:]: # 跳过表头
cols = row.find_all('td')[:3] # 获取前三个td元素
id = cols[0].text.strip() if cols[0].text else ''
center_name = cols[1].a['href'].split('/')[-1] if cols[1].a else ''
teacher_name = cols[2].text.strip() if cols[2].text else ''
teacher_info_list.append((id, center_name, teacher_name))
# 写入CSV文件
with open('teacher_info.csv', 'w', newline='', encoding='utf-8') as f:
writer = csv.writer(f)
writer.writerow(['ID', '中心名称', '教师姓名'])
writer.writerows(teacher_info_list)
else:
print("请求失败")
# 调用函数
get_teacher_info("https://scs.bupt.edu.cn/szjs1/jsyl.htm")
```
注意:这只是一个基础示例,实际网页结构可能会有所不同,需要根据实际情况调整查找元素的方式。同时,如果网站有反爬机制,可能需要设置User-Agent、代理等。
阅读全文