爬取清华大学的首页https://www.tsinghua.edu.cn/news/zxdt.htm代码
时间: 2024-12-15 20:20:24 浏览: 15
爬取网站通常涉及到网络请求和HTML解析。在Python中,可以使用一些常见的库如requests获取网页内容,BeautifulSoup或lxml库来解析HTML。这里是一个简单的示例,展示如何使用`requests`和`BeautifulSoup`爬取清华大学新闻动态首页的内容:
```python
import requests
from bs4 import BeautifulSoup
# 请求URL
url = "https://www.tsinghua.edu.cn/news/zxdt.htm"
# 发送GET请求
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 解析响应内容为BeautifulSoup对象
soup = BeautifulSoup(response.text, 'html.parser')
# 找到并打印文章标题或链接区域(这取决于你的需求)
article_titles = soup.find_all('h2', class_='article-title') # 假设标题在'h2'标签内
for title in article_titles:
print(title.text) # 打印标题文本
# 如果需要链接,替换'.text'为'.a['href']'
else:
print(f"请求失败,状态码:{response.status_code}")
阅读全文