爬取https://www.xuexi.cn/f997e76a890b0e5a053c57b19f468436/018d244441062d8916dd472a4c6a0a0b.html页面中的新闻数据。
时间: 2023-10-31 20:59:18 浏览: 128
这个页面需要登录才能访问,因此需要先模拟登录。以下是使用Python的requests和BeautifulSoup库进行爬取的示例代码:
```python
import requests
from bs4 import BeautifulSoup
# 登录账号
username = 'your_username'
password = 'your_password'
login_url = 'https://pc.xuexi.cn/points/login.html'
session = requests.Session()
# 获取登录页的cookie
session.get(login_url)
# 构造登录请求的参数
login_data = {
'userName': username,
'password': password
}
# 发送登录请求
response = session.post(login_url, data=login_data)
# 获取新闻页的HTML
news_url = 'https://www.xuexi.cn/f997e76a890b0e5a053c57b19f468436/018d244441062d8916dd472a4c6a0a0b.html'
response = session.get(news_url)
html = response.content
# 解析HTML
soup = BeautifulSoup(html, 'html.parser')
news_list = soup.find_all('div', class_='text')
# 输出新闻标题和内容
for news in news_list:
title = news.h3.text.strip()
content = news.p.text.strip()
print(title)
print(content)
print()
```
需要注意的是,这个网站有反爬虫措施,如果爬取频率过高可能会被封IP或账号。因此在实际爬取时需要加入一些延时或其他反反爬虫策略。
阅读全文