用python写一段可以抓取https://download.pep.com.cn/cdfj/2024/2024xh-hx/mobile/index.html网站数据的爬虫代码
时间: 2024-11-12 09:33:26 浏览: 20
为了抓取指定URL的数据,你需要使用Python的requests和BeautifulSoup库。由于这个网站是动态加载内容,我们还需要考虑使用Selenium(如果需要处理AJAX)或`fake_useragent`库来模拟浏览器行为。下面是一个简单的例子,假设目标数据主要在HTML中可以直接获取:
```python
import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent
# 设置随机User-Agent以模拟浏览器
ua = UserAgent()
headers = {'User-Agent': ua.random}
url = "https://download.pep.com.cn/cdfj/2024/2024xh-hx/mobile/index.html"
# 发送请求并获取HTML内容
response = requests.get(url, headers=headers)
# 检查请求是否成功
if response.status_code == 200:
# 解析HTML内容
soup = BeautifulSoup(response.text, 'html.parser')
# 这里假设你要抓取的是页面上某个class的名字为"data"的所有div元素
data_divs = soup.find_all('div', class_='data')
# 对每个div提取你需要的信息
for div in data_divs:
title = div.find('h2').text
content = div.find('p').text
print(f'Title: {title}, Content: {content}')
else:
print("Failed to fetch the page. Status code:", response.status_code)
#
阅读全文