python爬取考试酷题库代码
时间: 2023-09-28 19:03:28 浏览: 399
通过python的selenium框架爬取考试宝典题目
以下是一个简单的 Python 爬取考试酷题库的代码示例:
```python
import requests
from bs4 import BeautifulSoup
# 考试酷题库URL
url = 'https://www.examcoo.com/papers/2.html'
# 设置请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 发送请求,获取网页源代码
response = requests.get(url, headers=headers)
html = response.content.decode()
# 解析网页源代码,提取题目信息
soup = BeautifulSoup(html, 'html.parser')
questions = soup.select('.paperList li')
# 存储题目信息到本地文件
with open('questions.txt', 'w', encoding='utf-8') as f:
for question in questions:
content = question.select('.paperTitle')[0].text.strip()
options = question.select('.options ul li label')
answer = question.select('.answer')[0].text.strip()
f.write(content + '\n')
for option in options:
f.write(option.text.strip() + '\n')
f.write('答案:' + answer + '\n\n')
```
这个代码会爬取考试酷的第二页题库,将题目信息存储到 `questions.txt` 文件中。你可以根据需要修改代码,爬取多页题库并且将题目信息存储到数据库等其他地方。需要注意的是,爬取考试酷题库可能涉及到网站的版权问题,请在尊重知识产权的前提下进行爬取操作。
阅读全文