编写一个爬取题库题目及答案的代码
时间: 2024-06-08 14:11:40 浏览: 110
首先,爬取题库的过程需要先确定要爬取的网站,以及该网站的页面结构和数据格式。这里以爬取某个在线题库(例如:https://www.xxx.com)的选择题为例。
然后,我们可以使用 Python 的 requests 库和 BeautifulSoup 库来实现爬虫:
```python
import requests
from bs4 import BeautifulSoup
url = "https://www.xxx.com/xxx" # 题目列表页面的 URL
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 获取所有题目的链接
links = []
for a in soup.find_all('a', href=True):
if '题目' in a['href']:
links.append(a['href'])
# 遍历所有题目的链接,获取题目和答案
for link in links:
response = requests.get(link)
soup = BeautifulSoup(response.text, 'html.parser')
# 获取题目和选项
question = soup.find('div', {'class': 'question'}).text.strip()
options = []
for label in soup.find_all('label'):
option = label['for']
text = label.text.strip()
options.append((option, text))
# 获取答案
answer = soup.find('div', {'class': 'answer'}).text.strip()
# 打印结果
print('Question:', question)
for option in options:
print(option[0], option[1])
print('Answer:', answer)
```
在这段代码中,我们首先通过 requests 库获取题目列表页面的 HTML 代码,然后使用 BeautifulSoup 库解析 HTML 代码。接着,我们通过遍历页面中所有链接的方式获取所有题目的链接。对于每个题目的链接,我们再次使用 requests 和 BeautifulSoup 库获取该题目的 HTML 代码,并从中提取出题目、选项和答案。最后,我们将结果打印出来。
需要注意的是,该代码仅供学习和参考,具体实现需要根据所爬取的网站的页面结构和数据格式进行调整。此外,爬取题库需要注意遵守相关法律法规和网站的规定,不得进行商业用途和侵犯他人权益的行为。
阅读全文