python如何爬取2022高考英语试卷全国卷高频词
时间: 2023-11-07 12:50:55 浏览: 129
要爬取2022高考英语试卷全国卷高频词,需要先找到试卷的来源。如果试卷已经在网上公布,可以使用 Python 的 requests 库进行网页爬取,然后使用正则表达式或 Beautiful Soup 库进行网页解析。
以下是一个示例代码:
```python
import requests
from bs4 import BeautifulSoup
import re
url = "http://example.com/2022-english-exam"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
# 提取试卷正文
text = soup.find("div", class_="exam-content").get_text()
# 正则表达式匹配高频词
words = re.findall(r"\b\w+\b", text)
freq_dict = {}
for word in words:
if word in freq_dict:
freq_dict[word] += 1
else:
freq_dict[word] = 1
# 按照出现频率排序并输出前10个
sorted_freq = sorted(freq_dict.items(), key=lambda x: x[1], reverse=True)
for i in range(10):
print(sorted_freq[i])
```
这个示例代码假设试卷的正文部分被包含在一个 `class` 为 `exam-content` 的 `div` 标签中,并且试卷的网页地址为 `http://example.com/2022-english-exam`。你需要根据实际情况进行修改。
阅读全文