爬取https://en.wikipedia.org/wike.Complex_network统计在不计大小写情况下每个字符的出现次数,显示前十个单词
时间: 2024-01-02 08:02:12 浏览: 63
首先,我们需要使用 Python 的 requests 库来获取该网页的 HTML 内容,然后使用 BeautifulSoup 库来解析 HTML。
接着,我们需要将 HTML 中的文本内容提取出来,并将所有字母转换为小写(以便不区分大小写)。然后,我们可以使用 Python 的 re 模块来匹配所有的单词,并统计它们出现的次数。
最后,我们可以使用 Python 的 Counter 类来对出现次数进行排序,并输出前十个单词和它们的出现次数。
以下是一个简单的 Python 代码示例:
```python
import requests
from bs4 import BeautifulSoup
import re
from collections import Counter
# 发送 HTTP 请求并获取 HTML 内容
url = "https://en.wikipedia.org/wiki/Complex_network"
response = requests.get(url)
html_content = response.content
# 解析 HTML 内容并提取文本
soup = BeautifulSoup(html_content, "html.parser")
text = soup.get_text().lower()
# 匹配所有单词并统计出现次数
words = re.findall(r'\b\w+\b', text)
word_counts = Counter(words)
# 对出现次数进行排序并输出前十个单词
for word, count in word_counts.most_common(10):
print(word, count)
```
该代码会输出前十个出现次数最多的单词(不区分大小写)。
阅读全文