首页爬取https://en.wikipedia.org/wike.Complex_network统计在不计大小写情况下每个字符的出现次数，显示前十个单词

爬取https://en.wikipedia.org/wike.Complex_network统计在不计大小写情况下每个字符的出现次数，显示前十个单词

时间: 2024-01-02 21:02:12 浏览: 65

首先，我们需要使用 Python 的 requests 库来获取该网页的 HTML 内容，然后使用 BeautifulSoup 库来解析 HTML。接着，我们需要将 HTML 中的文本内容提取出来，并将所有字母转换为小写（以便不区分大小写）。然后，我们可以使用 Python 的 re 模块来匹配所有的单词，并统计它们出现的次数。最后，我们可以使用 Python 的 Counter 类来对出现次数进行排序，并输出前十个单词和它们的出现次数。以下是一个简单的 Python 代码示例： ```python import requests from bs4 import BeautifulSoup import re from collections import Counter # 发送 HTTP 请求并获取 HTML 内容 url = "https://en.wikipedia.org/wiki/Complex_network" response = requests.get(url) html_content = response.content # 解析 HTML 内容并提取文本 soup = BeautifulSoup(html_content, "html.parser") text = soup.get_text().lower() # 匹配所有单词并统计出现次数 words = re.findall(r'\b\w+\b', text) word_counts = Counter(words) # 对出现次数进行排序并输出前十个单词 for word, count in word_counts.most_common(10): print(word, count) ``` 该代码会输出前十个出现次数最多的单词（不区分大小写）。

阅读全文