1.编写一个 Python 程序,从一个网页的 HTML 代码中提取所有的文本内容,并统计某些关键词在文本中出现的次数。
时间: 2024-10-27 20:12:10 浏览: 15
在Python中,我们可以使用BeautifulSoup库来解析HTML并提取文本内容,同时使用collections模块中的Counter函数来计算关键词出现的次数。以下是一个简单的示例程序:
```python
import requests
from bs4 import BeautifulSoup
from collections import Counter
def extract_text_and_count_keywords(url, keyword):
# 发送请求获取网页内容
response = requests.get(url)
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(response.text, 'html.parser')
# 提取所有文本内容
text = soup.get_text()
# 清理文本,移除非字母字符并将文本转小写
cleaned_text = ''.join(e for e in text if e.isalnum()).lower()
# 计算关键词出现次数
word_counts = Counter(cleaned_text.split())
keyword_count = word_counts[keyword]
return keyword_count
# 示例:提取example.com网站上"Python"关键字的出现次数
url = "http://example.com"
keyword = "Python"
count = extract_text_and_count_keywords(url, keyword)
print(f"'{keyword}'在网页中出现了 {count} 次")
阅读全文