python对英文歌曲词频统计
时间: 2024-10-19 17:02:35 浏览: 191
Python可以使用多种库来进行英文歌曲歌词的词频统计,最常用的是NLTK (Natural Language Toolkit) 和 collections 模块。以下是简单的步骤:
1. **下载歌词数据**:首先你需要获取歌曲的歌词文本,可以从网上找到歌词文件或者API获取。
2. **读取歌词**:使用Python内置的`open()`函数读取歌词文件,并将其内容存储在一个字符串变量中。
```python
with open('song_lyrics.txt', 'r') as file:
lyrics = file.read().lower()
```
3. **预处理文本**:将所有字母转换成小写,移除标点符号、数字等非文字字符,并分词。
```python
import re
from nltk.tokenize import word_tokenize
lyrics_processed = re.sub(r'[^\w\s]', '', lyrics)
tokens = word_tokenize(lyrics_processed)
```
4. **创建词频字典**:使用`collections.Counter`来计算每个单词出现的次数。
```python
from collections import Counter
word_counts = Counter(tokens)
```
5. **查看结果**:最后你可以打印出最常见的单词及其频率。
```python
most_common_words = word_counts.most_common()
for word, count in most_common_words[:10]:
print(f"{word}: {count}")
```
阅读全文