python英文歌曲中的词频统计
时间: 2024-10-24 15:01:15 浏览: 71
Python实现pdf中词频统计
在Python中,你可以使用一些文本处理库如NLTK(Natural Language Toolkit)和collections模块来进行英文歌曲歌词的词频统计。以下是一个简单的步骤:
1. **下载和导入必要的库**:
```python
import nltk
from collections import Counter
```
2. **读取歌词文件**:
如果歌词存储在一个.txt或其他文本文件里,可以用`open()`函数读取内容。
3. **预处理文本**:
- 分词:使用nltk的`word_tokenize()`方法将歌词分割成单词列表。
- 去除停用词和标点符号:可以使用`nltk.corpus.stopwords`中的停用词列表,并使用`string.punctuation`去除标点。
```python
nltk.download('punkt')
from nltk.corpus import stopwords
stop_words = set(stopwords.words('english'))
lyrics = open('song_lyrics.txt', 'r').read().lower()
words = [word for word in nltk.word_tokenize(lyrics) if word.isalpha() and word not in stop_words]
```
4. **词频统计**:
使用`Counter`计算每个单词出现的次数。
```python
word_freq = Counter(words)
most_common_words = word_freq.most_common()
```
5. **输出结果**:
可以打印出最常见的前几个单词及其频率,或者将结果保存到CSV或JSON文件中。
```python
for word, freq in most_common_words[:10]:
print(f"{word}: {freq}")
```
阅读全文