生成实现unigram词频统计 的python代码
时间: 2024-01-07 12:02:48 浏览: 97
以下是生成实现unigram词频统计的Python代码:
```
text = "Sample text to count unigrams."
tokens = text.split()
freq = {}
for token in tokens:
if token in freq:
freq[token] += 1
else:
freq[token] = 1
print(freq)
```
该代码可以统计一个字符串中所有单词的频次,其中 `text` 为待统计的字符串,`freq` 为存储单词频次的字典。该代码只能计算unigram(单个的词),若要计算更高阶的n-gram(如bigram、trigram等),需要进行一些修改。
相关问题
生成实现一个文本的unigram词频统计 的python代码
以下是实现一个文本的unigram词频统计的Python代码样例:
```python
text = "the quick brown fox jumps over the lazy dog"
tokens = text.split()
unigrams = {}
for token in tokens:
if token not in unigrams:
unigrams[token] = 1
else:
unigrams[token] += 1
print(unigrams)
```
上述代码将文本字符串按空格分割为单词,然后遍历每个单词,并以字典形式存储每个单词出现的次数(即单词频率),最后打印结果。你可以根据需要进行修改和扩展,例如读取文件、过滤停用词、统计频率排名等等。
阅读全文