首页生成实现unigram词频统计的python代码

生成实现unigram词频统计的python代码

时间: 2024-01-07 12:02:48 浏览: 97

以下是生成实现unigram词频统计的Python代码： ``` text = "Sample text to count unigrams." tokens = text.split() freq = {} for token in tokens: if token in freq: freq[token] += 1 else: freq[token] = 1 print(freq) ``` 该代码可以统计一个字符串中所有单词的频次，其中 `text` 为待统计的字符串，`freq` 为存储单词频次的字典。该代码只能计算unigram（单个的词），若要计算更高阶的n-gram（如bigram、trigram等），需要进行一些修改。

生成实现一个文本的unigram词频统计的python代码

以下是实现一个文本的unigram词频统计的Python代码样例： ```python text = "the quick brown fox jumps over the lazy dog" tokens = text.split() unigrams = {} for token in tokens: if token not in unigrams: unigrams[token] = 1 else: unigrams[token] += 1 print(unigrams) ``` 上述代码将文本字符串按空格分割为单词，然后遍历每个单词，并以字典形式存储每个单词出现的次数（即单词频率），最后打印结果。你可以根据需要进行修改和扩展，例如读取文件、过滤停用词、统计频率排名等等。

阅读全文