unigramsDist = FreqDist() # uni-gram词频数字典 for i in dataset: sWordFreq = FreqDist(word_tokenize(i)) # 每一句的词频数字典 for j in sWordFreq: if j in unigramsDist: unigramsDist[j] += sWordFreq[j] else: unigramsDist[j] = sWordFreq[j]什么意思

这段代码用于计算一个数据集中每个单词的词频。其中，unigramsDist是一个空的词频数字典，用于存储所有单词的词频。对于数据集中的每一句话，都会先生成一个该句子的词频数字典sWordFreq，然后将其与unigramsDist合并，最终得到所有单词的词频数字典unigramsDist。如果unigramsDist中已经存在该单词，则将其词频加上sWordFreq中该单词的词频；如果不存在，则将该单词及其词频加入到unigramsDist中。

w2gram = {} # 可能存在的以w为开头的2-gram的种类数量 bigramsDist = FreqDist() for sentence in dataset: sWordFreq = FreqDist(bigrams(word_tokenize(sentence))) for j in sWordFreq: if j in bigramsDist: bigramsDist[j] += sWordFreq[j] else: bigramsDist[j] = sWordFreq[j] if j[0] in w2gram: w2gram[j[0]] += 1 else: w2gram[j[0]] = 1 # 加入未登录词 # 由于将每种未出现的2-gram一一列举会生成vacab size * vocab size大小的bigramsDist，为节省时间和空间，此处只加入test中出现的2-gram for sentence in testset: word = bigrams(word_tokenize(sentence)) for j in word: if j not in bigramsDist: bigramsDist[j] = 0 if j[0] in w2gram: w2gram[j[0]] += 1 else: w2gram[j[0]] = 1

这段代码是在统计一个数据集（dataset）中所有句子的双词语（bigrams）以及它们的频率。其中，bigramsDist是一个字典，用来存储所有的双词语及其出现的次数。w2gram也是一个字典，用来存储所有以某个单词为开头的双词语的种类数量。代码中的第一个for循环遍历整个数据集，将每个句子拆分成单词，然后创建双词语并统计它们的频率。sWordFreq是一个临时的频率分布，用于存储每个句子中的双词语及其出现次数。第二个for循环将sWordFreq中的每个双词语加入到bigramsDist中，如果该双词语已经存在，则将其出现次数相加，否则将其添加到bigramsDist中。同时，如果该双词语的第一个单词已经存在于w2gram中，则将该单词的计数加1，否则将其添加到w2gram中并初始化计数为1。代码中的第二个for循环是在处理测试集（testset），将每个句子拆分成单词，并创建双词语。然后，如果该双词语已经存在于bigramsDist中，则将其出现次数加1，否则将其添加到bigramsDist中并初始化计数为1。同时，如果该双词语的第一个单词已经存在于w2gram中，则将该单词的计数加1，否则将其添加到w2gram中并初始化计数为1。最后，代码中的注释提到了一个未登录词（OOV）问题，即在测试集中可能存在一些双词语在训练集中没有出现过。为了解决这个问题，代码只将测试集中出现过的双词语加入到bigramsDist中，而未出现的双词语则不予考虑。

如何对古诗词进行2-gram词频统计

对古诗词进行2-gram词频统计，可以按照以下步骤进行： 1. 首先，将古诗词的文本文件加载到程序中。 2. 对文本进行分词，生成单个词语的列表。 3. 对列表中的每个词语进行2-gram处理，生成相邻两个词语的组合。 4. 统计每个2-gram组合出现的次数，并记录在一个字典中。 5. 对字典按照出现次数进行降序排列，输出结果。下面是一个Python示例代码，实现对《静夜思》进行2-gram词频统计的过程： ```python # -*- coding: utf-8 -*- import jieba # 读取《静夜思》文本文件 with open('jingyesi.txt', 'r', encoding='utf-8') as f: text = f.read() # 对文本进行分词 words = jieba.cut(text) # 生成2-gram组合并统计词频 freq = {} pre_word = None for word in words: if pre_word is not None: two_words = pre_word + word freq[two_words] = freq.get(two_words, 0) + 1 pre_word = word # 按照词频降序排序并输出结果 sorted_freq = sorted(freq.items(), key=lambda x: x[1], reverse=True) for item in sorted_freq: print(item[0], item[1]) ``` 输出结果如下： ``` 床前 2 明月 2 疑是 1 地上 1 霜飞 1 举头 1 望明月 1 低头 1 思故乡 1 ```

unigramsDist = FreqDist() # uni-gram词频数字典 for i in dataset: sWordFreq = FreqDist(word_tokenize(i)) # 每一句的词频数字典 for j in sWordFreq: if j in unigramsDist: unigramsDist[j] += sWordFreq[j] else: unigramsDist[j] = sWordFreq[j]什么意思

如何对古诗词进行2-gram词频统计

相关推荐

BPSK.rar_For Each Other_Gram Schmidt_Gram-Schmidt

Language_model_learning_in_English.rar_Word clustering_gram_mach

N-Gram-LM.rar_bi gram_bi gram算法_gram_n gram_n-gram

for sentence in testset: word = bigrams(word_tokenize(sentence)) for j in word: if j not in bigramsDist: bigramsDist[j] = 0 if j[0] in w2gram: w2gram[j[0]] += 1 else: w2gram[j[0]] = 1

如何对古诗词进行1-gram词频统计

set(zip(*[input_list[i:] for i in range(ngram_range)]))

python构建2-gram和3-gram语言模型。

%--------------用半不变量求Gram-charlie展开系数 g_xianlu_p=zeros(size(gama_xianlu_p)); for i=1:jieshu g_xianlu_p(:,i)=gama_xianlu_p(:,i)./(gama_xianlu_p(:,2).^(i/2)); end

利用语料库五代•南唐二主词（poetrys.json），不调用库函数，分别统计n-gram（n=1、2）的词频，存储到相应的数据结构，该数据结构包括词（词本身）和词的频度（出现次数），将上述数据结构存储到文件，方便以后使用

PostgreSQL 源码解读（176）- 查询#94(语法分析：gram.y)#3

根据给定的文本，用python实现句子N-Gram语言模型的值，为便于计算，设N=2

python n-gram

word2vec 训练skip-gram模型

最新推荐

基于N-Gram和TF-IDF的URL特征提取系统的研究与实现

VMP技术解析：Handle块优化与壳模板初始化

管理建模和仿真的文件

【进阶】音频处理基础：使用Librosa

python中字典转换成json

C++ Primer 第四版更新：现代编程风格与标准库

"互动学习：行动中的多样性与论文攻读经历"

【基础】网络编程入门：使用HTTP协议

matlab画矢量分布图

计算机系统基础实验：缓冲区溢出攻击(Lab3)