首页利用语料库五代•南唐二主词（poetrys.json），不调用库函数，分别统计n-gram（n=1、2）的词频，存储到相应的数据结构，该数据结构包括词（词本身）和词的频度（出现次数），将上述数据结构存储到文件，方便以后使用

利用语料库五代•南唐二主词（poetrys.json），不调用库函数，分别统计n-gram（n=1、2）的词频，存储到相应的数据结构，该数据结构包括词（词本身）和词的频度（出现次数），将上述数据结构存储到文件，方便以后使用

时间: 2024-02-06 10:02:20 浏览: 40

以下为Python代码实现： ```python import json # 读取诗歌数据 with open('poetrys.json', 'r', encoding='utf-8') as f: poetrys = json.load(f) # 定义存储词频的数据结构 word_freq_1 = {} word_freq_2 = {} # 遍历每首诗歌 for poetry in poetrys: # 遍历每个字 for i in range(len(poetry)): word = poetry[i] # 统计一元词频 if word in word_freq_1: word_freq_1[word] += 1 else: word_freq_1[word] = 1 # 统计二元词频 if i < len(poetry) - 1: word_2 = poetry[i:i+2] if word_2 in word_freq_2: word_freq_2[word_2] += 1 else: word_freq_2[word_2] = 1 # 将词频数据结构存储到文件 with open('word_freq_1.json', 'w', encoding='utf-8') as f: json.dump(word_freq_1, f, ensure_ascii=False) with open('word_freq_2.json', 'w', encoding='utf-8') as f: json.dump(word_freq_2, f, ensure_ascii=False) ``` 以上代码读取了诗歌数据，遍历每首诗歌，对于每个字统计一元词频，并且对于每两个相邻的字统计二元词频。最后将词频数据结构存储到文件中，以便以后使用。文件格式为JSON。

最新推荐

利用语料库五代•南唐二主词（poetrys.json），不调用库函数，分别统计n-gram（n=1、2）的词频，存储到相应的数据结构，该数据结构包括词（词本身）和词的频度（出现次数），将上述数据结构存储到文件，方便以后使用

相关推荐

ngram模型分词与统计算法.zip_NGram 算法_ngram 分词_ngram模型分词与统计算法_n元模型_按n-gram

nlp-tutorial代码注释1-1，语言模型、n-gram简介

N-gram语言模型

N-gram算法如何从语料库提取出目标语句

根据给定的语料，计算句子N-Gram语言模型的值，为便于计算，设N=2

根据给定的语料,计算句子N-Gram语言模型的值,为便于计算,设N=2

基于N-gram语言模型的句子得分计算 请根据附件给定的语料，计算下述句子N-Gram语言模型的值，为便于计算，设N=2。

n-gram 相似度

使用python语言，基于N-gram语言模型的句子得分计算 请根据附件给定的语料，计算下述句子N-Gram语言模型的值，为便于计算，设N=2。

n-gram语言模型分词

写一段python代码n-gram

使用py写一N-gram模型

自然语言处理N-gram算法

什么是语言模型，n-gram语言模型是什么？如何计算？写出公式描述（使用Latex格式）。

除了BOW TFIDF n-gram word2vec还有其他NLP特征处理方法吗，并说说这些方法的特点与优缺点

利用汉语切分和标注语料，尝试用bi-gram实现一个简单的基于c语言的汉语自动分词程序

用Python写一个程序，要求：首先定义 N-Gram 函数，使用正则表达式对语料进行特殊符号清洗，并按空格分割成多个 Token。然后，循环遍历这些 Token，每次取 n 个连续的 Token，就是 N-Gram:，并给出完整的代码

利用汉语切分和标注语料，尝试用 bi-gram 实现一个简单的汉语自动分词程序并给出代码。

最新推荐

python gensim使用word2vec词向量处理中文语料的方法

multisim仿真电路实例700例.rar

数据结构课程设计：模块化比较多种排序算法

管理建模和仿真的文件

STM32单片机小车智能巡逻车设计与实现：打造智能巡逻车，开启小车新时代

devc++如何监视

哈夫曼树实现文件压缩解压程序分析

"互动学习：行动中的多样性与论文攻读经历"

STM32单片机小车硬件优化策略：优化硬件设计，让小车更稳定更可靠

android studio购物车源码

基于N-gram语言模型的句子得分计算请根据附件给定的语料，计算下述句子N-Gram语言模型的值，为便于计算，设N=2。

使用python语言，基于N-gram语言模型的句子得分计算请根据附件给定的语料，计算下述句子N-Gram语言模型的值，为便于计算，设N=2。