首页利用语料库五代•南唐二主词（poetrys.json），去除其中的标点符号和空格，不调用库函数，分别统计n-gram（n=1、2）的词频，存储到相应的数据结构，该数据结构包括词（词本身）和词的频度（出现次数），将上述数据结构存储到文件，方便以后使用。

利用语料库五代•南唐二主词（poetrys.json），去除其中的标点符号和空格，不调用库函数，分别统计n-gram（n=1、2）的词频，存储到相应的数据结构，该数据结构包括词（词本身）和词的频度（出现次数），将上述数据结构存储到文件，方便以后使用。

时间: 2024-05-01 09:16:36 浏览: 7

以下是Python代码实现： ```python import json # 读取数据 with open('poetrys.json', 'r', encoding='utf-8') as f: data = json.load(f) # 去除标点符号和空格 text = ''.join([c for c in data if c.isalnum() or c.isspace()]) # 统计1-gram词频 freq_1gram = {} for word in text.split(): if word in freq_1gram: freq_1gram[word] += 1 else: freq_1gram[word] = 1 # 统计2-gram词频 freq_2gram = {} words = text.split() for i in range(len(words)-1): word_pair = words[i] + words[i+1] if word_pair in freq_2gram: freq_2gram[word_pair] += 1 else: freq_2gram[word_pair] = 1 # 存储到文件 with open('freq_1gram.json', 'w', encoding='utf-8') as f: json.dump(freq_1gram, f, ensure_ascii=False, indent=4) with open('freq_2gram.json', 'w', encoding='utf-8') as f: json.dump(freq_2gram, f, ensure_ascii=False, indent=4) ``` 以上代码中，我们首先读取了存储了五代•南唐二主词的JSON文件。然后，我们去除了其中的标点符号和空格，并将其存储到变量`text`中。接着，我们分别统计了1-gram和2-gram的词频，存储到了`freq_1gram`和`freq_2gram`两个字典中。最后，我们将这两个字典分别存储到了`freq_1gram.json`和`freq_2gram.json`两个文件中。

最新推荐

k8s1.16的jenkins部署java项目cicd(cd手动)-kubernetes安装包和详细文档笔记整理

zigbee-cluster-library-specification

相关推荐

论文研究-基于内容主题的语料库系统设计与实现.pdf

语料库停用词清单含标点符号

524MB中文维基百科语料pleisto-json.zip

利用语料库五代•南唐二主词（poetrys.json），不调用库函数，分别统计n-gram（n=1、2）的词频，存储到相应的数据结构，该数据结构包括词（词本身）和词的频度（出现次数），将上述数据结构存储到文件，方便以后使用

N-gram算法如何从语料库提取出目标语句

用python语言编写利用现代汉语语料库进行汉语分词和词性自动标注，并进行文本的“词频统计”：

用python代价写出NLTK对obama.txt语料库进行对应的分词和词频统计，再对布朗语料库进行词性和句法分析。

搜狗新闻语料库json

Python编程实现，去除语料中的标记内容，统计语料库中所有不重复分词的词频。画出处理程序的流程图。

维基百科语料库 xml 解析后，怎么去掉里面的特殊符号

java 维基百科语料库 xml 解析后，怎么去掉里面的特殊符号

chatterbot 找不到chatterbot.corpus.chinese语料库

TF-IDF不需要依赖于整个语料库有什么好处

python汉字同义词替换_用WordNet和NLTK-python替换语料库中的同义词

文本分类语料库(复旦)测试语料train.rar

chatterbot库调用chatterbot已经训练好的语料库

美国当代英语语料库20000词频表.xlsx

chatterbot怎么调用自定义的语料库

利用汉语切分和标注语料，尝试用bi-gram实现一个简单的基于c语言的汉语自动分词程序

最新推荐

k8s1.16的jenkins部署java项目cicd(cd手动)-kubernetes安装包和详细文档笔记整理

zigbee-cluster-library-specification

管理建模和仿真的文件

MATLAB柱状图在信号处理中的应用：可视化信号特征和频谱分析

用Spring boot和vue写一个登录注册界面

JSBSim Reference Manual

"互动学习：行动中的多样性与论文攻读经历"

MATLAB柱状图在数据分析中的作用：从可视化到洞察

命名ACL和拓展ACL标准ACL的具体区别

c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf