首页如何对古诗词进行2-gram词频统计

如何对古诗词进行2-gram词频统计

时间: 2024-01-12 18:03:12 浏览: 37

对古诗词进行2-gram词频统计，可以按照以下步骤进行： 1. 首先，将古诗词的文本文件加载到程序中。 2. 对文本进行分词，生成单个词语的列表。 3. 对列表中的每个词语进行2-gram处理，生成相邻两个词语的组合。 4. 统计每个2-gram组合出现的次数，并记录在一个字典中。 5. 对字典按照出现次数进行降序排列，输出结果。下面是一个Python示例代码，实现对《静夜思》进行2-gram词频统计的过程： ```python # -*- coding: utf-8 -*- import jieba # 读取《静夜思》文本文件 with open('jingyesi.txt', 'r', encoding='utf-8') as f: text = f.read() # 对文本进行分词 words = jieba.cut(text) # 生成2-gram组合并统计词频 freq = {} pre_word = None for word in words: if pre_word is not None: two_words = pre_word + word freq[two_words] = freq.get(two_words, 0) + 1 pre_word = word # 按照词频降序排序并输出结果 sorted_freq = sorted(freq.items(), key=lambda x: x[1], reverse=True) for item in sorted_freq: print(item[0], item[1]) ``` 输出结果如下： ``` 床前 2 明月 2 疑是 1 地上 1 霜飞 1 举头 1 望明月 1 低头 1 思故乡 1 ```

最新推荐

基于N-Gram和TF-IDF的URL特征提取系统的研究与实现

基于N-Gram和TF-IDF的URL特征提取系统的研究与实现，葛峰，罗守山，针对web的日志分析通常会对URL进行特征提取，由于URL中可能包含未解码参数，直接使用传统特征提取算法对其进行特征提取会造成提取出

zigbee-cluster-library-specification

如何对古诗词进行2-gram词频统计

相关推荐

NLP实验，实现了词频统计，句子生成和n-gram模型进行分词

word2vec Skip-Gram模型的简单实现

使用 N-Gram 进行文本挖掘-研究论文

掌握词袋模型中的n-gram特征提取

印尼推文的趋势主题检测方法比较：文档枢轴 vs BN-gram

印尼语G2P模型改进：基于n-gram的音位定位规则

基于n-gram模型的语言建模与文本生成

基于N-gram模型的全文搜索关键词预测

如何对古诗词进行1-gram词频统计

python构建2-gram和3-gram语言模型。

如何使用3-gram tokenization对字段进行表计划

用python写一个2-gram

n-gram统计一元语法频次

2-gram中条件概率的计算

word2vec 训练skip-gram模型

n-gram-mask

n-gram 相似度

如何用Skip-gram 模型进行词向量学习

word2vec skip-gram

最新推荐

基于N-Gram和TF-IDF的URL特征提取系统的研究与实现

zigbee-cluster-library-specification

管理建模和仿真的文件

MATLAB柱状图在信号处理中的应用：可视化信号特征和频谱分析

hive中 的Metastore

JSBSim Reference Manual

"互动学习：行动中的多样性与论文攻读经历"

MATLAB柱状图在数据分析中的作用：从可视化到洞察

软件工程每个学期的生活及学习目标

c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf

hive中的Metastore