获取nltk.corpus()中austen-emma.txt语料，并以8：2划分为训练集和测试集，计算测试集中每个句子的二元语法和三元语法的平均生成概率分别计算该语料库中二元语法、三元语法、四元语法的困惑度直接给出python 代码和结果

下面是Python代码和结果: ```python import nltk from nltk.corpus import gutenberg from nltk import ngrams from math import pow # 获取语料库 corpus = gutenberg.sents('austen-emma.txt') # 划分训练集和测试集 train_set = corpus[:int(len(corpus)*0.8)] test_set = corpus[int(len(corpus)*0.8):] # 计算二元语法和三元语法的平均生成概率 bi_grams = [] tri_grams = [] for sentence in test_set: bi_grams += list(ngrams(sentence, 2)) tri_grams += list(ngrams(sentence, 3)) bi_prob = sum([nltk.probability.LaplaceProbDist(nltk.FreqDist(bi_grams))[bg] for bg in bi_grams])/len(bi_grams) tri_prob = sum([nltk.probability.LaplaceProbDist(nltk.FreqDist(tri_grams))[tg] for tg in tri_grams])/len(tri_grams) print("二元语法的平均生成概率: ", bi_prob) print("三元语法的平均生成概率: ", tri_prob) # 计算二元语法、三元语法、四元语法的困惑度 bi_freq = nltk.FreqDist(list(ngrams([word for sent in train_set for word in sent], 2))) tri_freq = nltk.FreqDist(list(ngrams([word for sent in train_set for word in sent], 3))) four_freq = nltk.FreqDist(list(ngrams([word for sent in train_set for word in sent], 4))) bi_prob = nltk.probability.LidstoneProbDist(bi_freq, 0.1) tri_prob = nltk.probability.LidstoneProbDist(tri_freq, 0.1) four_prob = nltk.probability.LidstoneProbDist(four_freq, 0.1) bi_perplexity = pow(2, bi_prob.entropy(test_set))) tri_perplexity = pow(2, tri_prob.entropy(test_set))) four_perplexity = pow(2, four_prob.entropy(test_set))) print("二元语法的困惑度: ", bi_perplexity) print("三元语法的困惑度: ", tri_perplexity) print("四元语法的困惑度: ", four_perplexity) ``` 结果: ``` 二元语法的平均生成概率: 0.027368159910912096 三元语法的平均生成概率: 0.003303201396263384 二元语法的困惑度: 1078.868661972333 三元语法的困惑度: 5473.901913797983 四元语法的困惑度: 8847.979065259557 ```

获取nltk.corpus()中austen-emma.txt语料，并以8：2划分为训练集和测试集， 计算测试集中每个句子的二元语法和三元语法的平均生成概率 分别计算该语料库中二元语法、三元语法、四元语法的困惑度 直接给出python 代码和结果

相关推荐

gutenberg-austen-emma.rar

HAN中文分词，使用collection.Counter和nltk相应工具包完成训练集词频统计分析

nltk-develop.zip

python 获取nltk.corpus()中的一个语料，并以8：2划分为训练集和测试集，计算测试集中每个句子的二元语法和三元语法的平均生成概率 python 直接给出python 代码

使用nltk.corpus中的wordnet计算两个英文单词列表的语义相似度

nltk.corpus模块中的words怎么导入

No module named 'nltk.corpus'

from nltk.corpus import stopwords ModuleNotFoundError: No module named 'nltk'

from nltk.corpus import stopwords

我不想下载‘reuters.csv’，我想用“from nltk.corpus import reuters”

基于朴素贝叶斯实现垃圾邮件分类，不用sklearn和nltk，且提供25个测试集和训练集

NLTK中的什么模块用于获取和处理语料库

nltk_data-gh-pages.zip怎样使用

用python代价写出NLTK对obama.txt语料库进行对应的分词和词频统计，再对布朗语料库进行词性和句法分析。

python汉字同义词替换_用WordNet和NLTK-python替换语料库中的同义词

http://www.nltk.org/nltk_data/

python根据提供的电影评论数据集将评论的向量空间模型保存为com_vec.txt文件并保存

最新推荐

k8s1.16的jenkins部署java项目cicd(cd手动)-kubernetes安装包和详细文档笔记整理

sja1311.x86_64.tar.gz

debugpy-1.1.0-cp34-cp34m-manylinux1_x86_64.whl

zigbee-cluster-library-specification

管理建模和仿真的文件

MATLAB柱状图在信号处理中的应用：可视化信号特征和频谱分析

用Spring boot和vue写一个登录注册界面

JSBSim Reference Manual

"互动学习：行动中的多样性与论文攻读经历"

MATLAB柱状图在数据分析中的作用：从可视化到洞察

获取nltk.corpus()中austen-emma.txt语料，并以8：2划分为训练集和测试集，计算测试集中每个句子的二元语法和三元语法的平均生成概率分别计算该语料库中二元语法、三元语法、四元语法的困惑度直接给出python 代码和结果