PYTHON编写结构化程序：从网络或硬盘获取语料库文本，使用词干提取器索引有关“happy”的上下文。使用正则表达式为文本进行句子分割、分词操作，并查找到其中以“a，b，c”开头，以“ing”结尾的单词，然后忽略掉词内部的元音即保留所有词首或词尾的元音序列使其仍可以轻松阅读。将结果写入本地文件，以.txt格式命名（注意字符类型的转换）。

时间: 2024-02-16 15:01:29 浏览: 135

好的，我会按照你的要求回答你的问题。首先，这是一个Python编写结构化程序的任务，需要使用Python语言来完成。以下是代码实现的步骤： 1. 导入必要的模块，如nltk、re等。 ```python import nltk from nltk.stem import PorterStemmer import re ``` 2. 获取语料库文本，可以从网络或硬盘中获取。 ```python # 从网络获取文本 from urllib import request url = "https://www.gutenberg.org/files/11/11-0.txt" response = request.urlopen(url) raw = response.read().decode('utf8') # 从硬盘获取文本 with open('corpus.txt', 'r') as f: raw = f.read() ``` 3. 对文本进行词干提取，使用PorterStemmer算法。 ```python ps = PorterStemmer() tokens = nltk.word_tokenize(raw) happy_words = [ps.stem(w) for w in tokens if 'happy' in ps.stem(w)] ``` 4. 对文本进行句子分割和分词操作，使用正则表达式。 ```python sentences = nltk.sent_tokenize(raw) words = [nltk.word_tokenize(sentence) for sentence in sentences] ``` 5. 查找以“a，b，c”开头，以“ing”结尾的单词，并忽略掉词内部的元音。 ```python vowels = ['a', 'e', 'i', 'o', 'u'] pattern = r'^(a|b|c)[a-z]*[aeiou]*[a-z]*ing$' result = [] for sentence in words: for word in sentence: if re.match(pattern, word): word = re.sub('[aeiou]', '', word) result.append(word) ``` 6. 将结果写入本地文件，并以.txt格式命名。 ```python with open('result.txt', 'w') as f: f.write('\n'.join(result)) ``` 完整代码如下： ```python import nltk from nltk.stem import PorterStemmer import re # 从网络获取文本 from urllib import request url = "https://www.gutenberg.org/files/11/11-0.txt" response = request.urlopen(url) raw = response.read().decode('utf8') # 从硬盘获取文本 # with open('corpus.txt', 'r') as f: # raw = f.read() # 词干提取 ps = PorterStemmer() tokens = nltk.word_tokenize(raw) happy_words = [ps.stem(w) for w in tokens if 'happy' in ps.stem(w)] # 句子分割和分词 sentences = nltk.sent_tokenize(raw) words = [nltk.word_tokenize(sentence) for sentence in sentences] # 查找以“a，b，c”开头，以“ing”结尾的单词，并忽略掉词内部的元音 vowels = ['a', 'e', 'i', 'o', 'u'] pattern = r'^(a|b|c)[a-z]*[aeiou]*[a-z]*ing$' result = [] for sentence in words: for word in sentence: if re.match(pattern, word): word = re.sub('[aeiou]', '', word) result.append(word) # 将结果写入本地文件 with open('result.txt', 'w') as f: f.write('\n'.join(result)) ``` 注意：在运行代码之前需要安装nltk模块，使用以下命令安装即可： ```python pip install nltk ```

阅读全文

相关推荐

Python NLTK：文本挖掘中的实体与关系提取与语料库应用

英文维基百科语料库预处理完成：分词与词干提取成果

Python文本分析实战：创建语料库与机器学习模型

fmindex:使用压缩索引对文本语料库进行有效的子字符串搜索

text_classify:以复旦中文文本分类语料库为样本，用python实现的文本分类算法

dwtc-extractor:用于创建德累斯顿网络表语料库的提取代码

nframe:从文本语料库中提取语义网络

KWDLC:京都大学网络文档负责语料库

毕业设计：python特色饮食情感分析语料库模型建立（源码 + 数据库）

transcribed-corpus-tools:转录词语料库的语料库工具

ParlaMint：ParlaMint：可比的国会语料库

microcorpus:形态标记文本的小型语料库 + 用于标记的 Web 界面

bicleaner:Bicleaner是一种并行语料库分类器清洁器，旨在检测并行语料库中的嘈杂句子对

deft_corpus:从文本语料库中提取定义和相关的格式脚本

BioParallelCorporaExtractor:BioPCE：一种提取生物医学文本平行语料库的工具-开源

建立阿尔巴尼亚语NLP库：语料库、停用词、词干提取

Python脚本自动化创建主题相关文本语料库

飞蛾扑火MFO算法对BP的权值和阈值做寻优，建立多分类和二分类的分类模型 程序内注释详细直接替数据就可以用 数据要求多输入单输出 程序语言为matlab 程序运行具体效果图如下所示 想要的加

Matlab simulink 风储联合，风储调频，实际系统，三机九节点，风电等容量替同步机，风电渗透22%，储能配备容量占风电容量5-15%，可调 储能下垂控制 由于是离散模型，所以储能出力有波

App Inventor2 的本地调试包

大家在看

计算机图形学-小型图形绘制程序

安装验证-浅谈mysql和mariadb区别

基于Python深度学习的目标跟踪系统的设计与实现+全部资料齐全+部署文档.zip

国密SM4加解密SM2签名验签for delphi等语言.rar

基于Android Studio开发的安卓的通讯录管理app

最新推荐

python TF-IDF算法实现文本关键词提取

python分割一个文本为多个文本的方法

python gensim使用word2vec词向量处理中文语料的方法

Python自然语言处理 NLTK 库用法入门教程【经典】

使用Python AIML搭建聊天机器人的方法示例

Terraform AWS ACM 59版本测试与实践

【HS1101湿敏电阻全面解析】：从基础知识到深度应用的完整指南

MATLAB在一个图形窗口中创建一行两列的子图的代码

Doks Hugo主题：打造安全快速的现代文档网站

E9流程表单前端接口API(V5)：前端与后端协同开发的黄金法则

飞蛾扑火MFO算法对BP的权值和阈值做寻优，建立多分类和二分类的分类模型程序内注释详细直接替数据就可以用数据要求多输入单输出程序语言为matlab 程序运行具体效果图如下所示想要的加

Matlab simulink 风储联合，风储调频，实际系统，三机九节点，风电等容量替同步机，风电渗透22%，储能配备容量占风电容量5-15%，可调储能下垂控制由于是离散模型，所以储能出力有波