英语词汇:词根与能力

需积分: 10 3 下载量 86 浏览量 更新于2024-07-20 收藏 23.87MB PDF 举报
"英语词汇词根" 在英语中,单词的构建往往基于词根(root)、词缀(prefixes和suffixes)。词根是单词的核心部分,它承载着词汇的基本意义。了解词根有助于我们更好地理解和记忆大量的英语词汇。本文将深入探讨与“English words' root”相关的知识。 首先,让我们关注词缀"-ability"。这个后缀常用于表达能力或容量,源自拉丁语"-abilitas"。它常与形容词结合,形成表示能力或可能性的名词。例如,“possible”加上“-ability”就变成了“possibility”,意为可能性。尽管在词源上与“ability”并无直接关联,但在公众认知中,两者经常被联系在一起。 接着是"-able"和"-ible"这两个后缀。它们都源于拉丁语,用于将动词转化为形容词,表示能够或适合做某事。"-able"多用于英语原生词,如“changeable”(可变的);而"-ible"则常见于拉丁语源的单词,比如“visible”(可见的)。这两个后缀虽然在语源上并不与"able"有直接联系,但它们在英语中的应用使得它们在公众理解中与"able"建立了联系,并且促进了它们作为活跃后缀的持续使用。 再来看"-ace-",这是一个在动物学中表示种类或类别的后缀,来自拉丁语"-acea",意为属于...的性质。通常用于构成动物的类别名称,如“crustacea”(甲壳纲),意味着具有壳的动物。在植物学中,相似的概念用"-aceae"表示,这是从拉丁语形容词后缀"-aceus"的阴性复数形式演变而来,参考了植物的阴性复数形式“plantae”。 最后,提及的"-ad-"是一个表示...的后缀,但给出的信息在此处戛然而止。通常情况下,"-ad-"可以表示一个特定的动作或状态,例如在某些拉丁语词汇中,它可能与动作名词有关,如“academia”(学术界)源自“academy”(学院)。 通过了解这些词根和后缀,学习者能更有效地扩展词汇量,理解单词的深层含义,同时也能提高阅读和写作的准确性。掌握词根知识是英语学习的一个重要方面,它有助于构建语言的内在逻辑,使我们能够更自如地运用这门全球广泛使用的语言。

# encoding=utf-8 import nltk import json from nltk.corpus import stopwords import re eg_stop_words = set(stopwords.words('english')) sp_stop_words = set(stopwords.words('spanish')) all_stop_words = eg_stop_words.union(sp_stop_words) input_file_name = r'建模.txt' output_file_name = r'train.txt' out_file = open(output_file_name, encoding='utf-8', mode='w') # 打开输出文件 with open(output_file_name, encoding='utf-8', mode='w') as output_file: # 打开输入文件,对每一行进行处理 with open(input_file_name, encoding='utf-8') as f: for idx, line in enumerate(f): print("正在处理第{}行数据".format(idx)) if idx == 0: # 第一行是列名, 不要 print(line) continue line = line.strip() sps = line.split("\t") # 将行按制表符分隔为列表 report_no = sps[0] target = sps[2] smses = sps[-1] smses = smses.strip("\"") # 去掉短信两端的引号 smses = smses.replace("\"\"", "\"") # 把两个双引号转换成单引号 root = json.loads(smses) # 解析 json 格式的短信 msg = "" for item in root: # 遍历短信中的每一条信息 body = item["body"] # 获取信息的正文 msg += body + "\n" # 把正文追加到总的信息传递过来的msg中 text = re.sub(r'[^\w\s]', '', msg) # 使用正则表达式去掉标点符号 text = re.sub(r'http\S+', '', text) # 去掉链接 text = re.sub(r'\d+', '', text)#去除数字 text = text.lower() words = text.split() filtered_words = [word for word in words if word not in all_stop_words] text = ' '.join(filtered_words) print(report_no + '\t' + target) msg = target + '\u0001' + text + '\n' out_file.write(msg) out_file.close()

2023-07-11 上传

encoding=utf-8 import nltk import json from nltk.corpus import stopwords import re eg_stop_words = set(stopwords.words('english')) sp_stop_words = set(stopwords.words('spanish')) all_stop_words = eg_stop_words.union(sp_stop_words) input_file_name = r'建模.txt' output_file_name = r'train.txt' out_file = open(output_file_name, encoding='utf-8', mode='w') 打开输出文件 with open(output_file_name, encoding='utf-8', mode='w') as output_file: # 打开输入文件,对每一行进行处理 with open(input_file_name, encoding='utf-8') as f: for idx, line in enumerate(f): print("正在处理第{}行数据".format(idx)) if idx == 0: # 第一行是列名, 不要 print(line) continue line = line.strip() sps = line.split("\t") # 将行按制表符分隔为列表 report_no = sps[0] target = sps[2] smses = sps[-1] smses = smses.strip(""") # 去掉短信两端的引号 smses = smses.replace("""", """) # 把两个双引号转换成单引号 root = json.loads(smses) # 解析 json 格式的短信 msg = "" for item in root: # 遍历短信中的每一条信息 body = item["body"] # 获取信息的正文 msg += body + "\n" # 把正文追加到总的信息传递过来的msg中 text = re.sub(r'[^\w\s]', '', msg) # 使用正则表达式去掉标点符号 text = re.sub(r'http\S+', '', text) # 去掉链接 text = re.sub(r'\d+', '', text)#去除数字 text = text.lower() words = text.split() filtered_words = [word for word in words if word not in all_stop_words] text = ' '.join(filtered_words) print(report_no + '\t' + target) msg = target + '\u0001' + text + '\n' out_file.write(msg) out_file.close()帮我改成用 pandas 处理

2023-07-11 上传