f = open("data3.txt","r",encoding='GBK') fo = open("out.txt","w",encoding='GBK') txt = f.readlines() lt = [] for line in txt: lc = line.strip(" \n").split("。") for c in lc: ls = c.split("，") lt.append(ls) for t in lt: for m in t: if "我们" in m: fo.write(m) fo.write("\n") fo.close()这个方法的结果和这个的结果有什么区别import jieba import re dict_words = {} with open('data3.txt', 'r', encoding='GBK') as f: senses = re.sub('([，。\n])', '|' , f.read()) k = jieba.cut(senses) for i in k: if len(i) >= 2: dict_words[i] = dict_words.get(i, 0) + 1 data = sorted(dict_words.items(), key=lambda x:x[1], reverse=True) with open('out.txt', 'w') as f: for sense in senses.split('|'): if data[0][0] in sense: f.write(sense+ '\n')

时间: 2023-05-24 20:06:23 浏览: 192

这两个方法的结果略有不同。第一个方法会读入整个文件，并将每行按照句号和逗号分割成多个子句，然后将每个子句按照逗号再分割成多个短语。对于每个短语，如果包含“我们”，就写入到输出文件中。第二个方法使用了分词工具jieba将整个文件分成了一个个词语，然后遍历词语，统计每个词语出现的次数。然后将所有词语按照出现次数排序，找到出现次数最多的词语（即data[0][0]），然后遍历每个子句，如果包含该词语，则写入到输出文件中。相比之下，第二个方法更细致和全面。它不仅统计了“我们”这个短语的出现次数，还统计了所有词语的出现次数，并找到了最常出现的词语，然后利用这个信息遍历每个子句，找到所有包含该词语的子句并写入输出文件中。因此，第二个方法的结果更全面，涵盖了“我们”这个短语以外的所有词语。

def format(path='./toutiao_cat_data.txt'): np.random.seed(2021) raw_data = open(path, 'r', encoding='utf-8').readlines() num_samples = len(raw_data) idx = np.random.permutation(num_samples) num_train, num_val = int(0.7 * num_samples), int(0.2 * num_samples) num_test = num_samples - num_train - num_val train_idx, val_idx, test_idx = idx[:num_train], idx[num_train:num_train + num_val], idx[-num_test:] f_train = open('./train.txt', 'w', encoding='utf-8') f_val = open('./val.txt', 'w', encoding='utf-8') f_test = open('./test.txt', 'w', encoding='utf-8') for i in train_idx: r = raw_data[i].strip('\n').split('_!_') label, text = label_map[r[1]], r[3] f_train.write(text + '_!_' + label + '\n') f_train.close()

这段代码是用来格式化数据的。它从指定的文件中读取原始数据，并将其分割为训练集、验证集和测试集。然后，它将每个样本的标签和文本写入对应的文件中。首先，使用np.random.seed(2021)设置随机种子，以确保每次运行代码时都得到相同的随机结果。然后，打开指定路径的文件并读取所有行的内容，存储在raw_data列表中。接下来，计算样本数量，并使用np.random.permutation函数生成一个长度为num_samples的随机排列的索引数组idx。然后，根据训练集、验证集和测试集的比例，计算出各个集合的样本数量。接着，使用切片操作将idx数组分割成训练集、验证集和测试集的索引数组train_idx、val_idx和test_idx。接下来，分别打开train.txt、val.txt和test.txt文件，并使用'w'模式打开，这将清空文件内容，并以utf-8编码写入。最后，使用循环遍历train_idx数组中的索引，获取对应的原始数据的标签和文本，并将其写入f_train文件中。最后一行代码关闭了f_train文件。这段代码的目的是将原始数据按照一定比例划分为训练集、验证集和测试集，并将每个样本的标签和文本写入对应的文件中。

针对这段代码的自定义函数进行优化import jieba #使用 Python 的 Counter 类来统计每个情感词在文本中出现的次数，避免手动计数。 from collections import Counter #将情感词典 poss 和 negs 转换成 set 类型，这样可以更快地进行查找操作,提高代码的效率。 with open('data/dict/positive.txt', encoding='gbk') as f: poss = set(f.read().split()) with open('data/dict/negative.txt', encoding='gbk') as f: negs = set(f.read().split()) def senti(text): pos_num = 0 neg_num = 0 words = jieba.lcut(text) counter = Counter(words) for word in counter: if word in poss: pos_num += counter[word] if word in negs: neg_num += counter[word] return {"pos": pos_num, "neg": neg_num} file = 'data/txts/联美控股2017.txt' text = open(file, encoding='gbk').read() senti(text)

这段代码对原始代码进行了优化，主要包括以下几点： 1. 使用Python的Counter类来统计每个情感词在文本中出现的次数，避免了手动计数的操作，提高了代码的效率。 2. 将情感词典poss和negs转换成set类型，这样可以更快地进行查找操作，也提高了代码的效率。 3. 原始代码中使用了一个degree变量来存储程度副词及其对应的权重值，但这个变量并没有在代码中使用到。因此，在优化后的代码中去掉了这个变量。通过以上的优化，代码更加简洁、高效，同时也提高了代码的可读性。

阅读全文

相关推荐

掌握.txt文件的读写操作

探索.mat与.txt格式的Iris数据集差异

掌握.txt文件指定行读写技巧

#读取数据 path = r"data.txt" with open(path) as f: data = f.read() 设置utf-8

f = open('.\\电商调拨跟踪表新.csv','rb') dsdb = pd.read_csv(f,encoding='gbk') 运行的时候'gbk' codec can't decode byte 0xfd in position 5488: illegal multibyte sequence

文件 book.txt 在当前程序所在目录内,其内容是一段文本:book,下面代码的输出结果是( txt = open(book.txt, r) print(txt) txt.close() A.book.txt B. txt C.book D.以上答案都不对

给代码写注释f = open( 'c;llfile1.txt', mode = 'r', encoding = 'utf-8for aa in f:print(aa.strip()) f.close() g = open('c;llfile2.txt', 'w', encoding = 'utf-8')for i in range(30):g.write(str(i)+if i%5 == 0:g.write( 'In') g.close()

file = open(self.open_path.GetValue(),"r",encoding="gbk") self.input.SetValue(file.read())<class 'UnicodeDecodeError'>: 'gbk' codec can't decode byte 0x90 in position 6075: illegal multibyte sequence

txtdir = Path().cwd().joinpath('data', 'txts') for file in txtdir.glob('*.txt'): file = str(file) #file = 'data/txts/联美控股2017.txt' text = open(file, encoding='gbk').read() raw = file.split('/')[-1][:-4] name = raw[:-4] year = raw[-4:] print(name, year, text[:10])这段代码的意思

python import os f=open("大学.txt","r",encoding = "utf-8") c=f.readline() while : c=f.readline() f.close()

将文件 import os f=open("大学.txt","r",encoding = "utf-8") c=f.readline() while : c=f.readline() f.close()

大家在看

silvaco中文学习资料

AES128（CBC或者ECB）源码

EMC VNX 5300使用安装

华为MA5671光猫使用 华为MA5671补全shell 101版本可以补全shell，安装后自动补全，亲测好用，需要的可以下载

视频转换芯片 TP9950 iic 驱动代码

最新推荐

智慧园区3D可视化解决方案PPT(24页).pptx

labelme标注的json转mask掩码图，用于分割数据集 批量转化，生成cityscapes格式的数据集

（参考GUI）MATLAB GUI漂浮物垃圾分类检测.zip

人脸识别_OpenCV_活体检测_证件照拍照_Demo_1741778955.zip

人脸识别_科大讯飞_Face_签到系统_Swface_1741770704.zip

掌握Android RecyclerView拖拽与滑动删除功能

【IBM HttpServer入门全攻略】：一步到位的安装与基础配置教程

[root@localhost~]#mount-tcifs-0username=administrator,password=hrb.123456//192.168.100.1/ygptData/home/win mount：/home/win：挂载点不存在

惠普8594E与IT8500系列电子负载使用教程

MATLAB与Python在SAR点目标仿真中的对决：哪种工具更胜一筹？

华为MA5671光猫使用华为MA5671补全shell 101版本可以补全shell，安装后自动补全，亲测好用，需要的可以下载

labelme标注的json转mask掩码图，用于分割数据集批量转化，生成cityscapes格式的数据集