if value in my_dict[key]: continue else: my_dict[key].append(value)

在这段代码中，首先判断字典`my_dict`中是否存在键`key`，如果不存在则会自动创建一个键为`key的空列表。接着，判断`value`是否已经存在于`my_dict[key]`列表中，如果存在则继续循环，否则将`value`添加到`my_dict[key]`列表中。简要的说，这段代码的作用是将`value`添加到字典`my_dict`中键为`key`的列表中，但是不会添加重复的元素。如果`key`不存在，则会自动创建一个空列表来存储`value`。如果`value`已经存在于列表中，则不会重复添加。

def Stop_words(): stopword = [] data = [] f = open('C:/Users/Administrator/Desktop/data/stopword.txt',encoding='utf8') for line in f.readlines(): data.append(line) for i in data: output = str(i).replace('\n','')#replace用法和sub函数很接近 stopword.append(output) return stopword # 采用jieba进行词性标注，对当前文档过滤词性和停用词 def Filter_word(text): filter_word = [] stopword = Stop_words() text = jieba.posseg.cut(text) for word, flag in text: if flag.startswith('n') is False:#用于检测字符串是否以指定的子字符串开始 continue if not word in stopword and len(word) > 1: filter_word.append(word) return filter_word # 对文档集过滤词性和停用词 def Filter_words(data_path =r'C:/Users/Administrator/Desktop/data//corpus.txt'): document = [] for line in open(data_path, 'r',encoding= 'utf8') : segment = jieba.posseg.cut(line.strip()) filter_words = [] stopword = Stop_words() for word, flag in segment: if flag.startswith('n') is False: continue if not word in stopword and len(word) > 1: filter_words.append(word) document.append(filter_words) return document def tf_idf(): tf_dict = {} idf_dict = {} filter_word = Filter_word(text) for word in filter_word: if word not in tf_dict: tf_dict[word] = 1 else: tf_dict[word] += 1 for word in tf_dict: tf_dict[word] = tf_dict[word] / len(text) document = Filter_words() doc_total = len(document) for doc in document: for word in set(doc): if word not in idf_dict: idf_dict[word] = 1 else: idf_dict[word] += 1 for word in idf_dict: idf_dict[word] = math.log(doc_total / (idf_dict[word] + 1)) tf_idf_dict = {} for word in filter_word: if word not in idf_dict: idf_dict[word] = 0 tf_idf_dict[word] = tf_dict[word] * idf_dict[word] return tf_idf_dict tf_idf_dict = tf_idf() keyword = 6 print('TF-IDF模型结果:') for key, value in sorted(tf_idf_dict.items(), key=operator.itemgetter(1),reverse=True)[:keyword]: print(key, end=' ') print('\n')

这段代码实现了一个 TF-IDF 模型，用于计算文本中关键词的权重。其中，Stop_words 函数用于读取停用词表，Filter_word 函数用于对单个文档进行过滤，Filter_words 函数用于对整个文档集进行过滤。tf_idf 函数用于计算 TF-IDF 值，最后输出了权重最高的前 keyword 个关键词。

filepath = r"C:\Users\a0005921\Desktop\各分段比重.xlsx" wb = openpyxl.load_workbook(filepath,data_only=True) # TEST_DATA = [{ 'label': '项目调研', 'start':'2019-02-01 12:00:00', 'end': '2019-03-15 18:00:00'}] Stname = wb["统计"] TEST_DATA = [] for rowdata in Stname.iter_rows(min_row=2,max_row=Stname.max_row,min_col=0,max_col=Stname.max_column): # print(rowdata[6].value) if rowdata[6].value == None: continue else: start_date = datetime.strftime(rowdata[5].value,"%Y-%m-%d") end_date = datetime.strftime(rowdata[6].value,"%Y-%m-%d") actual_s_date = datetime.strftime(rowdata[9].value,"%Y-%m-%d") actual_e_date = datetime.strftime(rowdata[10].value,"%Y-%m-%d") dict = {'分段':rowdata[1].value, 'start':start_date, 'end':end_date, 'actual_s':actual_s_date, 'actual_e':actual_e_date,} TEST_DATA.append(dict)优化这段代码

可以对代码进行如下的优化： 1. 使用 pathlib 模块来更好地处理文件路径，避免使用转义字符； 2. 删除无用的注释和空行，使代码更加简洁； 3. 将日期转换代码的部分提取出来，避免重复代码； 4. 将字典 key 的命名规范化。改写后的代码如下： ```python from pathlib import Path import openpyxl from datetime import datetime file_path = Path(r"C:\Users\a0005921\Desktop\各分段比重.xlsx") workbook = openpyxl.load_workbook(file_path, data_only=True) sheet = workbook["统计"] TEST_DATA = [] for row in sheet.iter_rows(min_row=2, max_row=sheet.max_row, min_col=0, max_col=sheet.max_column): if row[6].value is None: continue else: start_date = datetime.strftime(row[5].value, "%Y-%m-%d") end_date = datetime.strftime(row[6].value, "%Y-%m-%d") actual_s_date = datetime.strftime(row[9].value, "%Y-%m-%d") actual_e_date = datetime.strftime(row[10].value, "%Y-%m-%d") data_dict = { 'segment': row[1].value, 'start_date': start_date, 'end_date': end_date, 'actual_start_date': actual_s_date, 'actual_end_date': actual_e_date } TEST_DATA.append(data_dict) ```

阅读全文

if value in my_dict[key]: continue else: my_dict[key].append(value)

相关推荐

掌握Pandas to_dict全解析：高效数据转换指南

Python实例属性与__dict__理解：深入核心与注意事项

dotty_dict：Python中快速访问深层嵌套字典键的工具

python-常用单词及语法_1681366872966.doc

python基础总结_基础语法案例_python_

cheatsheets:工具备忘单编程语言

PYTHON期末总结.pdf

python常用英文单词.docx

PYTHON知识点汇总.pdf

Python编程艺术：append方法与Pythonic编码的最佳实践

【邮件工具箱揭秘】：Python email.Utils高级功能解析（提升效率必读）

【大数据处理秘技】：Python中if和循环的优化策略

Python编程小技巧：

【Python库文件学习之odict】：数据可视化中的odict应用：最佳实践

项目实战：Python综合习题解决方案

Python基础入门：数据类型与控制语句

Python基础入门：数据类型与条件语句

大家在看

XenCenter7.6中文版

参数定义-cdh软硬件配置建议

IEC-CISPR16-1-1-2006 & IEC-CISPR22.pdf

迈瑞Benevision中心监护系统 Central Monitoring System

asltbx中文手册

最新推荐

一个基于Qt Creator（qt,C++）实现中国象棋人机对战

热带雨林自驾游自然奇观探索.doc

冰川湖自驾游冰雪交融景象.doc

C51 单片机数码管使用 Keil项目C语言源码

基于智能算法的无人机路径规划研究 附Matlab代码.rar

Windows下操作Linux图形界面的VNC工具

【SketchUp Ruby API：从入门到精通】

VMware虚拟机打开虚拟网络编辑器出现由于找不到vnetlib.dll,无法继续执行代码。重新安装程序可能会解决问题

基于Preact的高性能PWA实现定期天气信息更新

从停机到上线，EMC VNX5100控制器SP更换的实战演练

Python实例属性与dict理解：深入核心与注意事项

基于智能算法的无人机路径规划研究附Matlab代码.rar