enumerate(contents):

这是一个Python的内置函数，用于将一个可迭代对象(如列表、元组、字符串等)转换为一个枚举对象，返回一个由索引和元素组成的元组。语法示例： ``` for index, value in enumerate(contents): print(index, value) ``` 其中，`contents`是要枚举的对象，`index`是元素的索引，`value`是元素本身。这个函数可以方便地在遍历一个列表或元组的同时获取元素的索引。

import re file=open('express.txt',encoding="utf8") a=[] contents=file.readlines() contents=contents[1:-1] for liu in contents: liu=liu.strip('\n') liu=liu.strip('\t') liu=liu.rstrip(',') a.append(liu) file.close() b=[] for i in range(0,460): for item in a[i]: if item ==',': c=a[i].index(item) c=c+3 elif item =='省': d=a[i].index(item) d=d+1 break elif item =='市': d=a[i].index(item) d=d+1 break elif item =='区': d=a[i].index(item) d=d+1 break 代码优化

可以进行以下优化： 1. 在读取文件时，使用 with open() as file 语句，可以省略关闭文件的操作； 2. 将 strip('\n') 和 strip('\t') 合并为 strip()，可以同时去除换行符和制表符； 3. 在遍历字符串时，可以使用 enumerate() 函数获取字符的索引，避免使用 index() 函数； 4. 可以将 '省'、'市' 和 '区' 放入一个列表中，使用 in 判断是否包含其中一个字符，避免多次判断相同的条件。优化后的代码如下所示： ```python import re province_list = ['省', '市', '区'] with open('express.txt', encoding='utf8') as file: contents = file.readlines()[1:-1] a = [liu.strip().rstrip(',') for liu in contents] b = [] for i in range(0, 460): for j, item in enumerate(a[i]): if item == ',': c = j + 3 elif item in province_list: d = j + 1 break b.append(a[i][d:]) print(b) ``` 其中，使用了列表推导式将读取的内容进行了去除换行符和制表符的操作。在遍历字符串时，使用了 enumerate() 函数获取字符的索引，避免使用 index() 函数。判断省、市、区时，使用了 in 判断是否包含其中一个字符，避免多次判断相同的条件，提高了代码效率。

def build_wordmap(contents): word_freq = Counter() for sentence in tqdm(contents): seg_list = jieba.cut(sentence.strip()) # Update word frequency word_freq.update(list(seg_list)) # Create word map words = [w for w in word_freq.keys() if word_freq[w] > min_word_freq] word_map = {k: v + 4 for v, k in enumerate(words)} word_map['<pad>'] = 0 word_map['<start>'] = 1 word_map['<end>'] = 2 word_map['<unk>'] = 3 print('len(word_map): ' + str(len(word_map))) print(words[:10]) with open('data/WORDMAP.json', 'w') as file: json.dump(word_map, file, indent=4)

这段代码是用来构建词表（word map）的。它接受一个包含文本内容的列表作为输入。首先，创建一个空的Counter对象`word_freq`，用于统计每个词的频率。然后，使用循环遍历输入列表中的每个句子，并使用jieba库对句子进行分词处理。分词后得到的结果是一个生成器对象，将其转换为列表并更新词频统计。接下来，根据最小词频阈值，筛选出出现频率大于该阈值的词，并将它们保存在列表`words`中。然后，创建一个字典`word_map`，将词作为键，将其在词表中的索引（加上4）作为值。这里加上4是为了给特殊标记留出索引位置。接下来，将特殊标记`<pad>`、`<start>`、`<end>`和`<unk>`分别添加到`word_map`中，并分别赋予索引0、1、2和3。然后，打印词表的长度和前10个词。最后，使用json.dump函数将`word_map`保存到名为'WORDMAP.json'的文件中。这段代码的目的是根据输入的文本内容构建词表，并将词表保存到文件中供后续使用。词表中包含了出现频率较高的词以及特殊标记。

阅读全文

enumerate(contents):

相关推荐

contents

LaTeX_tips:我的 LaTeX 提示、问题和问题

CQUThesis：重庆大学毕业论文LaTeX模板---重庆大学LaTeX论文模板

Overleaf使用指南：从入门到进阶

LaTeX入门指南：93分钟精通 LaTeX2ε

LaTeX数学公式编排：终极指南与示例代码解析

双屏演示技巧：回显上一张幻灯片与Beamer设置

【Algorithm Optimization】: GAN Training Efficiency Enhancement Guide: Quickly Build Efficient AI ...

【linecache：文件读取专家】：掌握高效读取每一行的秘诀

LaTeX排版秘籍：美化文档符号的艺术

Python并发编程与异步IO：提升系统性能

LaTeX高级符号应用：构建复杂公式与图表

元学习：赋能机器学习算法自适应的超级能力

Tips for Using Table Widgets in QT: Displaying CSV Data

PyQt4自定义布局管理技巧：深入剖析布局容器

ReportLab高级技巧揭秘：打造动态PDF的终极指南

用户体验至上：如何在用户手册中体现专业价值

市场营销的启示：信息新鲜度如何影响品牌策略

大家在看

计算机辅助安全工程第4章安全模拟与仿真ppt课件.ppt

五子棋 C++ 图形版

DSR.rar_MANET DSR_dsr_dsr manet_it_manet

c语言进行数字图像处理

KEMET_聚合物钽电容推介资料

最新推荐

springboot167基于springboot的医院后台管理系统的设计与实现.zip

XGigE IP GigE Vision Streaming Protocol VHDL源码 有基于AC701 FPGA板卡的完整的参考工程

fluent重叠网格动网格，振荡翼型加摆动后缘小翼算例文件，udf文件，视频教程 流体力学，航空航天，船舶海洋，土木工程，能源动力专业必备

macOS 10.9至10.13版高通RTL88xx USB驱动下载

PyCharm开发者必备：提升效率的Python环境管理秘籍

matlab中VBA指令集

在Windows Forms和WPF中实现FontAwesome-4.7.0图形

【Postman进阶秘籍】：解锁高级API测试与管理的10大技巧

ubuntu22.04怎么恢复出厂设置

2001年度广告运作规划：高效利用资源的策略

XGigE IP GigE Vision Streaming Protocol VHDL源码有基于AC701 FPGA板卡的完整的参考工程

fluent重叠网格动网格，振荡翼型加摆动后缘小翼算例文件，udf文件，视频教程流体力学，航空航天，船舶海洋，土木工程，能源动力专业必备