import jieba import torch from transformers import BertTokenizer, BertModel, BertConfig # 自定义词汇表路径 vocab_path = "output/user_vocab.txt" count = 0 with open(vocab_path, 'r', encoding='utf-8') as file: for line in file: count += 1 user_vocab = count print(user_vocab) # 种子词 seed_words = ['姓名'] # 加载微博文本数据 text_data = [] with open("output/weibo_data.txt", "r", encoding="utf-8") as f: for line in f: text_data.append(line.strip()) print(text_data) # 加载BERT分词器，并使用自定义词汇表 tokenizer = BertTokenizer.from_pretrained('bert-base-chinese', vocab_file=vocab_path) config = BertConfig.from_pretrained("bert-base-chinese", vocab_size=user_vocab) # 加载BERT模型 model = BertModel.from_pretrained('bert-base-chinese', config=config, ignore_mismatched_sizes=True) seed_tokens = ["[CLS]"] + seed_words + ["[SEP]"] seed_token_ids = tokenizer.convert_tokens_to_ids(seed_tokens) seed_segment_ids = [0] * len(seed_token_ids) # 转换为张量，调用BERT模型进行编码 seed_token_tensor = torch.tensor([seed_token_ids]) seed_segment_tensor = torch.tensor([seed_segment_ids]) model.eval() with torch.no_grad(): seed_outputs = model(seed_token_tensor, seed_segment_tensor) seed_encoded_layers = seed_outputs[0] jieba.load_userdict('data/user_dict.txt') # 构建隐私词库 privacy_words = set() privacy_words_sim = set() for text in text_data: words = jieba.lcut(text.strip()) tokens = ["[CLS]"] + words + ["[SEP]"] token_ids = tokenizer.convert_tokens_to_ids(tokens) segment_ids = [0] * len(token_ids) # 转换为张量，调用BERT模型进行编码 token_tensor = torch.tensor([token_ids]) segment_tensor = torch.tensor([segment_ids]) model.eval() with torch.no_grad(): outputs = model(token_tensor, segment_tensor) encoded_layers = outputs[0] # 对于每个词，计算它与种子词的余弦相似度 for i in range(1, len(tokens) - 1): word = tokens[i] if word in seed_words: continue if len(word) <= 1: continue sim_scores = [] for j in range(len(seed_encoded_layers)): sim_scores.append(torch.cosine_similarity(seed_encoded_layers[j][0], encoded_layers[j][i], dim=0).item()) cos_sim = sum(sim_scores) / len(sim_scores) print(cos_sim, word) if cos_sim >= 0.5: privacy_words.add(word) privacy_words_sim.add((word, cos_sim)) print(privacy_words) # 输出隐私词库 with open("output/privacy_words.txt", "w", encoding="utf-8") as f1: for word in privacy_words: f1.write(word + '\n') with open("output/privacy_words_sim.txt", "w", encoding="utf-8") as f2: for word, cos_sim in privacy_words_sim: f2.write(word + "\t" + str(cos_sim) + "\n") 详细解释上述代码，包括这行代码的作用以及为什么要这样做？

上述代码根据这个提示：BertModel的权重没有从模型检查点中初始化，这意味着我们应该为它的下游任务训练它，并使用训练后的模型进行预测和推理，对于这个问题，可以参考以下步骤： 1.为你的下游任务收集训练数据。 2.根据需要修改Bert的配置文件。 3.加载预训练模型并根据你的任务进行微调。 4. 针对验证和测试数据评估训练好的模型。 5.使用训练好的模型进行预测和推理。上述代码该如何去优化？给出优化后的代码

from transformers import BertTokenizer, BertModel, BertConfig, AdamW, get_linear_schedule_with_warmup # 自定义词汇表路径 vocab_path = "output/user_vocab.txt" count = 0 with open(vocab_path, 'r', ...

dnSpy-net-win32-222.zip

和美乡村城乡融合发展数字化解决方案.docx

如何看待“适度宽松”的货币政策.pdf

C#连接sap NCO组件 X64版

NCO 3.0.18 64位

法码滋.exe法码滋2.exe法码滋3.exe

基于MATLAB的导航科学计算库

* GPS IMU经典15维ESKF松组合 * VRU/AHRS姿态融合算法 * 捷联惯导速度位置姿态解算例子 * UWB IMU紧组合融合 * 每个例子自带数据集

毕业设计Jupyter Notebook基于深度网络的垃圾识别与分类算法研究项目源代码，用PyTorch框架中的transforms方法对数据进行预处理操作，后经过多次调参实验，对比不同模型分类效果

在现代社会生活与生产活动下，不可避免的会产生巨量且多样的垃圾。我国的人口和经济总量均位居世界前列，因此，必然面临着庞大数量的垃圾处理的难题。如何通过人工智能来对垃圾进行有效分类，成为当前备受关注的研究热点。本文为展开基于深度网络的垃圾识别与分类算法研究，先使用PyTorch框架中的transforms方法对数据进行预处理操作，后经过多次调参实验，对比朴素贝叶斯模型、Keras卷积神经网络模型、ResNeXt101模型的垃圾分类效果。确定最佳分类模型是ResNeXt101，该模型在GPU环境下的分类准确率达到了94.7%。最后利用postman软件来测试API接口，完成图片的在线预测。在微信开发者工具的基础上，利用一些天行数据的垃圾分类的API接口再结合最佳模型的API接口，开发出了一个垃圾分类微信小程序。本文的研究内容丰富和完善了垃圾图像分类的相关研究，也为后续的研究提供了一定的参考价值。

C#上位机开发与工控通讯实战课程

一、上位机简介在单片机项目开发中，上位机也是一个很重要的部分，主要用于数据显示（波形、温度等）、用户控制（LED，继电器等），下位机（单片机）与上位机之间要进行数据通信的两种方式都是基于串口的： USB转串口 —— 上位机和下位机通过USB转串口连接线直接相连进行数据交互串口转WIFI（ESP8266）—— 上位机和下位机基于TCP/IP协议通过以太网或者WIFI传输数据串口转蓝牙（HC-06）—— 不多用，暂不介绍 Windows上位机（EXE可执行程序），最早用VB语言开发，后来由于C++的发展，采用MFC开发，近几年，微软发布了基于.NET框架的面向对象语言C#，更加稳定安全，再配合微软强大的VS进行开发，效率奇高。本文使用Visual Studio 2022作为开发环境，上位机开发主要有WPF框架与Winform框架，他们都是基于.NET框架 WPF需要C/S基础，使用XAML来构建应用UI，界面比较美观，但是内存开销大 Winform可以使用窗口控件来构建应用，比较简单易学二、开发环境设置 1. 安装Visual Studio 首先，确保你已经

course_s4_ALINX_ZYNQ_MPSoC开发平台Linux驱动教程V1.04.pdf

基于JavaWeb的毕业季旅游一站式定制服务平台_88z1j4jp_208-wx-(1).zip

数据恢复软件 Apeaksoft Data Recovery for Mac v1.6.16

Apeaksoft Data Recovery for Mac v1.6.16

cms测试练习项目（linux系统部署）

cms测试练习项目（linux系统部署），可以用来进行python的测试练手项目

大学录取结果数据集，大学录取结果分析数据，大学录取因素分析

数据集简介：大学录取结果分析概述大学录取结果数据集包含了有关大学录取过程的信息，包括关键变量，可用于分析不同学术因素与申请者是否被录取之间的关系。该数据集非常适合进行探索性数据分析、训练预测模型以及研究影响录取决策的因素。数据集列描述 admit：指示申请者是否被录取（1=被录取，0=未录取）。 paes：申请者在高等教育能力测试（PAES）中获得的分数。 nem：中学教育成绩平均分，评分范围从1.0到7.0。 rank：申请者在其班级中的排名，数值越低表示排名越好。数据集目的本数据集旨在让用户探索学术指标（如PAES分数、GPA和排名）与大学录取成功率之间的关系。这可以用于：开发预测模型：基于学术表现预测录取可能性。识别趋势：找出影响录取的关键学术因素。生成可视化图表：理解分数分布及录取结果的关系。数据集规模记录数：1813条。列数：5列。

STM32F427+rtthread下的bootload 网口(webclient)+串口(ymodem)传输，代码无质量，谨慎使用

电影院购票-JAVA-基于springBoot的电影院购票系统设计与实现（毕业论文）

1. 用户管理功能用户注册与登录：用户可以通过手机号、邮箱等方式注册账户，并且可以通过账号登录系统进行购票、查看历史订单等操作。个人信息管理：用户可以查看和修改个人信息（如姓名、手机号、邮箱等），并进行密码重置等操作。实名认证：部分电影院购票系统要求用户进行实名认证，确保用户身份的真实性。 2. 电影信息展示功能电影排片查询：用户可以查看当前和未来一段时间内的电影排片表，包括电影名称、上映时间、影片时长、类型、导演、演员等详细信息。电影详情页：点击具体电影后，用户可以查看电影的详细信息，如剧情介绍、影评、评分、预告片等内容。电影评分与评论：用户可以查看其他观众的评分和评论，也可以对已观看的电影进行评分和评论。 3. 座位选择与预定功能影厅座位图：系统展示每场次的影厅座位图，用户可以通过座位图查看当前座位的状态（如可选、已选、已售出、VIP座位等）。座位选择：用户可以选择自己喜欢的座位，系统会实时更新座位的可用状态，避免重复选择。座位偏好设置：用户可以设置自己的座位偏好，如选择前排、中排或后排，靠窗或靠过道等。 4. 电影票购买与支付功能票价展示：系统会展示每个座位的

相关推荐

jieba for Python.zip_jieba_python jieba

jieba-jieba3k.rar_人工智能/神经网络/深度学习_Python_

Python错题本：from scipy.misc import imread 报错cannot import name imread 的解决方案

BruceBert.zip

dnSpy-net-win32-222.zip

和美乡村城乡融合发展数字化解决方案.docx

如何看待“适度宽松”的货币政策.pdf

C#连接sap NCO组件 X64版

法码滋.exe法码滋2.exe法码滋3.exe

基于MATLAB的导航科学计算库

毕业设计Jupyter Notebook基于深度网络的垃圾识别与分类算法研究项目源代码，用PyTorch框架中的transforms方法对数据进行预处理操作，后经过多次调参实验，对比不同模型分类效果

C#上位机开发与工控通讯实战课程

course_s4_ALINX_ZYNQ_MPSoC开发平台Linux驱动教程V1.04.pdf

基于JavaWeb的毕业季旅游一站式定制服务平台_88z1j4jp_208-wx-(1).zip

数据恢复软件 Apeaksoft Data Recovery for Mac v1.6.16

cms测试练习项目（linux系统部署）

大学录取结果数据集，大学录取结果分析数据，大学录取因素分析

STM32F427+rtthread下的bootload 网口(webclient)+串口(ymodem)传输，代码无质量，谨慎使用

电影院购票-JAVA-基于springBoot的电影院购票系统设计与实现（毕业论文）

最新推荐

dnSpy-net-win32-222.zip

和美乡村城乡融合发展数字化解决方案.docx

GitHub图片浏览插件：直观展示代码中的图像

管理建模和仿真的文件

【OPPO手机故障诊断专家】：工程指令快速定位与解决

求[100，900]之间相差为12的素数对（注：要求素数对的两个素数均在该范围内）的个数

Android IPTV项目：直播频道的实时流媒体实现

"互动学习：行动中的多样性与论文攻读经历"

【OPPO手机工程模式终极指南】：掌握这些秘籍，故障排查不再难！

前端在json文件里写模板，可以换行 有空格现在在文本框的时候

前端在json文件里写模板，可以换行有空格现在在文本框的时候