import jieba import torch from sklearn.metrics.pairwise import cosine_similarity from transformers import BertTokenizer, BertModel seed_words = ['姓名'] # with open("output/base_words.txt", "r", encoding="utf-8") as f: # for line in f: # seed_words.append(line.strip()) # print(seed_words) # 加载微博文本数据 text_data = [] with open("output/weibo1.txt", "r", encoding="utf-8") as f: for line in f: text_data.append(line.strip()) # print(text_data) # 加载BERT模型和分词器 tokenizer = BertTokenizer.from_pretrained('bert-base-chinese') model = BertModel.from_pretrained('bert-base-chinese') jieba.load_userdict('data/userdict.txt') # 构建隐私词库 privacy_words = set() for text in text_data: words = jieba.lcut(text.strip()) # 对文本进行分词，并且添加特殊标记 tokens = ["[CLS]"] + words + ["[SEP]"] # print(tokens) # # 对文本进行分词，并且添加特殊标记 # tokens = ["[CLS]"] + tokenizer.tokenize(text) + ["[SEP]"] # print(tokens) token_ids = tokenizer.convert_tokens_to_ids(tokens) # print(token_ids) segment_ids = [0] * len(token_ids) # 转换为张量，调用BERT模型进行编码 token_tensor = torch.tensor([token_ids]) segment_tensor = torch.tensor([segment_ids]) with torch.no_grad(): outputs = model(token_tensor, segment_tensor) encoded_layers = outputs[0] # print(encoded_layers) # 对于每个词，计算它与种子词的相似度 for i in range(1, len(tokens)-1): # print(tokens[i]) word = tokens[i] if word in seed_words: continue word_tensor = encoded_layers[0][i].reshape(1, -1) sim = cosine_similarity(encoded_layers[0][1:-1], word_tensor, dense_output=False)[0].max() if sim > 0.5 and len(word) > 1: privacy_words.add(word) print(privacy_words) # 输出隐私词库 with open("output/privacy_words.txt", "w", encoding="utf-8") as f: for word in privacy_words: f.write(word + "\n") 上述代码使用bert微调来训练自己的微博数据来获取词向量，然后计算与种子词的相似度，输出结果会不会更准确，修改代码帮我实现一下

快速中文分词库jieba_fast-0.51上线

资源摘要信息:"Python库 | jieba_fast-0.51.tar.gz" 知识知识点： 1. Python库：在Python开发中，库是指一系列预先编写的代码和函数的集合，可以被导入和使用，以便于提高开发效率，避免重复劳动。库通常是用...

基于jieba和sklearn实现中文垃圾短信识别分类器

资源涉及的关键技术和工具包括：jieba分词库、scikit-learn机器学习库以及Python 3.5编程环境。实践过程中使用了Perceptron、Logistic Regression、Naive Bayes、支持向量机（SVM）等经典机器学习算法，并提供了具体...

import jieba import torch from sklearn.metrics.pairwise import cosine_similarity from transformers import BertTokenizer, BertModel seed_words = ['姓名'] # 加载微博文本数据 text_data = [] with open("output/weibo1.txt", "r", encoding="utf-8") as f: for line in f: text_data.append(line.strip()) # 加载BERT模型和分词器 tokenizer = BertTokenizer.from_pretrained('bert-base-chinese') model = BertModel.from_pretrained('bert-base-chinese') seed_tokens = ["[CLS]"] + seed_words + ["[SEP]"] seed_token_ids = tokenizer.convert_tokens_to_ids(seed_tokens) seed_segment_ids = [0] * len(seed_token_ids) # 转换为张量，调用BERT模型进行编码 seed_token_tensor = torch.tensor([seed_token_ids]) seed_segment_tensor = torch.tensor([seed_segment_ids]) with torch.no_grad(): seed_outputs = model(seed_token_tensor, seed_segment_tensor) seed_encoded_layers = seed_outputs[0] jieba.load_userdict('data/userdict.txt') # 构建隐私词库 privacy_words = set() for text in text_data: words = jieba.lcut(text.strip()) tokens = ["[CLS]"] + words + ["[SEP]"] token_ids = tokenizer.convert_tokens_to_ids(tokens) segment_ids = [0] * len(token_ids) # 转换为张量，调用BERT模型进行编码 token_tensor = torch.tensor([token_ids]) segment_tensor = torch.tensor([segment_ids]) with torch.no_grad(): outputs = model(token_tensor, segment_tensor) encoded_layers = outputs[0] # 对于每个词，计算它与种子词的相似度 for i in range(1, len(tokens)-1): word = tokens[i] if word in seed_words: continue word_tensor = encoded_layers[0][i].reshape(1, -1) seed_tensors =seed_encoded_layers[0][i].reshape(1, -1) # 计算当前微博词汇与种子词的相似度 sim = cosine_similarity(word_tensor, seed_tensors, dense_output=False)[0].max() print(sim, word) if sim > 0.5 and len(word) > 1: privacy_words.add(word) print(privacy_words) 上述代码运行之后有错误，报错信息为：Traceback (most recent call last): File "E:/PyCharm Community Edition 2020.2.2/Project/WordDict/newsim.py", line 397, in <module> seed_tensors =seed_encoded_layers[0][i].reshape(1, -1) IndexError: index 3 is out of bounds for dimension 0 with size 3. 请帮我修改

from sklearn.metrics.pairwise import cosine_similarity from transformers import BertTokenizer, BertModel seed_words = ['姓名'] # 加载微博文本数据 text_data = [] with open("output/weibo1.txt", ...

实现一个代码：采用python、bert、transformers，基于隐私相关种子词和大量微博用户博文文本数据，计算余弦相似度，构建隐私词库。微调bert来训练自己的微博用户文本数据后获得词向量来计算相似度结果是不是更准确？是的话请帮我实现带有微调功能的代码

from sklearn.metrics.pairwise import cosine_similarity # 设置随机数种子 random.seed(42) np.random.seed(42) torch.manual_seed(42) # 加载微博文本数据 text_data = [] with open("output/weibo2.txt", "r",...

上述的第一个问题我怀疑是计算余弦相似度的代码写的不对，比较的张量是不对的，我怀疑比较的encoded_layers[0][1:-1]和word_tensor不是微博词汇和种子词，我的判断正确吗，请帮我写出在上述代码基础上的修改优化代码

from sklearn.metrics.pairwise import cosine_similarity from transformers import BertTokenizer, BertModel seed_words = ['姓名'] # 加载微博文本数据 text_data = [] with open("output/weibo1.txt", "r",...

2024-2025第一学期一上U1～3.pdf

Redis详解与常见问题解决方案中文最新版本

redis是一个key-value存储系统。和Memcached类似，它支持存储的value类型相对更多，包括string(字符串)、list(链表)、set(集合)、zset(sortedset --有序集合)和hash（哈希类型）。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作，而且这些操作都是原子性的。在此基础上，redis支持各种不同方式的排序。与memcached一样，为了保证效率，数据都是缓存在内存中。区别的是redis会周期性的把更新的数据写入磁盘或者把修改操作写入追加的记录文件，并且在此基础上实现了master-slave(主从)同步。感兴趣的朋友可以过来看看

ASP+ACCESS航班在线定票系统设计(源代码+论文)（源代码+论文+说明文档）.zip

【项目资源】：包含前端、后端、移动开发、操作系统、人工智能、物联网、信息化管理、数据库、硬件开发、大数据、课程资源、音视频、网站开发等各种技术项目的源码。包括STM32、ESP8266、PHP、QT、Linux、iOS、C++、Java、python、web、C#、EDA、proteus、RTOS等项目的源码。【项目质量】：所有源码都经过严格测试，可以直接运行。功能在确认正常工作后才上传。【适用人群】：适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。【附加价值】：项目具有较高的学习借鉴价值，也可直接拿来修改复刻。对于有一定基础或热衷于研究的人来说，可以在这些基础代码上进行修改和扩展，实现其他功能。【沟通交流】：有任何使用上的问题，欢迎随时与博主沟通，博主会及时解答。鼓励下载和使用，并欢迎大家互相学习，共同进步。

全国月尺度平均气温-Tm-1961-2022-025x025

全国月尺度平均气温数据集（1961-2022, 0.25° × 0.25°）是一个高分辨率的网格化平均气温数据集，覆盖了中国大陆及周边地区。该数据集通过科学方法整合气象观测和再分析数据，为气候研究、生态模型、农业生产、以及水资源管理等领域提供了重要支持。数据下载后可显示详细信息。

yolo算法-筷子数据集-588张图像带标签-.zip

yolo系列算法目标检测数据集，包含标签，可以直接训练模型和验证测试，数据集已经划分好，包含数据集配置文件data.yaml，适用yolov5,yolov8,yolov9,yolov7,yolov10,yolo11算法；包含两种标签格:yolo格式（txt文件）和voc格式（xml文件），分别保存在两个文件夹中; yolo格式：<class> <x_center> <y_center> <width> <height>，其中： <class> 是目标的类别索引（从0开始）。 <x_center> 和 <y_center> 是目标框中心点的x和y坐标，这些坐标是相对于图像宽度和高度的比例值，范围在0到1之间。 <width> 和 <height> 是目标框的宽度和高度，也是相对于图像宽度和高度的比例值

shell脚本编程实践，分享给有需要的人，仅供参考

模拟退火算法shell脚本编程实践，分享给有需要的人，仅供参考。内容来源于网络分享，如有侵权请联系我删除。另外如果没有积分的同学需要下载，请私信我。

基于PCIe接口的高性能视频编辑系统.docx

基于PCIe接口的高性能视频编辑系统

python爬虫入门，分享给有需要的人，仅供参考

python爬虫入门，分享给有需要的人，仅供参考。内容来源于网络分享，如有侵权请联系我删除。另外如果没有积分的同学需要下载，请私信我。

在线音乐网站的设计与实现

电工与电子技术课程标准.doc

1-全国各地级市人口、城镇居民人均可支配收入、进出口总额、社会消费品零售总额2015-2021年-社科数据.zip

根据搜索结果，以下是一条关于社科数据的内容介绍：本数据集涵盖了2015至2021年间全国各地级市的关键经济指标，包括人口数量、城镇居民人均可支配收入、进出口总额以及社会消费品零售总额。这些数据为研究区域经济发展提供了宝贵的信息资源，来源于各省市统计年鉴及国家统计局的官方数据，确保了数据的权威性和准确性。数据内容全面，缺失值较少，适合用于宏观经济分析、政策评估以及学术研究等多个领域。通过这些数据，研究者可以深入了解中国各地区在不同年份的经济表现和发展趋势。

相关推荐

快速中文分词库jieba_fast-0.51上线

基于jieba和sklearn实现中文垃圾短信识别分类器

上述的第一个问题我怀疑是计算余弦相似度的代码写的不对，比较的张量是不对的，我怀疑比较的encoded_layers[0][1:-1]和word_tensor不是微博词汇和种子词，我的判断正确吗，请帮我写出在上述代码基础上的修改优化代码

Python完美实现HMM模型代码教程

提升分词准确度：UserDict.txt中文词典的作用与应用

WorkerError(解决方案).md

2024-2025第一学期一上U1～3.pdf

Redis详解与常见问题解决方案中文最新版本

ASP+ACCESS航班在线定票系统设计(源代码+论文)（源代码+论文+说明文档）.zip

全国月尺度平均气温-Tm-1961-2022-025x025

yolo算法-筷子数据集-588张图像带标签-.zip

shell脚本编程实践，分享给有需要的人，仅供参考

基于PCIe接口的高性能视频编辑系统.docx

python爬虫入门，分享给有需要的人，仅供参考

在线音乐网站的设计与实现

电工与电子技术课程标准.doc

1-全国各地级市人口、城镇居民人均可支配收入、进出口总额、社会消费品零售总额2015-2021年-社科数据.zip

最新推荐

WorkerError(解决方案).md

2024-2025第一学期一上U1～3.pdf

Redis详解与常见问题解决方案中文最新版本

MATLAB实现小波阈值去噪：Visushrink硬软算法对比

管理建模和仿真的文件

【交互特征的影响】：分类问题中的深入探讨，如何正确应用交互特征

c语言从链式队列 中获取头部元素并返回其状态的函数怎么写

易语言实现画板图像缩放功能教程

"互动学习：行动中的多样性与论文攻读经历"

【交互特征：优化与调试的艺术】：实战技巧，提升回归模型与分类模型的性能

c语言从链式队列中获取头部元素并返回其状态的函数怎么写