import torch from sklearn.metrics.pairwise import cosine_similarity from transformers import BertTokenizer, BertModel # 加载种子词库 seed_words = [] with open("output/base_words.txt", "r", encoding="utf-8") as f: for line in f: seed_words.append(line.strip()) print(seed_words) # 加载微博文本数据 text_data = [] with open("output/weibo1.txt", "r", encoding="utf-8") as f: for line in f: text_data.append(line.strip()) print(text_data) # 加载BERT模型和分词器 tokenizer = BertTokenizer.from_pretrained('bert-base-chinese') model = BertModel.from_pretrained('bert-base-chinese') # 构建隐私词库 privacy_words = set(seed_words) for text in text_data: # 对文本进行分词，并且添加特殊标记 tokens = ["[CLS]"] + tokenizer.tokenize(text) + ["[SEP]"] print(tokens) token_ids = tokenizer.convert_tokens_to_ids(tokens) print(token_ids) segment_ids = [0] * len(token_ids) # 转换为张量，调用BERT模型进行编码 token_tensor = torch.tensor([token_ids]) segment_tensor = torch.tensor([segment_ids]) with torch.no_grad(): outputs = model(token_tensor, segment_tensor) encoded_layers = outputs[0] print(encoded_layers) # 对于每个词，计算它与种子词的相似度 for i in range(1, len(tokens)-1): print(tokens[i]) word = tokens[i] if word in seed_words: continue word_tensor = encoded_layers[0][i].reshape(1, -1) sim = cosine_similarity(encoded_layers[0][1:-1], word_tensor, dense_output=False)[0].max() if sim > 0.5: privacy_words.add(word) print(privacy_words) 上述代码中的这几行代码：# 对于每个词，计算它与种子词的相似度 for i in range(1, len(tokens)-1): print(tokens[i]) word = tokens[i] if word in seed_words: continue word_tensor = encoded_layers[0][i].reshape(1, -1) sim = cosine_similarity(encoded_layers[0][1:-1], word_tensor, dense_output=False)[0].max() 我怎么觉得并不是微博文本中的词汇与种子词在比较相似度，而是微博文本中一句话的每个词在和这句话比较呢，我的判断对吗？如果对的话，请帮我在上述代码基础上修改代码

import torch from sklearn.metrics.pairwise import cosine_similarity from transformers import BertTokenizer, BertModel # 加载种子词库 seed_words = [] with open("output/base_words.txt", "r", encoding="utf-8") as f: for line in f: seed_words.append(line.strip()) print(seed_words) # 加载微博文本数据 text_data = [] with open("output/weibo1.txt", "r", encoding="utf-8") as f: for line in f: text_data.append(line.strip()) print(text_data) # 加载BERT模型和分词器 tokenizer = BertTokenizer.from_pretrained('bert-base-chinese') model = BertModel.from_pretrained('bert-base-chinese') # 构建隐私词库 privacy_words = set(seed_words) for text in text_data: # 对文本进行分词，并且添加特殊标记 tokens = ["[CLS]"] + tokenizer.tokenize(text) + ["[SEP]"] token_ids = tokenizer.convert_tokens_to_ids(tokens) segment_ids = [0] * len(token_ids) # 转换为张量，调用BERT模型进行编码 token_tensor = torch.tensor([token_ids]) segment_tensor = torch.tensor([segment_ids]) with torch.no_grad(): outputs = model(token_tensor, segment_tensor) encoded_layers = outputs[0] # 对于每个词，计算它与种子词的相似度 for i in range(1, len(tokens)-1): word = tokens[i] if word in seed_words: continue word_tensor = encoded_layers[0][i].reshape(1, -1) sim = cosine_similarity(encoded_layers[0][1:-1], word_tensor, dense_output=False)[0].max() if sim > 0.5: privacy_words.add(word) # 输出隐私词库 with open("output/privacy_words.txt", "w", encoding="utf-8") as f: for word in privacy_words: f.write(word + "\n") 上述代码中的这两行代码： if sim > 0.5: privacy_words.add(word) 中privacy_words集合写入的词汇不是我想要的，运行之后都是写入privacy_words集合的都是单个字，我需要的是大于等于两个字的中文词汇，并且不包含种子词列表中的词汇，只需要将微博文本数据中与种子词相似度高的词汇写入privacy_words集合中，请帮我正确修改上述代码

from sklearn.metrics.pairwise import cosine_similarity from transformers import BertTokenizer, BertModel # 加载种子词库 seed_words = [] with open("output/base_words.txt", "r", encoding="utf-8") as f:...

import jieba import torch from sklearn.metrics.pairwise import cosine_similarity from transformers import BertTokenizer, BertModel seed_words = ['姓名'] # 加载微博文本数据 text_data = [] with open("output/weibo1.txt", "r", encoding="utf-8") as f: for line in f: text_data.append(line.strip()) # 加载BERT模型和分词器 tokenizer = BertTokenizer.from_pretrained('bert-base-chinese') model = BertModel.from_pretrained('bert-base-chinese') seed_tokens = ["[CLS]"] + seed_words + ["[SEP]"] seed_token_ids = tokenizer.convert_tokens_to_ids(seed_tokens) seed_segment_ids = [0] * len(seed_token_ids) # 转换为张量，调用BERT模型进行编码 seed_token_tensor = torch.tensor([seed_token_ids]) seed_segment_tensor = torch.tensor([seed_segment_ids]) with torch.no_grad(): seed_outputs = model(seed_token_tensor, seed_segment_tensor) seed_encoded_layers = seed_outputs[0] jieba.load_userdict('data/userdict.txt') # 构建隐私词库 privacy_words = set() for text in text_data: words = jieba.lcut(text.strip()) tokens = ["[CLS]"] + words + ["[SEP]"] token_ids = tokenizer.convert_tokens_to_ids(tokens) segment_ids = [0] * len(token_ids) # 转换为张量，调用BERT模型进行编码 token_tensor = torch.tensor([token_ids]) segment_tensor = torch.tensor([segment_ids]) with torch.no_grad(): outputs = model(token_tensor, segment_tensor) encoded_layers = outputs[0] # 对于每个词，计算它与种子词的相似度 for i in range(1, len(tokens)-1): word = tokens[i] if word in seed_words: continue word_tensor = encoded_layers[0][i].reshape(1, -1) seed_tensors =seed_encoded_layers[0][i].reshape(1, -1) # 计算当前微博词汇与种子词的相似度 sim = cosine_similarity(word_tensor, seed_tensors, dense_output=False)[0].max() print(sim, word) if sim > 0.5 and len(word) > 1: privacy_words.add(word) print(privacy_words) 上述代码运行之后有错误，报错信息为：Traceback (most recent call last): File "E:/PyCharm Community Edition 2020.2.2/Project/WordDict/newsim.py", line 397, in <module> seed_tensors =seed_encoded_layers[0][i].reshape(1, -1) IndexError: index 3 is out of bounds for dimension 0 with size 3. 请帮我修改

from sklearn.metrics.pairwise import cosine_similarity from transformers import BertTokenizer, BertModel seed_words = ['姓名'] # 加载微博文本数据 text_data = [] with open("output/weibo1.txt", ...

from transformers import BertTokenizer, BertModel import torch from sklearn.metrics.pairwise import cosine_similarity # 加载BERT模型和分词器 tokenizer = BertTokenizer.from_pretrained('bert-base-chinese') model = BertModel.from_pretrained('bert-base-chinese') # 种子词列表 seed_words = ['个人信息', '隐私', '泄露', '安全'] # 加载微博用户文本语料（假设存储在weibo1.txt文件中） with open('output/weibo1.txt', 'r', encoding='utf-8') as f: corpus = f.readlines() # 预处理文本语料，获取每个中文词汇的词向量 corpus_vectors = [] for text in corpus: # 使用BERT分词器将文本分成词汇 tokens = tokenizer.tokenize(text) # 将词汇转换为对应的id input_ids = tokenizer.convert_tokens_to_ids(tokens) # 将id序列转换为PyTorch张量 input_ids = torch.tensor(input_ids).unsqueeze(0) # 使用BERT模型计算词向量 with torch.no_grad(): outputs = model(input_ids) last_hidden_state = outputs[0][:, 1:-1, :] avg_pooling = torch.mean(last_hidden_state, dim=1) corpus_vectors.append(avg_pooling.numpy()) # 计算每个中文词汇与种子词的余弦相似度 similarity_threshold = 0.8 privacy_words = set() for seed_word in seed_words: # 将种子词转换为对应的id seed_word_ids = tokenizer.convert_tokens_to_ids(tokenizer.tokenize(seed_word)) # 将id序列转换为PyTorch张量，并增加batch size维度 seed_word_ids = torch.tensor(seed_word_ids).unsqueeze(0) # 使用BERT模型计算种子词的词向量 with torch.no_grad(): outputs = model(seed_word_ids) last_hidden_state = outputs[0][:, 1:-1, :] avg_pooling = torch.mean(last_hidden_state, dim=1) seed_word_vector = avg_pooling.numpy() # 计算每个中文词汇与种子词的余弦相似度 for i, vector in enumerate(corpus_vectors): sim = cosine_similarity([seed_word_vector], [vector])[0][0] if sim >= similarity_threshold: privacy_words.add(corpus[i]) print(privacy_words) 上述代码运行后报错了，报错信息：ValueError: Found array with dim 3. check_pairwise_arrays expected <= 2. 怎么修改？

from sklearn.metrics.pairwise import cosine_similarity # 加载BERT模型和分词器 tokenizer = BertTokenizer.from_pretrained('bert-base-chinese') model = BertModel.from_pretrained('bert-base-chinese') # ...

import torch from transformers import BertTokenizer, BertModel # 加载种子词库 seed_words = [] with open("output/base_words.txt", "r", encoding="utf-8") as f: for line in f: seed_words.append(line.strip()) print(seed_words) # 加载微博文本数据 text_data = [] with open("output/weibo1.txt", "r", encoding="utf-8") as f: for line in f: text_data.append(line.strip()) print(text_data) # 加载BERT模型和分词器 tokenizer = BertTokenizer.from_pretrained('bert-base-chinese') model = BertModel.from_pretrained('bert-base-chinese') # 构建隐私词库 privacy_words = set(seed_words) for text in text_data: # 对文本进行分词，并且添加特殊标记 tokens = ["[CLS]"] + tokenizer.tokenize(text) + ["[SEP]"] token_ids = tokenizer.convert_tokens_to_ids(tokens) segment_ids = [0] * len(token_ids) # 转换为张量，调用BERT模型进行编码 token_tensor = torch.tensor([token_ids]) segment_tensor = torch.tensor([segment_ids]) with torch.no_grad(): outputs = model(token_tensor, segment_tensor) encoded_layers = outputs[0] # 对于每个词，计算它与种子词的相似度 for i in range(1, len(tokens)-1): word = tokens[i] if word in seed_words: continue word_tensor = encoded_layers[0][i].reshape(1, -1) sim = cosine_similarity(word_tensor, encoded_layers[0][1:-1])[0].max() # if sim > 0.5: # privacy_words.add(word) # 输出隐私词库 with open("output/privacy_words.txt", "w", encoding="utf-8") as f: for word in privacy_words: f.write(word + "\n") 上述代码中的 sim = cosine_similarity(word_tensor, encoded_layers[0][1:-1])[0].max() 的 cosine_similarity()应该用的是哪个库中的，是正确的

这段代码中使用的 cosine_similarity() 函数应该是来自 sklearn.metrics.pairwise 库中的，用于计算两个向量之间的余弦相似度。此外，代码中使用了 torch 和 transformers 库来加载和使用预训练的BERT模型和...

上述代码报错了，报错信息：Traceback (most recent call last): File "E:/PyCharm Community Edition 2020.2.2/Project/WordDict/newsim.py", line 327, in <module> similarities = cosine_similarity(vectors, np.array([tokenizer.encode(word, return_tensors='pt')[0].numpy() for word in seed_words])) ValueError: Incompatible dimension for X and Y matrices: X.shape[1] == 768 while Y.shape[1] == 4 怎么修改，给出修改代码

from sklearn.metrics.pairwise import cosine_similarity # 人工选取的隐私词列表 seed_words = ['个人信息', '身份证', '手机号码', '银行卡', '密码', '账号', '地址', '社保', '职业', '学历', '收入', '家庭...

上述代码报错了，怎么修改？报错信息：Traceback (most recent call last): File "E:/PyCharm Community Edition 2020.2.2/Project/WordDict/newsim.py", line 330, in <module> outputs = model(seed_word_ids) File "E:\anaconda\envs\TF2.4\lib\site-packages\torch\nn\modules\module.py", line 1194, in _call_impl return forward_call(*input, **kwargs) File "E:\anaconda\envs\TF2.4\lib\site-packages\transformers\models\bert\modeling_bert.py", line 974, in forward batch_size, seq_length = input_shape ValueError: not enough values to unpack (expected 2, got 1)

from sklearn.metrics.pairwise import cosine_similarity # 加载BERT模型和分词器 tokenizer = BertTokenizer.from_pretrained('bert-base-chinese') model = BertModel.from_pretrained('bert-base-chinese') # ...

写入privacy_words集合的是单个字难道不是因为tokenizer分词分成了单个字吗，导致单个字在比较相似度，我需要的是中文词汇比较相似度，请修改代码，而且上述修改后的代码运行结果输出只有种子词了，我想要的结果不是这样，我想要的是利用BERT、transformers模型训练大量的微博用户文本语料和种子词，获取词向量；然后，计算微博文本语料中每个中文词汇与这个种子词的余弦相似度，最后，设置关联度阈值，语料中大于等于阈值的词汇并且实际意思也是相近的才能被认为是相关隐私风险词，并与种子词一起纳入隐私词库privacy_words中。注意：我需要Tokenizer模型分词分的是中文，并不是将单个字转为编码，而是整个词汇转为编码。请在上述代码基础上按照这些描述进行修改，运行之后不要报错。

from sklearn.metrics.pairwise import cosine_similarity # 加载BERT模型和分词器 tokenizer = BertTokenizer.from_pretrained('bert-base-chinese') model = BertModel.from_pretrained('bert-base-chinese') # ...

上述的第一个问题我怀疑是计算余弦相似度的代码写的不对，比较的张量是不对的，我怀疑比较的encoded_layers[0][1:-1]和word_tensor不是微博词汇和种子词，我的判断正确吗，请帮我写出在上述代码基础上的修改优化代码

from sklearn.metrics.pairwise import cosine_similarity from transformers import BertTokenizer, BertModel seed_words = ['姓名'] # 加载微博文本数据 text_data = [] with open("output/weibo1.txt", "r",...

实现一个代码：采用python、bert、transformers，基于隐私相关种子词和大量微博用户博文文本数据，计算余弦相似度，构建隐私词库。微调bert来训练自己的微博用户文本数据后获得词向量来计算相似度结果是不是更准确？是的话请帮我实现带有微调功能的代码

from sklearn.metrics.pairwise import cosine_similarity # 设置随机数种子 random.seed(42) np.random.seed(42) torch.manual_seed(42) # 加载微博文本数据 text_data = [] with open("output/weibo2.txt", "r",...

基于python、RoBERTa、transformers模型编写以下任务的代码：先人工手动选取部分隐私词作为种子词，得到种子词列表；利用BERT模型训练大量的微博用户博文文本语料，获取词向量，然后其他词汇与已有种子词的相似度问题就转变成了向量相似度的问题；本任务采用余弦相似度，两个向量之间的余弦相似度越大说明它们关联度越高，余弦相似度计算采用的词向量是根据神经网络的最后四层来进行构建的，因为最后四层的效果最好，可以使用拼接的方式，也可以使用求和取平均的方式来获取词向量的编码；利用部分种子词和训练好的模型输出最相似的词汇，将每个种子词与其对应的相似词汇放在一个列表以”种子词：相似词汇“格式输出，将语义相近的词汇聚集在一起，对每一个种子词的关联词汇进行合并和去重，再进行人工筛选；设关联度阈值为q，语料中满足一定关联度阈值的词才能被定义为相关隐私词，并放入到隐私词库中；词库达到一定规模后，对词库进行过滤去重。

from sklearn.metrics.pairwise import cosine_similarity # 设置需要计算相似度的种子词列表 seed_words = ['隐私', '个人信息', '保密'] # 获取种子词的词向量 seed_embeddings = [] for word in seed_words: #...

基于python、Bert、transformers模型编写实现以下任务的代码、：采用Google 提供的 Bert-Base-Chinese 模型，隐层输出维度为 768，学习率为 1e-6。先人工手动选取部分隐私词作为种子词，得到种子词列表；利用BERT模型训练大量的微博用户博文文本语料，获取词向量，然后其他词汇与已有种子词的相似度问题就转变成了向量相似度的问题；本任务采用余弦相似度，两个向量之间的余弦相似度越大说明它们关联度越高；利用部分种子词和训练好的模型输出最相似的词汇，将语义相近的词汇聚集在一起，对每一个种子词的关联词汇进行合并和去重，再进行人工筛选；设关联度阈值为q，语料中满足一定关联度阈值的词才能被定义为相关隐私词，并放入到隐私词库中；词库达到一定规模后，对词库进行过滤去重。

from sklearn.metrics.pairwise import cosine_similarity # 人工选取的隐私词列表 seed_words = ['个人信息', '身份证', '手机号码', '银行卡', '密码', '账号', '地址', '社保', '职业', '学历', '收入', '家庭...

使用Sentence-BERT转换向量并计算相似度的代码

from sklearn.metrics.pairwise import cosine_similarity def calculate_similarity(sentences): # 加载预训练的Sentence-BERT模型 model = SentenceTransformer('bert-base-nli-mean-tokens') # 使用模型将...

在python中怎么使用pytorch调用自己训练的bert模型并进行余弦相似度计算

from sklearn.metrics.pairwise import cosine_similarity cos_sim = cosine_similarity(model_output[0][0].cpu().numpy(), model_output[0][1].cpu().numpy()) 其中，model_output[0][0]和model_output...

lbcnn.torch-master.zip_CNN_LBC_LBP CNN_becomeg53_torch

We propose local binary convolution (LBC), an efficient alternative to convolutional layers in standard convolutional neural networks (CNN). The design principles of LBC are motivated by local binary ...

Pycharm中import torch报错的快速解决方法

Pycharm中import torch报错问题描述：今天在跑GitHub上一个深度学习的模型，需要引入一个torch包，在pycharm中用pip命令安装时报错：于是我上网寻求解决方案，试了很多都失败了，最后在：Anne琪琪的博客中找到了...

解决PyCharm import torch包失败的问题

Anaconda3-5.1.0-MacOSX-x86_64.pkg 下载安装后，附带安装了pytorch包。需要将环境调整到新的python3.6目录下。 1、在Project Interpreter选择“Show All…”菜单 Show All... ... 选择： Add Local... ...

torch.cuda.is_available（）返回False解决方案

但是在查看代码是看到这里是一个and，参数args.no_cuda是设置的Flase，所以问题因为在torch.cuda.is_available()，没有获得cuda加速。查看深度学习环境搭建torch.cuda.is_available()这里返回了

相关推荐

lbcnn.torch-master.zip_..累lbcnn;x3_LBCNN_lbp_lbp 神经网络_torch

DataLoader.py_torch数据_.DataLoader数据加载器_

fb.resnet.torch-master.zip_ResNet_ResNet深度学习_facebook_torch resn

上述的第一个问题我怀疑是计算余弦相似度的代码写的不对，比较的张量是不对的，我怀疑比较的encoded_layers[0][1:-1]和word_tensor不是微博词汇和种子词，我的判断正确吗，请帮我写出在上述代码基础上的修改优化代码

使用Sentence-BERT转换向量并计算相似度的代码

在python中怎么使用pytorch调用自己训练的bert模型并进行余弦相似度计算

lbcnn.torch-master.zip_CNN_LBC_LBP CNN_becomeg53_torch

Pycharm中import torch报错的快速解决方法

解决PyCharm import torch包失败的问题

torch.cuda.is_available（）返回False解决方案

最新推荐

地县级城市建设道路清扫保洁面积 道路清扫保洁面积道路机械化清扫保洁面积 省份 城市.xlsx

从网站上学习到了路由的一系列代码

基于AT89C51单片机的可手动定时控制的智能窗帘设计.zip-11

007_insert_seal_approval_cursor.sql

springboot072基于JavaWeb技术的在线考试系统设计与实现.zip

基于嵌入式ARMLinux的播放器的设计与实现 word格式.doc

管理建模和仿真的文件

Python字符串为空判断的动手实践：通过示例掌握技巧

box-sizing: border-box;作用是？

经典：大学答辩通过_基于ARM微处理器的嵌入式指纹识别系统设计.pdf

地县级城市建设道路清扫保洁面积道路清扫保洁面积道路机械化清扫保洁面积省份城市.xlsx