上述代码报错了,报错信息:Traceback (most recent call last): File "E:/PyCharm Community Edition 2020.2.2/Project/WordDict/newsim.py", line 327, in <module> similarities = cosine_similarity(vectors, np.array([tokenizer.encode(word, return_tensors='pt')[0].numpy() for word in seed_words])) ValueError: Incompatible dimension for X and Y matrices: X.shape[1] == 768 while Y.shape[1] == 4 怎么修改,给出修改代码

时间: 2024-02-26 08:53:36 浏览: 30
根据报错信息来看,似乎是因为种子词的编码长度不同导致的维度不匹配错误。你可以尝试使用`tokenizer.encode_plus()`方法来获取种子词的编码和相应的attention mask,然后将编码和attention mask传递给Bert模型,获取词向量。同时,由于种子词的数量较少,所以维度不对的问题可以通过扩展向量维度解决。 以下是修改后的代码: ```python from transformers import BertTokenizer, BertModel import torch import numpy as np from sklearn.metrics.pairwise import cosine_similarity # 人工选取的隐私词列表 seed_words = ['个人信息', '身份证', '手机号码', '银行卡', '密码', '账号', '地址', '社保', '职业', '学历', '收入', '家庭情况'] # 加载Bert tokenizer和模型 tokenizer = BertTokenizer.from_pretrained('bert-base-chinese') model = BertModel.from_pretrained('bert-base-chinese') model.eval() # 读取微博博文文本语料 with open('weibo_corpus.txt', 'r', encoding='utf-8') as f: corpus = f.readlines() # 对每个词汇获取词向量 vectors = [] for text in corpus: # 对文本进行tokenize和padding inputs = tokenizer(text, return_tensors='pt', padding=True, truncation=True) # 获取Bert模型的输出 with torch.no_grad(): outputs = model(**inputs) # 获取隐层输出(即词向量) hidden_states = outputs[0] # 对所有隐层输出取平均得到文本向量 text_vector = torch.mean(hidden_states, dim=1) # 将文本向量转换为numpy数组 text_vector = text_vector.numpy()[0] # 将文本向量添加到向量列表中 vectors.append(text_vector) # 将种子词的词向量与所有词汇的词向量计算余弦相似度 similarities = cosine_similarity(vectors, np.array([model(tokenizer.encode_plus(word, return_tensors='pt')['input_ids'], attention_mask=tokenizer.encode_plus(word, return_tensors='pt')['attention_mask']).last_hidden_state[0].numpy() for word in seed_words])) # 获取每个种子词的关联词汇 related_words = {} for i, word in enumerate(seed_words): # 获取与该种子词余弦相似度大于阈值的词汇 sim_words = [corpus[j] for j in range(len(corpus)) if similarities[j][i] > q] # 合并、去重 related_words[word] = list(set(sim_words)) # 人工筛选 privacy_words = [] for word in seed_words: # 将种子词添加到结果列表中 privacy_words.append(word) # 将关联词汇添加到结果列表中 for related_word in related_words[word]: # 如果关联词汇与已添加的词汇重复,则不加入结果列表 if related_word not in privacy_words: privacy_words.append(related_word) # 对结果列表进行去重 privacy_words = list(set(privacy_words)) ``` 在修改后的代码中,我们使用`model()`方法获取种子词的词向量,同时使用`last_hidden_state`属性获取隐层输出,然后将隐层输出转换为numpy数组。此外,我们还将向量的维度从4扩展到768,以解决维度不匹配问题。

相关推荐

import jieba import torch from sklearn.metrics.pairwise import cosine_similarity from transformers import BertTokenizer, BertModel seed_words = ['姓名'] # 加载微博文本数据 text_data = [] with open("output/weibo1.txt", "r", encoding="utf-8") as f: for line in f: text_data.append(line.strip()) # 加载BERT模型和分词器 tokenizer = BertTokenizer.from_pretrained('bert-base-chinese') model = BertModel.from_pretrained('bert-base-chinese') seed_tokens = ["[CLS]"] + seed_words + ["[SEP]"] seed_token_ids = tokenizer.convert_tokens_to_ids(seed_tokens) seed_segment_ids = [0] * len(seed_token_ids) # 转换为张量,调用BERT模型进行编码 seed_token_tensor = torch.tensor([seed_token_ids]) seed_segment_tensor = torch.tensor([seed_segment_ids]) with torch.no_grad(): seed_outputs = model(seed_token_tensor, seed_segment_tensor) seed_encoded_layers = seed_outputs[0] jieba.load_userdict('data/userdict.txt') # 构建隐私词库 privacy_words = set() for text in text_data: words = jieba.lcut(text.strip()) tokens = ["[CLS]"] + words + ["[SEP]"] token_ids = tokenizer.convert_tokens_to_ids(tokens) segment_ids = [0] * len(token_ids) # 转换为张量,调用BERT模型进行编码 token_tensor = torch.tensor([token_ids]) segment_tensor = torch.tensor([segment_ids]) with torch.no_grad(): outputs = model(token_tensor, segment_tensor) encoded_layers = outputs[0] # 对于每个词,计算它与种子词的相似度 for i in range(1, len(tokens)-1): word = tokens[i] if word in seed_words: continue word_tensor = encoded_layers[0][i].reshape(1, -1) seed_tensors =seed_encoded_layers[0][i].reshape(1, -1) # 计算当前微博词汇与种子词的相似度 sim = cosine_similarity(word_tensor, seed_tensors, dense_output=False)[0].max() print(sim, word) if sim > 0.5 and len(word) > 1: privacy_words.add(word) print(privacy_words) 上述代码运行之后有错误,报错信息为:Traceback (most recent call last): File "E:/PyCharm Community Edition 2020.2.2/Project/WordDict/newsim.py", line 397, in <module> seed_tensors =seed_encoded_layers[0][i].reshape(1, -1) IndexError: index 3 is out of bounds for dimension 0 with size 3. 请帮我修改

import torch from transformers import BertTokenizer, BertModel # 加载Bert预训练模型和tokenizer model = BertModel.from_pretrained('bert-base-chinese') tokenizer = BertTokenizer.from_pretrained('bert-base-chinese') # 微博文本和种子词 text = '今天天气真好,心情非常愉快!' seeds = ['天气', '心情', '愉快'] # 将微博文本和种子词转换为Bert输入格式 inputs = tokenizer.encode_plus(text, add_special_tokens=True, return_tensors='pt') seed_inputs = tokenizer.encode_plus(seeds, add_special_tokens=True, return_tensors='pt', padding=True) # 使用Bert模型获取微博文本和种子词的词向量 with torch.no_grad(): text_embeddings = model(inputs['input_ids'], attention_mask=inputs['attention_mask'])[0] # [1, seq_len, hidden_size] seed_embeddings = model(seed_inputs['input_ids'], attention_mask=seed_inputs['attention_mask'])[0] # [batch_size, seq_len, hidden_size] # 计算种子词和微博文本中所有词语的余弦相似度 text_embeddings = text_embeddings.squeeze(0) # [seq_len, hidden_size] seed_embeddings = seed_embeddings.mean(dim=1) # [batch_size, hidden_size] -> [batch_size, 1, hidden_size] -> [batch_size, hidden_size] cosine_similarities = torch.matmul(text_embeddings, seed_embeddings.transpose(0, 1)) # [seq_len, batch_size] # 获取相似度最高的词语 similar_words = [] for i in range(len(seeds)): seed_similarities = cosine_similarities[:, i].tolist() max_sim_idx = seed_similarities.index(max(seed_similarities)) similar_word = tokenizer.convert_ids_to_tokens(inputs['input_ids'][0][max_sim_idx].item()) similar_words.append(similar_word) print(similar_words) 能不能详细讲解一下上述这段代码的每行代码的意思,为什么这样用,比如用到的函数是什么意思,生成的变量是什么类型,能列举吗?而且这段代码中后面的这行代码seed_similarities = cosine_similarities[:, i].tolist()报错了,报错显示Traceback (most recent call last): File "E:/PyCharm Community Edition 2020.2.2/Project/WordDict/cos_similarity.py", line 35, in <module> seed_similarities = cosine_similarities[:, i].tolist() IndexError: index 1 is out of bounds for dimension 1 with size 1 能不能帮我解释一下为什么错,解释一下该怎么修改,并给出修改后的代码呢?

最新推荐

recommend-type

Mac下anaconda中Spyder打开报错Traceback(most recent call last)…问题

编程小白刚入门没多久,然后发现Spyder打不开,窗口弹出报错如下图, 但打开Jupter notebook等又是好的,最近电脑新装的软件比较多(MySQL、Tableau等),又清理了磁盘。不知道是什么问题导致的,尝试了网上说的方法...
recommend-type

波士顿房价数据集Boston House Price

波士顿房价数据集Boston House Price 全网最便宜
recommend-type

zigbee-cluster-library-specification

最新的zigbee-cluster-library-specification说明文档。
recommend-type

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire
recommend-type

实现实时数据湖架构:Kafka与Hive集成

![实现实时数据湖架构:Kafka与Hive集成](https://img-blog.csdnimg.cn/img_convert/10eb2e6972b3b6086286fc64c0b3ee41.jpeg) # 1. 实时数据湖架构概述** 实时数据湖是一种现代数据管理架构,它允许企业以低延迟的方式收集、存储和处理大量数据。与传统数据仓库不同,实时数据湖不依赖于预先定义的模式,而是采用灵活的架构,可以处理各种数据类型和格式。这种架构为企业提供了以下优势: - **实时洞察:**实时数据湖允许企业访问最新的数据,从而做出更明智的决策。 - **数据民主化:**实时数据湖使各种利益相关者都可
recommend-type

解答下列问题:S—>S;T|T;T—>a 构造任意项目集规范族,构造LR(0)分析表,并分析a;a

对于这个文法,我们可以构造以下项目集规范族: I0: S -> .S S -> .T T -> .a I1: S -> S. [$ T -> T. [$ I2: S -> T. I3: S -> S.;S S -> S.;T T -> T.;a 其中,点(.)表示已经被扫描过的符号,;$表示输入串的结束符号。 根据项目集规范族,我们可以构造出LR(0)分析表: 状态 | a | $ ---- | - | - I0 | s3| I1 | |acc I2 | | 其中s3表示移进到状态3,acc表示接受。在分析字符串a;a时,我们可以按照以下步骤进行
recommend-type

JSBSim Reference Manual

JSBSim参考手册,其中包含JSBSim简介,JSBSim配置文件xml的编写语法,编程手册以及一些应用实例等。其中有部分内容还没有写完,估计有生之年很难看到完整版了,但是内容还是很有参考价值的。
recommend-type

"互动学习:行动中的多样性与论文攻读经历"

多样性她- 事实上SCI NCES你的时间表ECOLEDO C Tora SC和NCESPOUR l’Ingén学习互动,互动学习以行动为中心的强化学习学会互动,互动学习,以行动为中心的强化学习计算机科学博士论文于2021年9月28日在Villeneuve d'Asq公开支持马修·瑟林评审团主席法布里斯·勒菲弗尔阿维尼翁大学教授论文指导奥利维尔·皮耶昆谷歌研究教授:智囊团论文联合主任菲利普·普雷教授,大学。里尔/CRISTAL/因里亚报告员奥利维耶·西格德索邦大学报告员卢多维奇·德诺耶教授,Facebook /索邦大学审查员越南圣迈IMT Atlantic高级讲师邀请弗洛里安·斯特鲁布博士,Deepmind对于那些及时看到自己错误的人...3谢谢你首先,我要感谢我的两位博士生导师Olivier和Philippe。奥利维尔,"站在巨人的肩膀上"这句话对你来说完全有意义了。从科学上讲,你知道在这篇论文的(许多)错误中,你是我可以依
recommend-type

实现实时监控告警系统:Kafka与Grafana整合

![实现实时监控告警系统:Kafka与Grafana整合](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X2pwZy9BVldpY3ladXVDbEZpY1pLWmw2bUVaWXFUcEdLT1VDdkxRSmQxZXB5R1lxaWNlUjA2c0hFek5Qc3FyRktudFF1VDMxQVl3QTRXV2lhSWFRMEFRc0I1cW1ZOGcvNjQw?x-oss-process=image/format,png) # 1.1 Kafka集群架构 Kafka集群由多个称为代理的服务器组成,这
recommend-type

mac上和window原生一样的历史剪切板工具有什么

好的,我明白了您的要求。关于您的问题,为使Mac与Windows的历史剪切板功能类似,可以使用第三方工具"CopyClip"、"Alfred"、"Clipboard Manager"等。这些工具可以记录您复制到剪切板的所有内容,而不仅仅是最后一次复制。同时,它们还可以进行搜索和过滤,以便您更快地找到需要的内容。希望这能回答您的问题。