Traceback (most recent call last): File "E:/PyCharm Community Edition 2020.2.2/Project/WordDict/newsim.py", line 389, in <module> seed_vectors = np.reshape(np.array(seed_vectors), (seed_vectors.shape[0], -1)) AttributeError: 'list' object has no attribute 'shape' 又报错了

这个错误的原因是 `seed_vectors` 是一个空列表，没有 `shape` 属性。因此，当你试图使用 `seed_vectors.shape[0]` 访问 `shape` 属性时，会报错。解决这个错误的方法是在使用 `seed_vectors` 前，先判断它是否为空列表，如果是空列表，则不执行相似性计算。可以使用如下代码进行判断： ``` if seed_vectors: seed_vectors = np.reshape(np.array(seed_vectors), (len(seed_vectors), -1)) similarities = cosine_similarity(seed_vectors + corpus_vectors) else: similarities = cosine_similarity(corpus_vectors) ``` 这样应该就可以解决这个错误了。

又报错了，报错信息：Traceback (most recent call last): File "E:/PyCharm Community Edition 2020.2.2/Project/WordDict/newsim.py", line 473, in <module> fine_tune(model, data) File "E:/PyCharm Community Edition 2020.2.2/Project/WordDict/newsim.py", line 468, in fine_tune loss.backward() AttributeError: 'str' object has no attribute 'backward' 帮我修改

这个错误提示表明，您的代码中存在一个字符串对象，而您正试图调用它的 backward() 方法。请检查您的代码，找到这个字符串对象，并将其替换为一个 PyTorch 张量对象，以便您可以调用它的 backward() 方法。可能的原因是，在您的代码中，您将字符串对象赋值给了一个需要张量对象的变量，或者您没有正确地将您的输入数据转换为 PyTorch 张量对象。请检查您的代码中所有与输入数据有关的部分，并确保将它们转换为正确的张量对象。

import jieba import torch from sklearn.metrics.pairwise import cosine_similarity from transformers import BertTokenizer, BertModel seed_words = ['姓名'] # 加载微博文本数据 text_data = [] with open("output/weibo1.txt", "r", encoding="utf-8") as f: for line in f: text_data.append(line.strip()) # 加载BERT模型和分词器 tokenizer = BertTokenizer.from_pretrained('bert-base-chinese') model = BertModel.from_pretrained('bert-base-chinese') seed_tokens = ["[CLS]"] + seed_words + ["[SEP]"] seed_token_ids = tokenizer.convert_tokens_to_ids(seed_tokens) seed_segment_ids = [0] * len(seed_token_ids) # 转换为张量，调用BERT模型进行编码 seed_token_tensor = torch.tensor([seed_token_ids]) seed_segment_tensor = torch.tensor([seed_segment_ids]) with torch.no_grad(): seed_outputs = model(seed_token_tensor, seed_segment_tensor) seed_encoded_layers = seed_outputs[0] jieba.load_userdict('data/userdict.txt') # 构建隐私词库 privacy_words = set() for text in text_data: words = jieba.lcut(text.strip()) tokens = ["[CLS]"] + words + ["[SEP]"] token_ids = tokenizer.convert_tokens_to_ids(tokens) segment_ids = [0] * len(token_ids) # 转换为张量，调用BERT模型进行编码 token_tensor = torch.tensor([token_ids]) segment_tensor = torch.tensor([segment_ids]) with torch.no_grad(): outputs = model(token_tensor, segment_tensor) encoded_layers = outputs[0] # 对于每个词，计算它与种子词的相似度 for i in range(1, len(tokens)-1): word = tokens[i] if word in seed_words: continue word_tensor = encoded_layers[0][i].reshape(1, -1) seed_tensors =seed_encoded_layers[0][i].reshape(1, -1) # 计算当前微博词汇与种子词的相似度 sim = cosine_similarity(word_tensor, seed_tensors, dense_output=False)[0].max() print(sim, word) if sim > 0.5 and len(word) > 1: privacy_words.add(word) print(privacy_words) 上述代码运行之后有错误，报错信息为：Traceback (most recent call last): File "E:/PyCharm Community Edition 2020.2.2/Project/WordDict/newsim.py", line 397, in <module> seed_tensors =seed_encoded_layers[0][i].reshape(1, -1) IndexError: index 3 is out of bounds for dimension 0 with size 3. 请帮我修改

根据报错信息，问题出在获取seed_encoded_layers的第三个元素时，超过了张量的维度范围。可以通过打印输出seed_encoded_layers的形状，来确定张量的维度情况，看看是否与预期一致。同时，可以检查一下seed_tokens和seed_token_ids的值，确保它们正确。下面是修改后的代码： ``` import jieba import torch from sklearn.metrics.pairwise import cosine_similarity from transformers import BertTokenizer, BertModel seed_words = ['姓名'] # 加载微博文本数据 text_data = [] with open("output/weibo1.txt", "r", encoding="utf-8") as f: for line in f: text_data.append(line.strip()) # 加载BERT模型和分词器 tokenizer = BertTokenizer.from_pretrained('bert-base-chinese') model = BertModel.from_pretrained('bert-base-chinese') seed_tokens = ["[CLS]"] + seed_words + ["[SEP]"] seed_token_ids = tokenizer.convert_tokens_to_ids(seed_tokens) seed_segment_ids = [0] * len(seed_token_ids) # 转换为张量，调用BERT模型进行编码 seed_token_tensor = torch.tensor([seed_token_ids]) seed_segment_tensor = torch.tensor([seed_segment_ids]) with torch.no_grad(): seed_outputs = model(seed_token_tensor, seed_segment_tensor) seed_encoded_layers = seed_outputs[0] jieba.load_userdict('data/userdict.txt') # 构建隐私词库 privacy_words = set() for text in text_data: words = jieba.lcut(text.strip()) tokens = ["[CLS]"] + words + ["[SEP]"] token_ids = tokenizer.convert_tokens_to_ids(tokens) segment_ids = [0] * len(token_ids) # 转换为张量，调用BERT模型进行编码 token_tensor = torch.tensor([token_ids]) segment_tensor = torch.tensor([segment_ids]) with torch.no_grad(): outputs = model(token_tensor, segment_tensor) encoded_layers = outputs[0] # 对于每个词，计算它与种子词的相似度 for i in range(1, len(tokens)-1): word = tokens[i] if word in seed_words: continue word_tensor = encoded_layers[0][i].reshape(1, -1) seed_tensors = seed_encoded_layers[0][0].reshape(1, -1) # 修改此处，取第一个元素 # 计算当前微博词汇与种子词的相似度 sim = cosine_similarity(word_tensor, seed_tensors, dense_output=False)[0].max() print(sim, word) if sim > 0.5 and len(word) > 1: privacy_words.add(word) print(privacy_words) ```

阅读全文

Traceback (most recent call last): File "E:/PyCharm Community Edition 2020.2.2/Project/WordDict/newsim.py", line 389, in <module> seed_vectors = np.reshape(np.array(seed_vectors), (seed_vectors.shape[0], -1)) AttributeError: 'list' object has no attribute 'shape' 又报错了

相关推荐

python报错: 'list' object has no attribute 'shape'的解决

linux 下 pip3 报错“ File “/usr/bin/pip3”, line 9, in from pip import mainImportError: canno”处理

数学建模学习资料 姜启源数学模型课件 M04 数学规划模型 共85页.pptx

【大越期货-2024研报】生猪期货早报.pdf

数学建模学习资料 姜启源数学模型课件 M07 差分方程模型 共33页.pptx

【宝城期货-2024研报】宝城期货品种套利数据日报.pdf

从头开始的 YOLOv1.zip

YOLOv4 通过 TensorRT 加速，并使用 Deepstream 实现多流输入.zip

Tensorflow 中的 Tiny YOLOv2 变得简单！.zip

将 yolov5 导出到 tflite 并在 Raspberry Pi 和 CPU 上运行推理.zip

【华创证券-2024研报】金工周报（20241118-20241122）：短期择时模型翻空，后市或震荡偏空.pdf

软件综合设计三班六组项目：人像文本技术吧前端.zip

利用Java设计飞机大战小游戏.zip学习资料

毕业设计&课设_网上订餐管理系统：计算机毕设项目.zip

网络训练、图像制作以及部分hend功能是基于pc端实现的，只有主干网络部署在fpga上，片上资源无法支持整个网络所需资源，建议外部添加存储及DDR.zip

斐讯K2刷机包通用版本

《PH47 快速开发教程》发布

基于51单片机红外避障车辆高速汽车测速仪表设计.zip

最新推荐

数学建模学习资料 姜启源数学模型课件 M04 数学规划模型 共85页.pptx

【大越期货-2024研报】生猪期货早报.pdf

数学建模学习资料 姜启源数学模型课件 M07 差分方程模型 共33页.pptx

JHU荣誉单变量微积分课程教案介绍

管理建模和仿真的文件

【实战篇：自定义损失函数】：构建独特损失函数解决特定问题，优化模型性能

如何在ZYNQMP平台上配置TUSB1210 USB接口芯片以实现Host模式，并确保与Linux内核的兼容性？

Naruto爱好者必备CLI测试应用

"互动学习：行动中的多样性与论文攻读经历"

【强化学习损失函数探索】：奖励函数与损失函数的深入联系及优化策略

数学建模学习资料姜启源数学模型课件 M04 数学规划模型共85页.pptx

数学建模学习资料姜启源数学模型课件 M07 差分方程模型共33页.pptx

数学建模学习资料姜启源数学模型课件 M04 数学规划模型共85页.pptx

数学建模学习资料姜启源数学模型课件 M07 差分方程模型共33页.pptx