import sys import re import jieba import codecs import gensim import numpy as np import pandas as pd def segment(doc: str): stop_words = pd.read_csv('data/stopwords.txt', index_col=False, quoting=3, names=['stopword'], sep='\n', encoding='utf-8') stop_words = list(stop_words.stopword) reg_html = re.compile(r'<[^>]+>', re.S) # 去掉html标签数字等 doc = reg_html.sub('', doc) doc = re.sub('[０-９]', '', doc) doc = re.sub('\s', '', doc) word_list = list(jieba.cut(doc)) out_str = '' for word in word_list: if word not in stop_words: out_str += word out_str += ' ' segments = out_str.split(sep=' ') return segments def doc2vec(file_name, model, doc_id): start_alpha = 0.01 infer_epoch = 1000 doc = segment(codecs.open(file_name, 'r', 'utf-8').read()) return model.infer_vector(doc, alpha=start_alpha, steps=infer_epoch) # 计算两个向量余弦值 def similarity(a_vect, b_vect): dot_val = 0.0 a_norm = 0.0 b_norm = 0.0 cos = None for a, b in zip(a_vect, b_vect): dot_val += a * b a_norm += a 2 b_norm += b 2 if a_norm == 0.0 or b_norm == 0.0: cos = -1 else: cos = dot_val / ((a_norm * b_norm) ** 0.5) return cos def test_model(file1, file2): print('导入模型') model_path = 'tmp/zhwk_news.doc2vec' model = gensim.models.Doc2Vec.load(model_path) vect1 = doc2vec(file1, model, doc_id=0) # 转成句子向量 vect2 = doc2vec(file2, model, doc_id=1) print(vect1.nbytes) # 查看向量大小 print(vect2.nbytes) cos = similarity(vect1, vect2) print('相似度：%0.2f%%' % (cos * 100)) if name == 'main': file1 = 'data/corpus_test/t1.txt' file2 = 'data/corpus_test/t2.txt' test_model(file1, file2) 报错AttributeError: 'Doc2Vec' object has no attribute 'dv'怎么解决

时间: 2024-03-27 07:35:09 浏览: 27

这个错误可能是因为gensim版本的问题导致的，可以尝试将gensim版本降到3.8.1及以下。具体操作可以使用以下命令： ``` !pip install gensim==3.8.1 ``` 或者可以在代码中加入以下语句： ``` model.delete_temporary_training_data(keep_doctags_vectors=True, keep_inference=True) ``` 这句话可以清除模型中的临时训练数据，可能可以解决这个错误。

import sys import re import jieba import codecs import gensim import numpy as np import pandas as pd def segment(doc: str): stop_words = pd.read_csv('data/stopwords.txt', index_col=False, quoting=3, names=['stopword'], sep='\n', encoding='utf-8') stop_words = list(stop_words.stopword) reg_html = re.compile(r'<[^>]+>', re.S) # 去掉html标签数字等 doc = reg_html.sub('', doc) doc = re.sub('[０-９]', '', doc) doc = re.sub('\s', '', doc) word_list = list(jieba.cut(doc)) out_str = '' for word in word_list: if word not in stop_words: out_str += word out_str += ' ' segments = out_str.split(sep=' ') return segments def doc2vec(file_name, model): start_alpha = 0.01 infer_epoch = 1000 doc = segment(codecs.open(file_name, 'r', 'utf-8').read()) vector = model.docvecs[doc_id] return model.infer_vector(doc) # 计算两个向量余弦值 def similarity(a_vect, b_vect): dot_val = 0.0 a_norm = 0.0 b_norm = 0.0 cos = None for a, b in zip(a_vect, b_vect): dot_val += a * b a_norm += a 2 b_norm += b 2 if a_norm == 0.0 or b_norm == 0.0: cos = -1 else: cos = dot_val / ((a_norm * b_norm) ** 0.5) return cos def test_model(file1, file2): print('导入模型') model_path = 'tmp/zhwk_news.doc2vec' model = gensim.models.Doc2Vec.load(model_path) vect1 = doc2vec(file1, model) # 转成句子向量 vect2 = doc2vec(file2, model) print(sys.getsizeof(vect1)) # 查看变量占用空间大小 print(sys.getsizeof(vect2)) cos = similarity(vect1, vect2) print('相似度：%0.2f%%' % (cos * 100)) if name == 'main': file1 = 'data/corpus_test/t1.txt' file2 = 'data/corpus_test/t2.txt' test_model(file1, file2) 有什么问题，怎么解决

在 `doc2vec()` 函数中，你在尝试访问 `doc_id` 变量，但是该变量未定义，这会导致 `NameError` 错误。你需要将该变量定义为函数的参数，并在调用函数时传递文档的标识符。另外，在 `doc2vec()` 函数中，你在尝试将 `Doc2Vec` 模型返回的向量赋值给 `vector` 变量，但是该变量没有使用，这会导致不必要的计算和内存占用。你应该直接返回模型返回的向量。最后，在 `test_model()` 函数中，你在尝试打印向量的内存占用大小，但是你应该打印向量本身的大小，而不是指向向量的变量的大小。你可以使用 `np.ndarray.nbytes` 属性来获取向量的大小。下面是修改后的代码： ``` import sys import re import jieba import codecs import gensim import numpy as np import pandas as pd def segment(doc: str): stop_words = pd.read_csv('data/stopwords.txt', index_col=False, quoting=3, names=['stopword'], sep='\n', encoding='utf-8') stop_words = list(stop_words.stopword) reg_html = re.compile(r'<[^>]+>', re.S) # 去掉html标签数字等 doc = reg_html.sub('', doc) doc = re.sub('[０-９]', '', doc) doc = re.sub('\s', '', doc) word_list = list(jieba.cut(doc)) out_str = '' for word in word_list: if word not in stop_words: out_str += word out_str += ' ' segments = out_str.split(sep=' ') return segments def doc2vec(file_name, model, doc_id): start_alpha = 0.01 infer_epoch = 1000 doc = segment(codecs.open(file_name, 'r', 'utf-8').read()) return model.infer_vector(doc, alpha=start_alpha, steps=infer_epoch) # 计算两个向量余弦值 def similarity(a_vect, b_vect): dot_val = 0.0 a_norm = 0.0 b_norm = 0.0 cos = None for a, b in zip(a_vect, b_vect): dot_val += a * b a_norm += a ** 2 b_norm += b ** 2 if a_norm == 0.0 or b_norm == 0.0: cos = -1 else: cos = dot_val / ((a_norm * b_norm) ** 0.5) return cos def test_model(file1, file2): print('导入模型') model_path = 'tmp/zhwk_news.doc2vec' model = gensim.models.Doc2Vec.load(model_path) vect1 = doc2vec(file1, model, doc_id=0) # 转成句子向量 vect2 = doc2vec(file2, model, doc_id=1) print(vect1.nbytes) # 查看向量大小 print(vect2.nbytes) cos = similarity(vect1, vect2) print('相似度：%0.2f%%' % (cos * 100)) if __name__ == '__main__': file1 = 'data/corpus_test/t1.txt' file2 = 'data/corpus_test/t2.txt' test_model(file1, file2) ```

import pandas as pd import jieba.analyse from wordcloud import WordCloud import cv2中cv2是什么

根据提供的引用内容，import cv2是一个Python库，用于在计算机视觉中处理图像和视频。cv2是OpenCV库的Python接口，OpenCV是一个开源计算机视觉库，用于处理图像和视频。它可以用于许多任务，例如对象检测，人脸识别，图像处理等。在上述代码中，cv2库没有被使用到。代码示例： ```python import cv2 # 读取图像 img = cv2.imread('image.jpg') # 显示图像 cv2.imshow('image', img) # 等待按下任意按键后关闭窗口 cv2.waitKey(0) cv2.destroyAllWindows() ```

import pandas as pd import jieba.analyse from wordcloud import WordCloud import cv2中cv2是什么

相关推荐

python调试文件时发生import requests报错.doc

Python错题本：from scipy.misc import imread 报错cannot import name imread 的解决方案

fenci.rar_jieba_jieba 批量

import pandas as pd import jieba.analyse from wordcloud import WordCloud import cv2如何安装cv2

解释一下这串代码import requests import xlwt import re from wordcloud import WordCloud import jieba import matplotlib.pyplot as plt

import jieba,os,re ModuleNotFoundError: No module named 'jieba'

import jieba ImportError: No module named jieba

import jieba ModuleNotFoundError: No module named 'jieba'

import jieba.analyse AttributeError: module 'pkg_resources' has no attribute 'resource_stream'

请帮我解释这段代码import requests import xlwt import re from wordcloud import WordCloud import jieba import matplotlib.pyplot as plt

运行import jieba jieba.enable_paddle()报错UnboundLocalError: local variable 'paddle' referenced before assignment import logging

import jieba报错出现ModuleNotFoundError: No module named 'jieba'

import jieba modulenotfounderror: no module named 'jieba'

import os import re import jieba import csv

import jieba

jieba for Python.zip_jieba_python jieba

最新推荐

简易图片检索软件（图像动态显示软件）

树状数组详解资源.zip

哈尔滨工程大学单独考试2020考研专业课初试大纲.pdf

zigbee-cluster-library-specification

管理建模和仿真的文件

MATLAB结构体与对象编程：构建面向对象的应用程序，提升代码可维护性和可扩展性

详细描述一下STM32F103C8T6怎么与DHT11连接

JSBSim Reference Manual

"互动学习：行动中的多样性与论文攻读经历"

MATLAB结构体与数据库交互：无缝连接数据存储与处理，实现数据管理自动化