import os import jieba import gensim from langconv import Converter from gensim.corpora import WikiCorpus # 定义LabeledLineSentence类 class LabeledLineSentence(object): def init(self, wkc): self.wkc = wkc self.wkc.metadata = True def iter(self): for content, (page_id, title) in self.wkc.get_texts(): yield gensim.models.doc2vec.TaggedDocument( words=[w for c in content for w in jieba.cut( Converter('zh-hans').convert(c))], tags=[title]) # 代码7-5 def train(): zh_name = 'data/zh-latest-pages-articles.xml.bz2' wkc = WikiCorpus(zh_name, lemmatize=False, dictionary={}) documents = LabeledLineSentence(wkc) model = gensim.models.Doc2Vec(documents, dm=0, dbow_words=1, size=192, window=8, min_count=19, iter=5, workers=8) # 使用Doc2Vec训练段落向量 model.save('tmp/zhwk_news.doc2vec') if name == 'main': if os.path.exists('tmp/zhwk_news.doc2vec') == False: print('开始训练模型') train() print('模型训练完毕') # 代码7-6 model = gensim.models.Doc2Vec.load('tmp/zhwk_news.doc2vec') print(model.dv.similarity('番茄', '西红柿')) # 相似度为0.55 print(model.dv.similarity('货车', '卡车')) # 相似度为0.78

时间: 2024-02-14 16:19:26 浏览: 258

这段代码使用了gensim库中的Doc2Vec模型来训练中文文本，训练时使用了中文维基百科的语料库，使用了jieba分词和langconv进行繁简体转换。训练完成后，保存在本地，并使用gensim中的Doc2Vec.load方法进行加载。最后，通过model.dv.similarity方法计算两个词的相似度，其中'番茄'和'西红柿'的相似度是0.55，'货车'和'卡车'的相似度是0.78。

Add comments to my code below and return，import pandas as pd import jieba from gensim import corpora, models, similarities # 读取Excel表格数据 df = pd.read_excel(r'D:\pycharm_project\excel_column_similar\cosmic核减率分析\excel_test_clean.xlsx') # 使用jieba进行分词，并去除停用词 stop_words = {'的', '了', '是', '我', '你', '他', '她', '(', ')'} texts = [] for text in df['子过程描述']: words = [word for word in jieba.cut(text) if word not in stop_words] texts.append(words) print(texts) # 构建词典和文档向量 dictionary = corpora.Dictionary(texts) corpus = [dictionary.doc2bow(text) for text in texts] print(corpus) # 计算TF-IDF特征向量 tfidf = models.TfidfModel(corpus) corpus_tfidf = tfidf[corpus] print(tfidf) print(corpus_tfidf) # 计算相似度 index = similarities.MatrixSimilarity(corpus_tfidf) similarity_matrix = index[corpus_tfidf] print(index) print(similarity_matrix.shape) # 标注相似度大于0.75的单元格 for i in range(similarity_matrix.shape[0]): for j in range(i + 1, similarity_matrix.shape[1]): if similarity_matrix[i, j] > 0.75: df.at[i, '子过程描述'] = str(df.at[i, '子过程描述']) + ' (' + str(round(similarity_matrix[i, j], 2)) + ')' df.at[j, '子过程描述'] = str(df.at[j, '子过程描述']) + ' (' + str(round(similarity_matrix[i, j], 2)) + ')' # 保存结果到Excel表格 df.to_excel(r'example_similarity.xlsx', index=False)

下面是代码的注释： ```python import pandas as pd import jieba from gensim import corpora, models, similarities # 读取Excel表格数据 df = pd.read_excel(r'D:\pycharm_project\excel_column_similar\cosmic核减率分析\excel_test_clean.xlsx') # 使用jieba进行分词，并去除停用词 stop_words = {'的', '了', '是', '我', '你', '他', '她', '(', ')'} texts = [] for text in df['子过程描述']: words = [word for word in jieba.cut(text) if word not in stop_words] texts.append(words) print(texts) # 构建词典和文档向量 dictionary = corpora.Dictionary(texts) corpus = [dictionary.doc2bow(text) for text in texts] print(corpus) # 计算TF-IDF特征向量 tfidf = models.TfidfModel(corpus) corpus_tfidf = tfidf[corpus] print(tfidf) print(corpus_tfidf) # 计算相似度 index = similarities.MatrixSimilarity(corpus_tfidf) similarity_matrix = index[corpus_tfidf] print(index) print(similarity_matrix.shape) # 标注相似度大于0.75的单元格 for i in range(similarity_matrix.shape[0]): for j in range(i + 1, similarity_matrix.shape[1]): if similarity_matrix[i, j] > 0.75: df.at[i, '子过程描述'] = str(df.at[i, '子过程描述']) + ' (' + str(round(similarity_matrix[i, j], 2)) + ')' df.at[j, '子过程描述'] = str(df.at[j, '子过程描述']) + ' (' + str(round(similarity_matrix[i, j], 2)) + ')' # 保存结果到Excel表格 df.to_excel(r'example_similarity.xlsx', index=False) ``` 注释中解释了每个步骤的作用： 1. 读取Excel表格数据，保存到dataframe对象df中。 2. 使用jieba对子过程描述列进行分词，并去除停用词。 3. 使用gensim中的Dictionary类构建词典，并将分词后的文本转换为文档向量。 4. 使用TF-IDF模型计算词语的权重，并得到TF-IDF特征向量。 5. 使用MatrixSimilarity计算文本之间的相似度，并保存到相似度矩阵中。 6. 遍历相似度矩阵，将相似度大于0.75的单元格标注出来。 7. 将结果保存到新的Excel表格中。

给我下面的代码写上注释，并解释他计算相似的原理import pandas as pd import jieba from gensim import corpora, models, similarities # 读取Excel表格数据 df = pd.read_excel(r'D:\pycharm_project\excel_column_similar\cosmic核减率分析\excel_test_clean.xlsx') # 使用jieba进行分词，并去除停用词 stop_words = {'的', '了', '是', '我', '你', '他', '她', '(', ')'} texts = [] for text in df['子过程描述']: words = [word for word in jieba.cut(text) if word not in stop_words] texts.append(words) print(texts) # 构建词典和文档向量 dictionary = corpora.Dictionary(texts) corpus = [dictionary.doc2bow(text) for text in texts] print(corpus) # 计算TF-IDF特征向量 tfidf = models.TfidfModel(corpus) corpus_tfidf = tfidf[corpus] print(tfidf) print(corpus_tfidf) # 计算相似度 index = similarities.MatrixSimilarity(corpus_tfidf) similarity_matrix = index[corpus_tfidf] print(index) print(similarity_matrix.shape) # 标注相似度大于0.75的单元格 for i in range(similarity_matrix.shape[0]): for j in range(i + 1, similarity_matrix.shape[1]): if similarity_matrix[i, j] > 0.75: df.at[i, '子过程描述'] = str(df.at[i, '子过程描述']) + ' (' + str(round(similarity_matrix[i, j], 2)) + ')' df.at[j, '子过程描述'] = str(df.at[j, '子过程描述']) + ' (' + str(round(similarity_matrix[i, j], 2)) + ')' # 保存结果到Excel表格 df.to_excel(r'example_similarity.xlsx', index=False)

这段代码的作用是计算Excel表格中子过程描述列的相似度，并将相似度大于0.75的单元格标注出来，最终将结果保存到另一个Excel表格中。具体实现的步骤如下： 1. 导入需要用到的库：pandas用于数据读取和处理，jieba用于中文分词，gensim用于文本相似度计算。 2. 使用pandas读取Excel表格中的数据，保存到dataframe对象df中。 3. 使用jieba对子过程描述列进行分词，并去除停用词。 4. 使用gensim中的Dictionary类构建词典，并将分词后的文本转换为文档向量。 5. 使用TF-IDF模型计算词语的权重，并得到TF-IDF特征向量。 6. 使用MatrixSimilarity计算文本之间的相似度，并保存到相似度矩阵中。 7. 遍历相似度矩阵，将相似度大于0.75的单元格标注出来。 8. 将结果保存到新的Excel表格中。

阅读全文

相关推荐

Python人工智能之路 jieba gensim 最好别分家之最简单的相似度实现.pdf

Python使用gensim计算文档相似性

gensim包的tfidf方法计算中文文本相似度

NLP与图像处理实战：Jieba与Gensim应用指南

Python人工智能：jieba与gensim实现简单语义相似度

TextBlob与NLTK, spaCy, gensim：Python NLP库大比拼

【Gensim最新动态】：掌握Gensim最新更新与最佳实践

【Gensim分布式计算】：掌握Gensim的高级特性，开启NLP新世界

【Gensim自定义算法】：如何定制Gensim满足特定需求

【Gensim实战】：用Python库打造文本分类系统的不传之秘

【文本预处理必备】：避免这些Gensim陷阱，提升NLP效果

【Gensim数据清洗】：文本预处理的完整步骤与特征提取技巧

python利用jieba,gensim实现两篇文档相似度分析

用Python(jieba、gensim、TF-IDF模型)比较两篇文本相似度

用Python(jieba、gensim、TF-IDF模型)比较两篇文本相似度,该两篇文档用链接表示

用python代码实现中文文本分类， 先用jieba分词， 然后用gensim

gensim 相似度

jsp物流信息网建设(源代码+论文)(2024vl).7z

最新推荐

jsp物流信息网建设(源代码+论文)(2024vl).7z

中小学教师教育教学情况调查表（学生家长用）.docx

JavaScript实现的高效pomodoro时钟教程

管理建模和仿真的文件

【WebLogic客户端兼容性提升秘籍】：一站式解决方案与实战案例

使用jupyter读取文件“近5年考试人数.csv”，绘制近5年高考及考研人数发展趋势图，数据如下（单位：万人）。

CMake 3.25.3版本发布：程序员必备构建工具

"互动学习：行动中的多样性与论文攻读经历"

数字信号处理全攻略：掌握15个关键技巧，提升你的处理效率

给定不超过6的正整数A，考虑从A开始的连续4个数字。请输出所有由它们组成的无重复数字的3位数。编写一个C语言程序

用python代码实现中文文本分类，先用jieba分词，然后用gensim