用python实现基于SGNS构建词向量：SGNS方法中窗口K=2，子词向量维数自定，获得向量vec_sgns。之后基于该子词向量计算wordsim353_agreed.txt中同一行中两个词的余弦相似度sim_sgns。当wordsim353_agreed.txt中某一个词没有获得向量时(该词未出现在该语料中)，令其所在行的两个词之间的sim_sgns=0。

时间: 2023-11-22 22:53:39 浏览: 63

（python）使用余弦相似度算法计算两个文本的相似度的简单实现

5星 · 资源好评率100%

在Python编程环境中，余弦相似度算法是一种常用于计算文本相似度的方法，尤其适用于文档向量化处理后的场景。本文将详细介绍如何使用Python实现余弦相似度，并探讨其背后的概念、步骤以及具体源码分析。余弦相似度是通过计算两个非零向量之间的夹角余弦值来衡量它们之间的相似性。在文本处理中，每个文本可以被看作一个由词频构成的向量，而余弦相似度则衡量了这两个向量在多大程度上指向相同的方向。数值范围在-1到1之间，1表示完全相同，-1表示完全不同，0表示两者正交无相似性。我们需要将文本转换为可计算的向量形式。这通常涉及以下几个步骤： 1. **分词**：将文本拆分成单词或短语，这是预处理的第一步。 2. **创建词汇表**：收集所有文本中的独特词汇，构建词汇表。 3. **向量化**：使用词袋模型（Bag-of-Words, BoW）或TF-IDF（Term Frequency-Inverse Document Frequency）将文本转化为数值向量。BoW简单地统计每个单词出现的次数，而TF-IDF则考虑了单词在整个文档集合中的重要性。接下来，我们将展示如何使用Python实现这些步骤。假设我们有以下两个文本样本： ```python text1 = "Python 余弦相似度算法计算" text2 = "使用Python的余弦相似度分析文本" ``` 我们可以使用`nltk`库进行分词： ```python import nltk nltk.download('punkt') from nltk.tokenize import word_tokenize tokens1 = word_tokenize(text1) tokens2 = word_tokenize(text2) ``` 然后使用`sklearn`库的`CountVectorizer`或`TfidfVectorizer`进行向量化： ```python from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer # 使用词袋模型 vectorizer = CountVectorizer().fit([text1, text2]) bow1, bow2 = vectorizer.transform([text1, text2]) # 使用TF-IDF tfidf_vectorizer = TfidfVectorizer().fit([text1, text2]) tfidf1, tfidf2 = tfidf_vectorizer.transform([text1, text2]) ``` 我们使用`numpy`计算余弦相似度： ```python import numpy as np def cosine_similarity(vec1, vec2): dot_product = np.dot(vec1, vec2) norm_a = np.linalg.norm(vec1) norm_b = np.linalg.norm(vec2) return dot_product / (norm_a * norm_b) # 对BoW结果求余弦相似度 cos_sim_bow = cosine_similarity(bow1.toarray()[0], bow2.toarray()[0]) # 对TF-IDF结果求余弦相似度 cos_sim_tfidf = cosine_similarity(tfidf1.toarray()[0], tfidf2.toarray()[0]) ``` 以上代码展示了如何用Python实现余弦相似度算法的基本过程。在实际应用中，我们可能还需要处理停用词、词干提取等更复杂的文本预处理任务。在提供的`py3-cosine-similiarity-master`压缩包中，可能会包含一个完整的示例项目，包括了文本预处理、向量化和余弦相似度计算的完整流程。这个项目可以作为学习和实践的起点，帮助你深入理解和应用余弦相似度算法。通过不断优化和调整，你可以将这个算法应用于各种文本相似度比较的场景，如文档分类、推荐系统和搜索引擎等。

实现基于SGNS构建词向量的代码如下： ```python import numpy as np import pandas as pd from collections import Counter # 读取语料库 with open('corpus.txt', 'r', encoding='utf-8') as f: corpus = f.read().split() # 构建词典 vocab = set(corpus) word2idx = {word: idx for idx, word in enumerate(vocab)} idx2word = {idx: word for word, idx in word2idx.items()} vocab_size = len(vocab) # 计算单词出现次数 word_counts = Counter(corpus) # 构建共现矩阵 co_matrix = np.zeros((vocab_size, vocab_size)) window_size = 2 for idx, word in enumerate(corpus): for i in range(1, window_size+1): left_idx = idx - i right_idx = idx + i if left_idx >= 0: left_word = corpus[left_idx] co_matrix[word2idx[word], word2idx[left_word]] += 1 if right_idx < len(corpus): right_word = corpus[right_idx] co_matrix[word2idx[word], word2idx[right_word]] += 1 # 构建SGNS模型 embedding_size = 100 np.random.seed(123) W = np.random.randn(vocab_size, embedding_size) / np.sqrt(embedding_size) W_tilde = np.random.randn(vocab_size, embedding_size) / np.sqrt(embedding_size) learning_rate = 0.1 epochs = 100 batch_size = 256 for epoch in range(epochs): np.random.shuffle(corpus) losses = [] for idx in range(0, len(corpus), batch_size): batch = corpus[idx:idx+batch_size] x = np.array([word2idx[word] for word in batch]) y = x.copy() noise = np.random.choice(vocab_size, size=(len(batch), 5)) for i, noise_words in enumerate(noise): while y[i] in noise_words: noise_words = np.random.choice(vocab_size, size=5) y[i] = noise_words[np.argmax([np.dot(W_tilde[noise_word], W[x[i]]) for noise_word in noise_words])] x_vectors = W[x] y_vectors = W_tilde[y] z = np.dot(x_vectors, y_vectors.T) probs = 1 / (1 + np.exp(-z)) error = probs - 1 dW = np.dot(error.T, y_vectors) dW_tilde = np.dot(error, x_vectors) W[x] -= learning_rate * dW W_tilde[y] -= learning_rate * dW_tilde losses.append(np.sum(-np.log(probs))) print('Epoch: %d, Loss: %.4f' % (epoch+1, np.mean(losses))) # 获得词向量 vec_sgns = W + W_tilde ``` 接下来，计算wordsim353_agreed.txt中同一行中两个词的余弦相似度sim_sgns的代码如下： ```python # 读取wordsim353_agreed.txt word_pairs = [] with open('wordsim353_agreed.txt', 'r') as f: for line in f: w1, w2, score = line.strip().split('\t') word_pairs.append((w1, w2, float(score))) # 计算余弦相似度 sim_sgns = [] for w1, w2, score in word_pairs: if w1 not in word2idx or w2 not in word2idx: sim_sgns.append(0) else: vec1 = vec_sgns[word2idx[w1]] vec2 = vec_sgns[word2idx[w2]] sim_sgns.append(np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2)))) ``` 最后sim_sgns中存储的就是wordsim353_agreed.txt中同一行中两个词的余弦相似度。如果某一个词没有获得向量，则令其所在行的两个词之间的sim_sgns为0。

阅读全文

相关推荐

基于词向量的词语相似度计算

利用python实现词向量训练-----附件资源

nlp作业分别基于SVD分解以及基于SGNS两种方法构建汉语子词向量并进行评测python源码.zip

word2vec_词向量_

word2vec学习，利用python中gensim等构建中文词向量并测试.zip

python gensim使用word2vec词向量处理中文语料的方法

Python实现word2vec词向量模型训练指南

Python实践：构建Wiki中文语料的Word2vec词向量模型

python实现word2vec词向量转化

python实现word2vec训练词向量

python使用word2vec词向量表示

最新推荐

python gensim使用word2vec词向量处理中文语料的方法

在python下实现word2vec词向量训练与加载实例

Python实现word2Vec model过程解析

C++ 中boost::share_ptr智能指针的使用方法

python入门-30.寻找列表中只出现一次的数字-寻找单身狗.py

火炬连体网络在MNIST的2D嵌入实现示例

管理建模和仿真的文件

L2正则化的终极指南：从入门到精通，揭秘机器学习中的性能优化技巧

如何构建一个符合GB/T19716和ISO/IEC13335标准的信息安全事件管理框架，并确保业务连续性规划的有效性？

Angular插件增强Application Insights JavaScript SDK功能