Python实现简单的文本相似度分析操作详解_tfidf - CSDN文库

184 浏览量更新于2023-05-04 评论 3 收藏 70KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源评论

资源推荐

Python实现简单的文本相似度分析操作详解实现简单的文本相似度分析操作详解

本文实例讲述了Python实现简单的文本相似度分析操作。分享给大家供大家参考，具体如下：

学习目标：学习目标：

1.利用gensim包分析文档相似度

2.使用jieba进行中文分词

3.了解TF-IDF模型

环境：环境：

Python 3.6.0 |Anaconda 4.3.1 (64-bit)

工具：工具：

jupyter notebook

注：为了简化问题，本文没有剔除停用词注：为了简化问题，本文没有剔除停用词“stop-word”。实际应用中应该要剔除停用词。。实际应用中应该要剔除停用词。

首先引入分词API库jieba、文本相似度库gensim

import jieba

from gensim import corpora,models,similarities

以下doc0-doc7是几个最简单的文档，我们可以称之为目标文档，本文就是分析doc_test（测试文档）与以上8个文档的相似

度。

doc0 = “我不喜欢上海”

doc1 = “上海是一个好地方”

doc2 = “北京是一个好地方”

doc3 = “上海好吃的在哪里”

doc4 = “上海好玩的在哪里”

doc5 = “上海是好地方”

doc6 = “上海路和上海人”

doc7 = “喜欢小吃”

doc_test=”我喜欢上海的小吃”

分词分词

首先，为了简化操作，把目标文档放到一个列表all_doc中。

all_doc = [] all_doc.append(doc0)

all_doc.append(doc1)

all_doc.append(doc2)

all_doc.append(doc3)

all_doc.append(doc4)

all_doc.append(doc5)

all_doc.append(doc6)

all_doc.append(doc7)

以下对目标文档进行分词，并且保存在列表all_doc_list中

all_doc_list = [] for doc in all_doc:

doc_list = [word for word in jieba.cut(doc)] all_doc_list.append(doc_list)

把分词后形成的列表显示出来：

print(all_doc_list)

[[‘我’, ‘不’, ‘喜欢’, ‘上海’],

[‘上海’, ‘是’, ‘一个’, ‘好’, ‘地方’],

[‘北京’, ‘是’, ‘一个’, ‘好’, ‘地方’],

[‘上海’, ‘好吃’, ‘的’, ‘在’, ‘哪里’],

[‘上海’, ‘好玩’, ‘的’, ‘在’, ‘哪里’],

[‘上海’, ‘是’, ‘好’, ‘地方’],

[‘上海’, ‘路’, ‘和’, ‘上海’, ‘人’],

[‘喜欢’, ‘小吃’]]

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余2页未读，立即下载

评论0

weixin_38583286

粉丝: 2
资源: 936

会员权益专享

图片转文字

全年可省5，000元立即开通

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈