Python实现简单的文本相似度分析操作详解实现简单的文本相似度分析操作详解
本文实例讲述了Python实现简单的文本相似度分析操作。分享给大家供大家参考,具体如下:
学习目标:学习目标:
1.利用gensim包分析文档相似度
2.使用jieba进行中文分词
3.了解TF-IDF模型
环境:环境:
Python 3.6.0 |Anaconda 4.3.1 (64-bit)
工具:工具:
jupyter notebook
注:为了简化问题,本文没有剔除停用词注:为了简化问题,本文没有剔除停用词“stop-word”。实际应用中应该要剔除停用词。。实际应用中应该要剔除停用词。
首先引入分词API库jieba、文本相似度库gensim
import jieba
from gensim import corpora,models,similarities
以下doc0-doc7是几个最简单的文档,我们可以称之为目标文档,本文就是分析doc_test(测试文档)与以上8个文档的相似
度。
doc0 = “我不喜欢上海”
doc1 = “上海是一个好地方”
doc2 = “北京是一个好地方”
doc3 = “上海好吃的在哪里”
doc4 = “上海好玩的在哪里”
doc5 = “上海是好地方”
doc6 = “上海路和上海人”
doc7 = “喜欢小吃”
doc_test=”我喜欢上海的小吃”
分词分词
首先,为了简化操作,把目标文档放到一个列表all_doc中。
all_doc = [] all_doc.append(doc0)
all_doc.append(doc1)
all_doc.append(doc2)
all_doc.append(doc3)
all_doc.append(doc4)
all_doc.append(doc5)
all_doc.append(doc6)
all_doc.append(doc7)
以下对目标文档进行分词,并且保存在列表all_doc_list中
all_doc_list = [] for doc in all_doc:
doc_list = [word for word in jieba.cut(doc)] all_doc_list.append(doc_list)
把分词后形成的列表显示出来:
print(all_doc_list)
[[‘我’, ‘不’, ‘喜欢’, ‘上海’],
[‘上海’, ‘是’, ‘一个’, ‘好’, ‘地方’],
[‘北京’, ‘是’, ‘一个’, ‘好’, ‘地方’],
[‘上海’, ‘好吃’, ‘的’, ‘在’, ‘哪里’],
[‘上海’, ‘好玩’, ‘的’, ‘在’, ‘哪里’],
[‘上海’, ‘是’, ‘好’, ‘地方’],
[‘上海’, ‘路’, ‘和’, ‘上海’, ‘人’],
[‘喜欢’, ‘小吃’]]
评论0