Python实现文本整句与分句热度统计：基于jieba分词的案例

154 浏览量更新于2024-08-28 收藏 88KB PDF 举报

文本相似性热度统计算法实现（一）-整句热度统计在这个教程中，作者针对软件开发中的需求，探讨了如何在Python环境下实现文本相似性热度统计，特别是关注整句和分句的热度统计。首先，场景描述部分列举了四个关键需求： 1. **分组不分句热度统计**：这是对数据集中的某一列进行分组，然后对描述类列的文本内容进行整体相似性分析，可能用于分析不同类别或群体间的描述特征。 2. **分组分句热度统计**：在此方法中，会根据同一列进行分组，并将描述列中的文本按照标点符号拆分成句子，然后对每个句子进行独立的热度统计，以便深入理解各组内部的语义结构。 3. **整句及分句热度统计**：此需求结合了前两者，既要处理整个句子，也要对分句进行热度计算，以便综合评估文本的总体和局部重要性。 4. **热词统计**：虽然提及热词统计对业务帮助不大，但提到已使用jieba分词库进行处理，这在其他需求中已包括，因此这部分内容将略过。解决方案的核心在于利用Python库如jieba、gensim等工具进行文本处理。具体步骤包括： - 使用`jieba.posseg`和`jieba.analyse`模块进行分词和关键词提取，停用词列表通过自定义函数`StopWordsList`获取。 - `str_to_hex`函数用于将字符串转换为十六进制表示，可能是为了适应特定的数据处理需求。 - `seg_sentence`函数接收句子和停用词列表，去除无意义的词并返回处理后的词序列。在代码示例部分，作者提供了一个完整的流程，涵盖了Excel数据的读取（`xlwt`和`openpyxl`）、分词处理、以及生成相似度模型（如LSI或TF-IDF模型，使用`gensim.corpora`和`models`模块）。结果处理包括写入Excel文件，并可能提供数据导航至明细。这个教程的重点在于实战应用，适合希望通过Python技术进行文本分析的开发者或数据分析师，通过实际代码学习如何处理文本相似性、分词和热度统计。

文本相似性热度统计算法实现（一）文本相似性热度统计算法实现（一）-整句热度统计整句热度统计

1. 场景描述场景描述

软件老王在上一节介绍到相似性热度统计的4个需求（文本相似性热度统计(python版)），根据需求要从不同维度进行统计：

（1）分组不分句热度统计（根据某列首先进行分组，然后再对描述类列进行相似性统计）；

（2）分组分句热度统计（根据某列首先进行分组，然后对描述类列按照标点符号进行拆分，然后再对这些句进行热度统计）;

（3）整句及分句热度统计；（对描述类列/按标点符号进行分句，进行热度统计）

（4）热词统计（对描述类类进行热词统计，反馈改方式做不不大）

2. 解决方案解决方案

热词统计统计对业务没啥帮助，软件老王就是用了jieba分词，已经包含在其他几个需求中了，不再介绍了，直接介绍整句及

分句热度统计，方案包含完整的excel读入，结果写入到excel及导航到明细等。

2.1 完整代码完整代码

完整代码，有需要的朋友可以直接拿走，不想看代码介绍的，可以直接拿走执行。

import jieba.posseg as pseg

import jieba.analyse

import xlwt

import openpyxl

from gensim import corpora, models, similarities

import re

#停词函数

def StopWordsList(filepath):

wlst = [w.strip() for w in open(filepath, 'r', encoding='utf8').readlines()] return wlst

def str_to_hex(s):

return ''.join([hex(ord(c)).replace('0x', '') for c in s])

# jieba分词

def seg_sentence(sentence, stop_words):

stop_flag = ['x', 'c', 'u', 'd', 'p', 't', 'uj', 'f', 'r'] sentence_seged = pseg.cut(sentence)

outstr = [] for word, flag in sentence_seged:

if word not in stop_words and flag not in stop_flag:

outstr.append(word)

return outstr

if __name__ == '__main__':

#1 这些是jieba分词的自定义词典，软件老王这里添加的格式行业术语，格式就是文档，一列一个词一行就行了，

# 这个几个词典软件老王就不上传了，可注释掉。

jieba.load_userdict("g1.txt")

jieba.load_userdict("g2.txt")

jieba.load_userdict("g3.txt")

#2 停用词，简单理解就是这次词不分割，这个软件老王找的网上通用的，会提交下。

spPath = 'stop.txt'

stop_words = StopWordsList(spPath)

#3 excel处理

wbk = xlwt.Workbook(encoding='ascii')

sheet = wbk.add_sheet("软件老王sheet") # sheet名称

sheet.write(0, 0, '表头-软件老王1')

sheet.write(0, 1, '表头-软件老王2')

sheet.write(0, 2, '导航-链接到明细sheet表')

wb = openpyxl.load_workbook('软件老王-source.xlsx')

ws = wb.active

col = ws['B'] # 4 相似性处理

rcount = 1

texts = [] orig_txt = [] key_list = [] name_list = [] sheet_list = []

for cell in col:

if cell.value is None:

continue

if not isinstance(cell.value, str):

continue

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38669674

粉丝: 11
资源: 931

Python实现文本整句与分句热度统计：基于jieba分词的案例

文本相似性热度统计(python版)

LDA和KNN相结合的帖子热度预测算法 (2014年)

今日头条推荐算法原理-头条资深算法架构师曹欢欢博士的分享

基于协同过滤算法的个性化电影推荐系统的实现.docx

研究论文-基于文化算法的 PCNN自动系统的研究

基于IPUA-SVD++和K-means的混合推荐算法探讨范文.docx

3-2+搜狗信息流推荐算法综述.pdf

一种基于密度峰值的新型半监督聚类算法

一种细粒度均衡的新型分布式文件放置算法.pdf

LDA-KNN结合的帖子热度预测算法：提升预测准确率

最新资源