从xlsx文件里读取一列评论，通过jieba库分词，一个字的不要，统计结果

以下是一个Python程序，可以读取xlsx文件中的某一列评论，使用jieba库进行分词，过滤掉一个字的词语，并统计词频： ```python import openpyxl import jieba # 打开xlsx文件 wb = openpyxl.load_workbook('comments.xlsx') # 选择第一个工作表 ws = wb.worksheets[0] # 读取第一列评论 comments = [cell.value for cell in ws['A']] # 分词并统计词频 word_count = {} for comment in comments: words = jieba.cut(comment) for word in words: if len(word) > 1: word_count[word] = word_count.get(word, 0) + 1 # 输出词频统计结果 for word, count in word_count.items(): print(word, count) ``` 这个程序首先使用openpyxl库读取xlsx文件中的第一列评论，然后使用jieba库进行分词。在分词的过程中，我们过滤掉了长度为1的词语。最后，我们使用一个字典来统计每个词语出现的次数，并输出结果。

从xlsx文件里读取一列评论，通过jieba库分词，一个字的不要，统计结果，按从大到小输出

以下是一个Python代码示例，实现了从xlsx文件中读取一列评论，使用jieba库进行分词，并统计分词结果，最终按照词频从大到小进行输出。 ```python import jieba import openpyxl from collections import Counter # 打开xlsx文件 wb = openpyxl.load_workbook('comments.xlsx') ws = wb.active # 读取评论列，并进行分词 comments = [] for cell in ws['A']: if isinstance(cell.value, str): seg_list = jieba.cut(cell.value) for seg in seg_list: if len(seg) > 1: comments.append(seg) # 统计分词结果，按照词频从大到小排序 counter = Counter(comments) result = counter.most_common() # 输出结果 for word, freq in result: print(f'{word}: {freq}') ``` 在上述代码中，首先使用openpyxl库打开xlsx文件，并读取评论列。然后使用jieba库对每个评论进行分词，并将分词结果添加到comments列表中。接着使用collections库中的Counter类对comments列表进行统计，得到每个词出现的频率，最终使用most_common()方法按照词频从大到小排序。最后，使用for循环输出结果。

python+excel+jieba分析一个具有多个列的文件，读取.xlsx文件，可以选择对文件内任意一列或多列的单元格内字符串相似度，并且输出相似度多少，对相似度大于0.75的新增一列进行标记，并输出成一个新的文件，用面向对象的方法来写

好的，我来根据你的要求给你提供一个面向对象的解决方案。首先，我们需要安装两个库：`openpyxl`和`jieba`，你可以使用以下命令安装： ``` pip install openpyxl jieba ``` 然后，我们需要创建一个`ExcelAnalyzer`类来处理Excel文件： ```python import openpyxl import jieba class ExcelAnalyzer: def __init__(self, filename): self.filename = filename self.wb = openpyxl.load_workbook(filename) self.sheets = self.wb.sheetnames self.results = [] def analyze(self, sheet_name, col_names, threshold): sheet = self.wb[sheet_name] rows = sheet.iter_rows(min_row=2, values_only=True) for row in rows: values = [] for col_name in col_names: cell = sheet[col_name + str(row[0])] values.append(cell.value) sim = self._calculate_sim(*values) if sim >= threshold: self.results.append((sheet_name, row[0], sim)) return self.results def _calculate_sim(self, *values): words = [jieba.lcut(str(value)) for value in values] all_words = set([word for words in words for word in words]) vecs = [] for word in all_words: vec = [] for words in words: vec.append(words.count(word)) vecs.append(vec) sim = self._cosine_similarity(vecs[0], vecs[1]) return sim def _cosine_similarity(self, vec1, vec2): numerator = sum([vec1[i] * vec2[i] for i in range(len(vec1))]) denominator = self._magnitude(vec1) * self._magnitude(vec2) if denominator == 0: return 0 else: return numerator / denominator def _magnitude(self, vec): return (sum([x**2 for x in vec]))**0.5 def mark_similar(self, threshold, output_filename): for sheet_name, row_num, sim in self.results: sheet = self.wb[sheet_name] cell = sheet.cell(row=row_num, column=len(col_names)+1) if sim >= threshold: cell.value = "similar" self.wb.save(output_filename) ``` 这个类有四个方法： - `__init__`方法用于初始化Excel文件的基本信息。 - `analyze`方法用于分析指定表单的多个列，计算相似度，并返回大于阈值的结果。 - `_calculate_sim`方法用于计算两个字符串列表的相似度。 - `mark_similar`方法用于对大于阈值的结果进行标记，并输出到新的Excel文件中。我们使用了`jieba`库来对文本进行分词，使用了余弦相似度来计算相似度。接下来，我们可以使用这个类来分析Excel文件并输出结果： ```python analyzer = ExcelAnalyzer("input.xlsx") results = analyzer.analyze("Sheet1", ["A", "B"], 0.75) print(results) analyzer.mark_similar(0.75, "output.xlsx") ``` 这个代码会输出大于阈值的结果，并把大于阈值的结果在原始Excel文件中标记出来，并输出到`output.xlsx`文件中。希望这个代码对你有所帮助！

阅读全文

从xlsx文件里读取一列评论，通过jieba库分词，一个字的不要，统计结果

从xlsx文件里读取一列评论，通过jieba库分词，一个字的不要，统计结果，按从大到小输出

相关推荐

一、车次上车人数统计表.xlsx

一个简单的基于Android读取xls和xlsx文件的例子

QtXlsx第三方库操作Excel文件-对excel文件进行读取，修改，刷新，删除等操作

怎么在pandas里对excel表格里某一列的数据进行jieba分词

使用jieba分词，excel表格里某一列的数据要进行分词统计，制作词频前30位的词云图

运用jieba对excel中某一列进行分词完再进行词频统计最后把结果放入excel

jieba分词excel

用Python读取Excel文件的某一列，并对这一列中按照/符号分词，然后制作词云

用python中面向对象思想，读取excel数据，对第一列的合并单元格涵盖的所有行中，对列名为“子过程描述”的列进行jieba分词，然后分析所在列下各个行之间的相关性

python 读取excel某一列并进行分词

python用jieba对数据表的一列评价数据进行分词

如何将excel中的文本导入jieba进行分词，并且分词导回excel？

如何使用jieba分词对excel进行分词，并将分词结果添加到对应的excel中

如何将excel中的文本导入jieba进行分词？

我有一个已经分词并且去除了停用词的中文txt文件。我想根据手头的现有的大连理工大学情感词汇本体库.xlsx，基于它其中的一列负向词，将txt文件中所有的负向文本筛出来成为一个新的文件，代码上如何实现？

导入excel的jieba分词

我想对一个xlsx文件中某一列中文文本进行文本情感极性分析筛选出其中的负向文本，该列文本中包含浮点型数据，并将分析结果输出保留到Excel文件中。调用Python如何进行？请给出完整代码

大家在看

GL3231S USB4.0读卡器Layout和原理图及相关的FW

keb变频器 f5中文说明书-维修安装调试

IPC-7351 使用说明

实验二DML语言一（数据插入、修改和删除.doc

ZYNQ_7020核心板原理图.pdf

最新推荐

Simulink仿真：基于扰动观察法的光伏MPPT改进算法 参考文献：基于扰动观察法的光伏MPPT改进算法+录制视频讲解 仿真平台：MATLAB Simulink 关键词：光伏；MPPT；扰动观察法

免安装JDK 1.8.0_241：即刻配置环境运行

管理建模和仿真的文件

【提升效率与稳定性】：深入掌握单相整流器的控制策略

你看这是ashx映射的cs文件初始代码,你看这里边根本就没有写对action参数进行任何操作但你.ashx?action=submit这样去做他就能返回出数据这是为什么

机器学习预测葡萄酒评分：二值化品尝笔记的应用

"互动学习：行动中的多样性与论文攻读经历"

【单相整流器终极指南】：电气工程师的20年实用技巧大揭秘

OxyPlot CategoryAxis

STM32-F0/F1/F2电子库函数UCOS开发指南

Simulink仿真：基于扰动观察法的光伏MPPT改进算法参考文献：基于扰动观察法的光伏MPPT改进算法+录制视频讲解仿真平台：MATLAB Simulink 关键词：光伏；MPPT；扰动观察法