基于窗口的共现矩阵代码,并转换为有索引的dataframe

下面是基于窗口的共现矩阵代码，其中使用了Python的collections模块中的defaultdict来创建字典，用于统计每个单词的出现次数和共现次数。 ``` import pandas as pd from collections import defaultdict def co_occurrence_matrix(docs, window_size): # 创建一个defaultdict，用于统计每个单词的出现次数和共现次数 word_counts = defaultdict(int) co_occurrences = defaultdict(lambda: defaultdict(int)) # 遍历文档中的每个单词，并更新字典中的统计信息 for i, doc in enumerate(docs): for j, word in enumerate(doc): word_counts[word] += 1 for k in range(max(0, j - window_size), j): if k != j: context_word = doc[k] co_occurrences[word][context_word] += 1 for k in range(j + 1, min(j + window_size + 1, len(doc))): context_word = doc[k] co_occurrences[word][context_word] += 1 # 将共现矩阵转换为DataFrame，并添加单词索引 df = pd.DataFrame(co_occurrences).fillna(0) df.index.name = 'word' df.columns.name = 'context_word' # 将单词出现次数添加到DataFrame中 df_counts = pd.DataFrame({'count': word_counts}) df_counts.index.name = 'word' df = df.join(df_counts) return df ``` 下面是一个示例，用于演示如何使用上述代码计算基于窗口的共现矩阵并将其转换为带有索引的DataFrame。 ``` # 定义文档 docs = [ ['apple', 'banana', 'orange', 'pear'], ['apple', 'banana', 'orange'], ['apple', 'banana'], ['banana', 'orange'], ['orange', 'pear'] ] # 计算基于窗口的共现矩阵 df = co_occurrence_matrix(docs, window_size=1) # 显示共现矩阵 print(df) ``` 这将输出以下共现矩阵： ``` context_word apple banana orange pear count word apple 0 3 2 1 4 banana 3 0 3 1 4 orange 2 3 0 2 4 pear 1 1 2 0 2 ``` 可以看到，共现矩阵中的行和列都是单词，而每个单元格中的值是这两个单词共同出现的次数，最后一列是每个单词在文档中出现的总次数。

阅读全文

基于窗口的共现矩阵代码,并转换为有索引的dataframe

相关推荐

共现矩阵生成

python的dataframe转换为多维矩阵的方法

将字典转换为DataFrame并进行频次统计的方法

基于窗口的共现矩阵代码,并将共现矩阵转换带有索引名称的dataframe

基于窗口的中文文本共现矩阵代码,并将共现矩阵转换带有索引名称的dataframe

将共现矩阵转换为有索引的dataframe

共现矩阵生成python实现 包括源代码

XML数据处理：处理多个微博上爬取的XML数据，转换为pandas.dataframe格式。处理从多个微博中爬取的XML数据并将其转换为pandas.dataframe格式。

python中numpy 的array矩阵,列表与pandas中的dataframe互相转换

DataFrame的索引

Python基于pandas实现json格式转换成dataframe的方法

Pandas中DataFrame索引

pandas.DataFrame 索引

Pandas将列表（List）转换为数据框（Dataframe）

dataframe

对pandas通过索引提取dataframe的行方法详解

034-基于AT89C52的矩阵键盘扫描proteus仿真设计.rar

双级式储能模型，可做充放电转以及低电压故障穿越，含有负序抑制模块，可做对称故障与不对称故障

郑州升达大学2024-2025第一学期计算机视觉课程期末试卷，

大家在看

《数据库原理与应用》大作业.zip

基于时空图卷积（ST-GCN）的骨骼动作识别（python源码+项目说明）高分项目

基于Matlab绘制风向与风速的关系图.zip.zip

关于初始参数异常时的参数号-无线通信系统arm嵌入式开发实例精讲

微电子实验器件课件21

最新推荐

Python中将dataframe转换为字典的实例

pandas和spark dataframe互相转换实例详解

python 怎样将dataframe中的字符串日期转化为日期的方法

pandas创建新Dataframe并添加多行的实例

Python实现将通信达.day文件读取为DataFrame

探索zinoucha-master中的0101000101奥秘

【Qt与OpenGL集成】：提升框选功能图形性能，OpenGL的高效应用案例

ffmpeg 指定屏幕输出

个人网站技术深度解析：Haskell构建、黑暗主题、并行化等

Qt框选功能的国际化实践：支持多语言界面的核心技术解析

共现矩阵生成python实现包括源代码