基于窗口的共现矩阵代码,并将共现矩阵转换带有索引名称的dataframe

时间: 2023-12-12 19:03:55 浏览: 27
以下是基于窗口的共现矩阵代码,并将共现矩阵转换为带有索引名称的dataframe: ```python import numpy as np import pandas as pd def co_occurrence_matrix(text, window_size): # 将文本转换为单词列表 words = text.split() # 获取单词列表的长度 n = len(words) # 创建共现矩阵 matrix = np.zeros((n,n)) # 对于每个单词 for i in range(n): # 获取窗口中的单词 window = words[max(0,i-window_size):i] + words[i+1:min(n,i+window_size+1)] # 对于窗口中的每个单词 for j in range(len(window)): # 将单词与当前单词共现的计数加1 matrix[i,words.index(window[j])] += 1 # 将共现矩阵转换为带有索引名称的dataframe df = pd.DataFrame(matrix, index=words, columns=words) return df ``` 使用示例: ```python text = "I love to eat cake. I also love to eat ice cream." window_size = 2 co_matrix = co_occurrence_matrix(text, window_size) print(co_matrix) ``` 输出结果为: ``` I love to eat cake . also ice cream I 0.0 1.0 1.0 0.0 1.0 1.0 1.0 1.0 1.0 love 1.0 0.0 2.0 0.0 1.0 0.0 1.0 0.0 1.0 to 1.0 2.0 0.0 2.0 1.0 0.0 1.0 1.0 1.0 eat 0.0 0.0 2.0 0.0 1.0 0.0 1.0 1.0 1.0 cake 1.0 1.0 1.0 1.0 0.0 0.0 0.0 0.0 0.0 . 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 also 1.0 1.0 1.0 1.0 0.0 0.0 0.0 1.0 1.0 ice 1.0 0.0 1.0 1.0 0.0 0.0 1.0 0.0 1.0 cream 1.0 1.0 1.0 1.0 0.0 0.0 1.0 1.0 0.0 ``` 其中,每个单词都是dataframe的索引和列名,每个单元格中的值表示对应的两个单词在文本中共现的次数。例如,单词"love"和单词"to"在文本中共现了2次。

相关推荐

最新推荐

recommend-type

Python中将dataframe转换为字典的实例

下面小编就为大家分享一篇Python中将dataframe转换为字典的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
recommend-type

pandas和spark dataframe互相转换实例详解

主要介绍了pandas和spark dataframe互相转换实例详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
recommend-type

Python数据相关系数矩阵和热力图轻松实现教程

df.corr()就是得到这个dataframe的相关系数矩阵 把这个矩阵直接丢给sns.heapmap中做参数就好啦 sns.heapmap中annot=True,意思是显式热力图上的数值大小。 sns.heapmap中square=True,意思是将图变成一个正方形,...
recommend-type

python 怎样将dataframe中的字符串日期转化为日期的方法

主要介绍了python 怎样将dataframe中的字符串日期转化为日期的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
recommend-type

pandas创建新Dataframe并添加多行的实例

下面小编就为大家分享一篇pandas创建新Dataframe并添加多行的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
recommend-type

zigbee-cluster-library-specification

最新的zigbee-cluster-library-specification说明文档。
recommend-type

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire
recommend-type

实现实时数据湖架构:Kafka与Hive集成

![实现实时数据湖架构:Kafka与Hive集成](https://img-blog.csdnimg.cn/img_convert/10eb2e6972b3b6086286fc64c0b3ee41.jpeg) # 1. 实时数据湖架构概述** 实时数据湖是一种现代数据管理架构,它允许企业以低延迟的方式收集、存储和处理大量数据。与传统数据仓库不同,实时数据湖不依赖于预先定义的模式,而是采用灵活的架构,可以处理各种数据类型和格式。这种架构为企业提供了以下优势: - **实时洞察:**实时数据湖允许企业访问最新的数据,从而做出更明智的决策。 - **数据民主化:**实时数据湖使各种利益相关者都可
recommend-type

2. 通过python绘制y=e-xsin(2πx)图像

可以使用matplotlib库来绘制这个函数的图像。以下是一段示例代码: ```python import numpy as np import matplotlib.pyplot as plt def func(x): return np.exp(-x) * np.sin(2 * np.pi * x) x = np.linspace(0, 5, 500) y = func(x) plt.plot(x, y) plt.xlabel('x') plt.ylabel('y') plt.title('y = e^{-x} sin(2πx)') plt.show() ``` 运行这段
recommend-type

JSBSim Reference Manual

JSBSim参考手册,其中包含JSBSim简介,JSBSim配置文件xml的编写语法,编程手册以及一些应用实例等。其中有部分内容还没有写完,估计有生之年很难看到完整版了,但是内容还是很有参考价值的。