University_array = [] for i in data['University_list']: University_array.append(i) #print(University_array) #初始化共现矩阵 def build_matrix(nodes):#nodes节点列表 edge = len(nodes)+1 #建立矩阵,矩阵的高度和宽度为关键词集合的长度+1 matrix = [['' for j in range(edge)] for i in range(edge)] # 初始化矩阵 matrix[0][1:] = np.array(nodes) matrix = list(map(list, zip(*matrix))) matrix[0][1:] = np.array(nodes) # 赋值矩阵的第一行与第一列 return matrix University_matrix = build_matrix(nodeslist) # 共现矩阵 def count_matrix(matrix, array_data): for row in range(1, len(matrix)): # 从下标1开始遍历矩阵的行元素 for col in range(1, len(matrix)): # 从下标1开始遍历矩阵列元素 if matrix[0][row] == matrix[col][0]: # 取出的行关键词和列关键词相同,则其对应的共现次数为0,即矩阵对角线为0 matrix[col][row] = 0 else: counter = 0 # 初始化计数器 for ech in array_data: # 遍历格式化后的原始数据,让取出的行关键词和取出的列关键词进行组合, # 再放到每条原始数据中查询 if matrix[0][row] in ech and matrix[col][0] in ech: counter += 1 else: continue matrix[col][row] = counter return matrix NXdata = pd.DataFrame(count_matrix(University_matrix, University_array)) print(NXdata)没有结果输出
时间: 2024-01-15 18:03:49 浏览: 28
这段代码是关于构建共现矩阵的,首先通过遍历数据中的大学列表,将每个大学添加到一个名为"University_array"的列表中。接下来,有一个名为"build_matrix"的函数,它用于初始化共现矩阵。然后,有一个名为"count_matrix"的函数,用于计算共现矩阵中每个关键词的共现次数。最后,使用"Pandas"库将共现矩阵转换为数据帧,并将结果打印出来。
然而,由于代码中没有提供完整的数据和函数调用,所以无法确定是否有错误。如果你提供完整的数据和函数调用,我可以帮你检查代码是否正确并给出结果。
相关问题
def data_processing(data): # 日期缺失,补充 data.fillna(method='ffill', inplace=True) date_history = pd.DataFrame(data.iloc[:, 0]) data_history = pd.DataFrame(data.iloc[:, 1]) date_history = np.array(date_history) data_history = [x for item in np.array(data_history).tolist() for x in item] # 缺失值处理 history_time_list = [] for date in date_history: date_obj = datetime.datetime.strptime(date[0], '%Y/%m/%d %H:%M') #将字符串转为 datetime 对象 history_time_list.append(date_obj) start_time = history_time_list[0] # 起始时间 end_time = history_time_list[-1] # 结束时间 delta = datetime.timedelta(minutes=15) #时间间隔为15分钟 time_new_list = [] current_time = start_time while current_time <= end_time: time_new_list.append(current_time) current_time += delta # 缺失位置记录 code_list = [] for i in range(len(time_new_list)): code_list = code_list history_time_list = history_time_list while (time_new_list[i] - history_time_list[i]) != datetime.timedelta(minutes=0): history_time_list.insert(i, time_new_list[i]) code_list.append(i) for i in code_list: data_history.insert(i, data_history[i - 1]) # 输出补充好之后的数据 data = pd.DataFrame({'date': time_new_list, 'load': data_history}) return data 代码优化
可以考虑优化以下几个方面:
1. 代码注释:可以添加一些注释,说明每个函数的作用和输入输出参数。
2. 函数拆分:可以将这个函数拆分成多个小函数,每个小函数只处理一个特定的任务,这样可以使代码更加可读。
3. 使用 numpy 和 pandas 函数:可以使用 pandas 的 fillna 函数,将缺失值按照指定的方式进行填充,可以使用 numpy 的 arange 函数,生成等差数列。这样可以使代码更加简洁。
4. 代码风格:可以遵循 PEP 8 代码风格,使得代码更加规范和易读。
重构后的代码如下所示:
```python
import pandas as pd
import numpy as np
import datetime
def fill_missing_data(data):
"""
将缺失值按照前向填充的方式进行填充
"""
data.fillna(method='ffill', inplace=True)
return data
def generate_time_list(date_history):
"""
根据日期列表生成时间列表
"""
history_time_list = [datetime.datetime.strptime(date[0], '%Y/%m/%d %H:%M') for date in date_history]
start_time = history_time_list[0]
end_time = history_time_list[-1]
delta = datetime.timedelta(minutes=15)
time_new_list = []
current_time = start_time
while current_time <= end_time:
time_new_list.append(current_time)
current_time += delta
return time_new_list
def find_missing_positions(time_new_list, history_time_list):
"""
查找缺失位置
"""
code_list = []
for i in range(len(time_new_list)):
while (time_new_list[i] - history_time_list[i]) != datetime.timedelta(minutes=0):
history_time_list.insert(i, time_new_list[i])
code_list.append(i)
return code_list
def fill_missing_positions(data_history, code_list):
"""
根据缺失位置进行数据填充
"""
for i in code_list:
data_history.insert(i, data_history[i-1])
return data_history
def data_processing(data):
"""
对数据进行处理,包括缺失值处理和数据补充
"""
data = fill_missing_data(data)
date_history = pd.DataFrame(data.iloc[:, 0])
data_history = pd.DataFrame(data.iloc[:, 1])
date_history = np.array(date_history)
data_history = [x for item in np.array(data_history).tolist() for x in item]
time_new_list = generate_time_list(date_history)
code_list = find_missing_positions(time_new_list, history_time_list)
data_history = fill_missing_positions(data_history, code_list)
data = pd.DataFrame({'date': time_new_list, 'load': data_history})
return data
```
data.fillna(method='ffill', inplace=True) date_history,data_history = pd.DataFrame(data.iloc[:, 0]) data_history = pd.DataFrame(data.iloc[:, 1]) date_history = np.array(date_history) data_history = [x for item in np.array(data_history).tolist() for x in item] # 缺失值处理 history_time_list = [] for date in date_history: date_obj = datetime.datetime.strptime(date[0], '%Y/%m/%d %H:%M') #将字符串转为 datetime 对象 history_time_list.append(date_obj) start_time = history_time_list[0] # 起始时间 end_time = history_time_list[-1] # 结束时间 delta = datetime.timedelta(minutes=15) #时间间隔为15分钟 time_new_list = [] current_time = start_time while current_time <= end_time: time_new_list.append(current_time) current_time += delta # 缺失位置记录 code_list = [] for i in range(len(time_new_list)): code_list = code_list history_time_list = history_time_list while (time_new_list[i] - history_time_list[i]) != datetime.timedelta(minutes=0): history_time_list.insert(i, time_new_list[i]) code_list.append(i) for i in code_list: data_history.insert(i, data_history[i - 1]) # 输出补充好之后的数据 data = pd.DataFrame({'date': time_new_list, 'load': data_history}) return data 代码优化
以下是对代码的优化:
```python
data.fillna(method='ffill', inplace=True)
date_history, data_history = data.iloc[:, 0], data.iloc[:, 1:].values.flatten()
date_history = np.array([datetime.datetime.strptime(date, '%Y/%m/%d %H:%M') for date in date_history])
start_time, end_time = date_history[0], date_history[-1]
delta = datetime.timedelta(minutes=15)
time_new_list = []
current_time = start_time
while current_time <= end_time:
time_new_list.append(current_time)
current_time += delta
code_list = [i for i, date in enumerate(date_history) if date not in time_new_list]
for i in code_list:
data_history = np.insert(data_history, i, data_history[i - 1])
data = pd.DataFrame({'date': time_new_list, 'load': data_history})
return data
```
代码优化的主要思路是:
1. 将第二列数据展平成一维数组,避免后续操作需要用到的循环。
2. 将日期字符串转换为 datetime 对象。
3. 使用列表推导式生成时间序列。
4. 使用列表推导式生成缺失位置列表。
5. 使用 NumPy 的 `insert()` 方法在数据中插入缺失值。
6. 最后将补充好的数据转换为 DataFrame 返回。
这样可以使代码更加简洁、高效,并且减少不必要的循环。