import pandas as pd # 读取表格数据 df = pd.read_csv("D:\数学建模\重航数学建模校赛\附件1.csv", encoding='gbk') # 提取网民和词条的数据 netizens = df.iloc[:, 0].values.tolist() words = df.columns[1:].values.tolist() # 获取数据矩阵 data = df.iloc[:, 1:].values # 对数据进行归一化处理 from sklearn.preprocessing import StandardScaler data = StandardScaler().fit_transform(data) from sklearn.cluster import KMeans # K型聚类 kmeans = KMeans(n_clusters=3) kmeans.fit(data) labels = kmeans.labels_代码改进

时间: 2024-03-18 12:38:45 浏览: 126

这段代码可以改进的地方有： 1. 文件路径中的反斜杠 `\` 应该改为双反斜杠 `\\` 或者正斜杠 `/`，否则可能会出现错误。 2. 在读取 CSV 文件时，可以通过指定参数 `index_col` 来将某一列作为索引列，这样可以方便后续的处理。 3. 在对数据进行归一化处理时，可以使用 `sklearn.preprocessing.StandardScaler` 类的 `transform()` 方法，而不是 `fit_transform()` 方法。`fit_transform()` 方法会对数据进行拟合和转换两个操作，相当于分别调用 `fit()` 和 `transform()` 方法，但是在实际使用中，我们通常只需要对数据进行转换操作，因此可以直接使用 `transform()` 方法。 4. 在 K-means 聚类分析中，可以通过调用 `kmeans.predict()` 方法来对新数据进行分类，而不是重新创建一个 KMeans 对象进行分类。改进后的代码如下： ```python import pandas as pd from sklearn.preprocessing import StandardScaler from sklearn.cluster import KMeans # 读取表格数据，并将第一列作为索引列 df = pd.read_csv("D:/数学建模/重航数学建模校赛/附件1.csv", encoding='gbk', index_col=0) # 提取网民和词条的数据 netizens = df.index.tolist() words = df.columns.tolist() # 获取数据矩阵，并对数据进行归一化处理 data = df.values data = StandardScaler().fit(data).transform(data) # K型聚类，并对数据进行分类 kmeans = KMeans(n_clusters=3) kmeans.fit(data) labels = kmeans.predict(data) ``` 这样改进后的代码更加简洁和高效。

阅读全文

相关推荐

Pandas之read_csv()读取文件跳过报错行的解决

001Python编程在数学建模中的应用（20240715）- 背景.pdf

利用Pandas读取文件路径或文件名称包含中文的csv文件方法

import pandas as pd# 读取txt文件df = pd.read_csv('data.txt', delimiter='\t')# 将数据保存为csv文件df.to_csv('data.csv', index=False)

import pandas as pd # 读取csv文件 df = pd.read_csv('1.csv') # 根据value列进行升序排序 sorted_df = df.sort_values('value', ascending=True) # 打印排序后的结果 print(sorted_df)这段代码报错：KeyError: 'value'什么原因，怎么改

import pandas as pd # 读取数据到DataFrame df = pd.read_csv('data.csv') # 查找重复的id duplicates = df[df.duplicated('id', keep=False)]这段代码没有反馈，我不知道有没有重复的id

import pandas as pd import re # 读取csv文件 df = pd.read_csv(open('../data/评论.csv'))

import pandas as pd pd=pd.read_csv('PCA_labels.csv') pd pd_vali=pd.read_csv('PCA_validation.csv') pd_vali有什么问题

import numpy as np import pandas as pd df = pd.read_csv('diabetes.csv') df.head() df.describe()

智慧园区3D可视化解决方案PPT(24页).pptx

labelme标注的json转mask掩码图，用于分割数据集 批量转化，生成cityscapes格式的数据集

（参考GUI）MATLAB GUI漂浮物垃圾分类检测.zip

大家在看

silvaco中文学习资料

AES128（CBC或者ECB）源码

EMC VNX 5300使用安装

华为MA5671光猫使用 华为MA5671补全shell 101版本可以补全shell，安装后自动补全，亲测好用，需要的可以下载

视频转换芯片 TP9950 iic 驱动代码

最新推荐

智慧园区3D可视化解决方案PPT(24页).pptx

labelme标注的json转mask掩码图，用于分割数据集 批量转化，生成cityscapes格式的数据集

（参考GUI）MATLAB GUI漂浮物垃圾分类检测.zip

掌握Android RecyclerView拖拽与滑动删除功能

【IBM HttpServer入门全攻略】：一步到位的安装与基础配置教程

[root@localhost~]#mount-tcifs-0username=administrator,password=hrb.123456//192.168.100.1/ygptData/home/win mount：/home/win：挂载点不存在

惠普8594E与IT8500系列电子负载使用教程

MATLAB与Python在SAR点目标仿真中的对决：哪种工具更胜一筹？

前端代理配置config.js配置proxyTable多个代理不生效

最小二乘法程序深入解析与应用案例

labelme标注的json转mask掩码图，用于分割数据集批量转化，生成cityscapes格式的数据集

华为MA5671光猫使用华为MA5671补全shell 101版本可以补全shell，安装后自动补全，亲测好用，需要的可以下载

labelme标注的json转mask掩码图，用于分割数据集批量转化，生成cityscapes格式的数据集