X_train, X_test, y_train, y_test = train_test_split(data[['Returns','Variance']],data.cluster) ##plt.scatter(X_train, y_train, marker='+',color='green') ##plt.scatter(X_test, y_test, marker='*',color='purple')#ValueError: x and y must be the same size model = LogisticRegression() model.fit(X_train,y_train) y_predicted = model.predict(X_test) model.score(X_test,y_test)
时间: 2023-12-24 16:29:10 浏览: 47
STAT_F_TEST.rar_F-test_The Test
这段代码中,首先使用train_test_split函数对数据集进行随机划分,将特征为'Returns'和'Variance'的列保存在X_train和X_test中,将标签为'cluster'的列保存在y_train和y_test中。
接着,注释掉的两行代码使用scatter函数将训练集和测试集在二维平面上用不同的颜色标出来,但因为特征有两列,而scatter函数需要输入两个一维数组,所以这两行代码会报错,需要将其注释掉或修改成二维散点图的方式。
然后,定义了一个逻辑回归模型,并使用X_train和y_train对模型进行了训练。之后使用predict函数对测试集X_test进行预测,并将预测结果保存在y_predicted变量中。最后,使用score函数对模型在测试集上的性能进行评估,输出模型在测试集上的准确率。
阅读全文