def linear_regression(X,y): w = np.zeros_like(X.shape[1]) if np.linalg.det(X.T.dot(X))!=0: w = np.linalg.inv(X.T.dot(X)).dot(X.T).dot(y) return w w1 = linear_regression(X_train,y_train) w1 = pd.DataFrame(data=w1,index=X.columns,columns=['numpy_w']) w1.round(decimals=2)
时间: 2023-12-06 12:41:34 浏览: 102
这段代码实现了一个简单的线性回归模型,其中X是输入数据的特征矩阵,y是对应的标签向量。函数linear_regression()通过最小二乘法计算出回归系数w,即使得模型预测值与真实标签的差距最小的系数。如果特征矩阵X的转置矩阵X.T与X的乘积的行列式不为0,那么可以使用矩阵求逆的方式计算w;否则无法计算,返回一个全零向量。最后,将回归系数w保存在一个DataFrame对象中,并返回。
需要注意的是,这里的linear_regression()函数仅仅适用于线性关系的数据,对于非线性的数据需要使用其他方法,比如多项式回归、核函数回归等。此外,实际应用中需要对数据进行预处理,比如对特征进行归一化、处理异常值等。
相关问题
import numpy as np from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split import matplotlib.pyplot as plt # 加载 iris 数据 iris = load_iris() # 只选取两个特征和两个类别进行二分类 X = iris.data[(iris.target==0)|(iris.target==1), :2] y = iris.target[(iris.target==0)|(iris.target==1)] # 将标签转化为 0 和 1 y[y==0] = -1 # 将数据集分为训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 实现逻辑回归算法 class LogisticRegression: def __init__(self, lr=0.01, num_iter=100000, fit_intercept=True, verbose=False): self.lr = lr self.num_iter = num_iter self.fit_intercept = fit_intercept self.verbose = verbose def __add_intercept(self, X): intercept = np.ones((X.shape[0], 1)) return np.concatenate((intercept, X), axis=1) def __sigmoid(self, z): return 1 / (1 + np.exp(-z)) def __loss(self, h, y): return (-y * np.log(h) - (1 - y) * np.log(1 - h)).mean() def fit(self, X, y): if self.fit_intercept: X = self.__add_intercept(X) # 初始化参数 self.theta = np.zeros(X.shape[1]) for i in range(self.num_iter): # 计算梯度 z = np.dot(X, self.theta) h = self.__sigmoid(z) gradient = np.dot(X.T, (h - y)) / y.size # 更新参数 self.theta -= self.lr * gradient # 打印损失函数 if self.verbose and i % 10000 == 0: z = np.dot(X, self.theta) h = self.__sigmoid(z) loss = self.__loss(h, y) print(f"Loss: {loss} \t") def predict_prob(self, X): if self.fit_intercept: X = self.__add_intercept(X) return self.__sigmoid(np.dot(X, self.theta)) def predict(self, X, threshold=0.5): return self.predict_prob(X) >= threshold # 训练模型 model = LogisticRegressio
n()
model.fit(X_train, y_train)
# 在测试集上进行预测
y_pred = model.predict(X_test)
# 计算准确率
accuracy = np.sum(y_pred == y_test) / y_test.shape[0]
print(f"Accuracy: {accuracy}")
# 可视化
plt.scatter(X_test[:, 0], X_test[:, 1], c=y_pred)
plt.show()
请问这段代码实现了什么功能?
def linear_regression(x, y): n = len(y) ones = np.ones((n, 1)) X = np.hstack((ones, x)) coef = np.linalg.inv(X.T @ X) @ X.T @ y return coef[0], coef[1:], X a0, a1, _ = linear_regression(x1, y1) b0, b1, _ = linear_regression(x2, y2)这段代码有使用最
小二乘法来求解线性回归模型的系数。具体来说,对于输入的自变量 x 和因变量 y,首先将 x 中的每个样本向量添加一个常数项,得到矩阵 X。然后通过最小二乘法求解系数,使得预测值 X @ coef 与实际值 y 的误差平方和最小。其中 coef[0] 是截距,coef[1:] 是斜率向量。最后返回截距、斜率向量、以及 X 矩阵。在代码中,两次调用 linear_regression 函数分别得到了两组数据的线性回归系数。
阅读全文