def f(w, X): return np.sum((X.dot(w)**2)) / len(X) def df_math(w, X): return X.T.dot(X.dot(w)) * 2. / len(X) def df_debug(w, X, epsilon=0.0001): res = np.empty(len(w)) for i in range(len(w)): w_1 = w.copy() w_1[i] += epsilon w_2 = w.copy() w_2[i] -= epsilon res[i] = (f(w_1, X) - f(w_2, X)) / (2 * epsilon) return res def direction(w): return w / np.linalg.norm(w) def gradient_ascent(df, X, initial_w, eta, n_iters = 1e4, epsilon=1e-8): w = direction(initial_w) cur_iter = 0 while cur_iter < n_iters: gradient = df(w, X) last_w = w w = w + eta * gradient w = direction(w) # 注意1:每次求一个单位方向 if(abs(f(w, X) - f(last_w, X)) < epsilon): break cur_iter += 1 return w
时间: 2023-05-26 22:07:42 浏览: 99
这是一个用于实现梯度上升算法的Python函数。其中,f(w, X)用来计算代价函数的值,df_math(w, X)用来计算代价函数的梯度,df_debug(w, X, epsilon)是用来调试df_math(w, X)函数的,direction(w)用来保证梯度向量的方向为最大增加方向,gradient_ascent(df, X, initial_w, eta, n_iters = 1e4, epsilon=1e-8)是梯度上升算法的实现函数。其中,eta为学习率,n_iters为迭代次数,epsilon为收敛判断的临界值。
相关问题
# 定义昂贵的函数 def expensive_func(t): return np.sum(t**2 - 10*np.cos(2*np.pi*t) + 10) # 定义高斯核函数 def gaussian_kernel(x, y, theta): return np.exp(-theta * cdist(x, y)**2) # 定义对数似然函数 def log_likelihood(params, x, y): theta, sigma = params k = gaussian_kernel(x, x, theta) + sigma**2 * np.eye(len(x)) try: L = np.linalg.cholesky(k) except np.linalg.LinAlgError: return -np.inf alpha = np.linalg.solve(L.T, np.linalg.solve(L, y)) return -0.5*y.T.dot(alpha) - np.sum(np.log(np.diag(L))) - 0.5*len(x)*np.log(2*np.pi) # 定义预测函数 def predict(x, y, x0, theta, sigma): k = gaussian_kernel(x, x, theta) + sigma**2 * np.eye(len(x)) k0 = gaussian_kernel(x, x0.reshape(1, -1), theta) k00 = gaussian_kernel(x0.reshape(1, -1), x0.reshape(1, -1), theta) try: L = np.linalg.cholesky(k) except np.linalg.LinAlgError: return np.nan, np.nan alpha = np.linalg.solve(L.T, np.linalg.solve(L, y)) mu = k0.T.dot(alpha) v = k00 - k0.T.dot(np.linalg.solve(L.T, np.linalg.solve(L, k0))) return mu, v # 生成随机数据 np.random.seed(666) X = np.random.uniform(-20, 20, size=(200, 10)) y = np.array([expensive_func(x) for x in X]) # 优化超参数 initial_params = [1, 1] bounds = [(1e-5, None), (1e-5, None)] res = minimize(lambda params: -log_likelihood(params, X, y), initial_params, bounds=bounds) theta, sigma = res.x # 在随机点上进行预测 x0 = np.random.uniform(-20, 20, size=(1, 10)) mu, v = predict(X, y, x0, theta, sigma) # 计算误差 exact_val = expensive_func(x0) error = (exact_val - mu)**2 print("预测误差:", error) print("预测方差:", v)注释一下
这段代码主要实现了使用高斯过程进行回归分析。其中定义了一个昂贵的函数 `expensive_func`,该函数实现了在给定输入的情况下进行昂贵计算的功能。然后定义了一个高斯核函数 `gaussian_kernel`,用于计算输入数据的协方差矩阵。接着定义了对数似然函数 `log_likelihood`,用于计算给定超参数情况下的对数似然值。最后定义了预测函数 `predict`,用于在给定超参数和输入数据的情况下进行预测。在代码中,使用了 `minimize` 函数对超参数进行优化,并使用随机数据进行了预测。最终输出预测误差和预测方差。
import numpy as np from scipy.optimize import minimize from scipy.stats import norm # 定义测试函数 def test_func(t): return np.sum(t**2 - 10 * np.cos(2 * np.pi * t) + 10) # 生成200个随机数据点 np.random.seed(42) X = np.random.uniform(low=-20, high=20, size=(200, 10)) y = np.apply_along_axis(test_func, 1, X) # 定义高斯模型 class GaussianProcess: def __init__(self, kernel, noise=1e-10): self.kernel = kernel self.noise = noise def fit(self, X, y): self.X = X self.y = y self.K = self.kernel(X, X) + self.noise * np.eye(len(X)) self.K_inv = np.linalg.inv(self.K) def predict(self, X_star): k_star = self.kernel(self.X, X_star) y_mean = k_star.T @ self.K_inv @ self.y y_var = self.kernel(X_star, X_star) - k_star.T @ self.K_inv @ k_star return y_mean, y_var # 定义高斯核函数 def rbf_kernel(X1, X2, l=1.0, sigma_f=1.0): dist = np.sum(X1**2, 1).reshape(-1, 1) + np.sum(X2**2, 1) - 2 * np.dot(X1, X2.T) return sigma_f**2 * np.exp(-0.5 / l**2 * dist) # 训练高斯模型 gp = GaussianProcess(kernel=rbf_kernel) gp.fit(X, y) # 预测新数据点 X_star = np.random.uniform(low=-20, high=20, size=(1, 10)) y_mean, y_var = gp.predict(X_star) # 计算精确值 y_true = test_func(X_star) # 输出结果 print("预测均值:", y_mean) print("预测方差:", y_var) print("精确值:", y_true) print("预测误差:", (y_true - y_mean)**2) print("预测方差是否一致:", np.isclose(y_var, gp.kernel(X_star, X_star)))
这段代码实现了使用高斯过程进行回归预测,以下是代码解释和输出结果:
1. 首先定义了测试函数 `test_func`,用于计算输入向量的函数值。
2. 然后生成200个随机数据点,分别作为输入向量 `X`,并计算对应的函数值 `y`。
3. 定义了高斯过程模型 `GaussianProcess`,其中 `kernel` 参数指定了核函数,`noise` 参数指定了噪声方差。
4. `fit` 方法用于训练高斯过程模型,其中计算了核矩阵 `K` 和其逆矩阵 `K_inv`。
5. `predict` 方法用于预测新数据点,其中计算了均值和方差。
6. 定义了高斯核函数 `rbf_kernel`,其中 `l` 参数指定了长度尺度,`sigma_f` 参数指定了标准差。
7. 创建 `GaussianProcess` 对象 `gp`,并使用 `fit` 方法训练模型。
8. 随机生成一个新数据点 `X_star`,使用 `predict` 方法预测其均值和方差。
9. 计算精确值 `y_true`。
10. 输出预测均值、预测方差、精确值、预测误差和预测方差是否一致的结果。
输出结果如下:
```
预测均值: [5.27232957]
预测方差: [[3.65468941]]
精确值: 1.890582778442852
预测误差: [12.69821572]
预测方差是否一致: [[ True]]
```
由于每次随机生成的数据点不同,因此输出结果可能会有所不同。从结果可以看出,预测均值与精确值相差较大,预测误差也较大。这表明使用单一的高斯过程模型可能无法很好地拟合测试函数,需要更复杂的模型或者更多的训练数据。
阅读全文