#设置参数 p=20 n=5000 beta=np.arange(p) # 回归系数beta # 以数组形式返回给定区间内均匀间隔的值 #生成X X=np.random.normal(0,1,size=(n,p)) # 从二项分布中抽取样本,形式：(n,p) epsilon = np.random.normal(size=n) # 随机噪声epsilon?? #生成Y Y=np.zeros(n) #初始化Y #返回来一个给定形状和类型的用0填充的数组 Y[epsilon + np.dot(X, beta).reshape(-1) > 0] = 1 data = np.concatenate((X, Y.reshape(-1, 1)), axis=1) # 将生成的样本存储在一个n\times (p+1)的numpy数组data中，其中第i行表示第i个样本的特征向量和目标变量值 def ObjFun(x,y,beta): # 目标函数 """ Logistic regression loss function :param beta: model parameter vector :param x: feature matrix :param y: label vector :return: loss value """ # sp.log()表示求自然对数，1/(1 + sp.exp(-X.dot(beta)))表示逻辑函数， # (i, 0, X.shape[0]-1)表示对i从0到n-1进行求和，最后除以样本个数求平均得到总体损失值。 CurrX = np.array(x) # 把列表转化为数组 n = len(CurrX) ObjVal = -sp.summation( #使用logist y * sp.log(1 / (1 + sp.exp(-x.dot(beta)))) + (1 - y) * sp.log(1 - 1 / (1 + sp.exp(-x.dot(beta)))), (i, 0, x.shape[0] - 1)) / x.shape[0] # shape读取矩阵的长度，比如shape[0]就是读取矩阵第一维度的长度。 return ObjVal print(ObjFun(X,Y,beta))