n = 10000000 p = 10 x = np.random.normal(size=(n, p)) beta = np.arange(1, p+1).reshape(-1, 1) z = x @ beta condprob = norm.cdf(z) y = binom.rvs(1, condprob, size=n).reshape(-1, 1) prob_fit = glm(y, x, family=families.Binomial(link=families.links.probit)).fit() logit_fit = glm(y, x, family=families.Binomial(link=families.links.logit)).fit() linear_fit = glm(y, x, family=families.Gaussian(link=families.links.identity)).fit() coef_mat = np.column_stack((prob_fit.params, logit_fit.params, linear_fit.params)) print(coef_mat) prop_mat = np.column_stack((prob_fit.params / logit_fit.params, prob_fit.params / linear_fit.params, logit_fit.params / linear_fit.params))
时间: 2024-04-23 20:22:43 浏览: 104
这是一个用于生成数据并进行二项式回归、logistic回归和线性回归的Python代码。其中,n为样本量,p为自变量个数,x是从正态分布中随机生成的样本数据,beta是一个1到p的向量,z是x和beta的点积,condprob是z的累积分布函数值,y是从二项分布中生成的响应变量。
接下来,使用三种不同的link函数,分别对y和x进行回归拟合,并输出各个系数的值。最后,将三个模型的系数进行比较得到prop_mat。
这段代码的作用是演示了如何使用Python中的statsmodels库进行回归分析,并比较不同link函数的效果。由于生成的数据是随机的,因此每次运行结果可能会不同。
相关问题
n = 10000000 p = 10 x = np.random.normal(size=(n, p)) beta = np.arange(1, p+1).reshape(-1, 1) z = x @ beta condprob = norm.cdf(z) y = np.random.binomial(n=1, p=condprob, size=(n,1))linear_fit = LinearRegression().fit(x, y)print(linear_fit)为什么结果为LinearRegression()
这段代码中,首先使用了numpy库生成了一个大小为(n,p)的随机正态分布矩阵x,然后使用arange函数创建了一个(p,1)的列向量beta,这个向量的元素为1到p,reshape函数将其变形为(p,1)的矩阵。接着,将x和beta相乘得到z,其中@表示矩阵乘法。利用正态分布的累积分布函数norm.cdf(z)计算z中每个元素的概率值,然后使用这些概率值作为参数,使用二项分布函数np.random.binomial生成大小为(n,1)的响应变量y。最后,使用sklearn库中的LinearRegression()函数对x和y进行线性回归,得到线性回归对象linear_fit。因此,输出结果为LinearRegression()。
#设置参数 p=20 n=5000 beta=np.arange(p) # 回归系数beta # 以数组形式返回给定区间内均匀间隔的值 #生成X X=np.random.normal(0,1,size=(n,p)) # 从二项分布中抽取样本,形式:(n,p) epsilon = np.random.normal(size=n) #生成Y Y=np.zeros(n) #初始化Y #返回来一个给定形状和类型的用0填充的数组 Y[epsilon + np.dot(X, beta).reshape(-1) > 0] = 1 data = np.concatenate((X, Y.reshape(-1, 1)), axis=1)
这段代码看起来是在生成一个二分类数据集,其中p是特征数量,n是样本数量,beta是回归系数。首先,通过np.random.normal生成一个(n,p)维度的随机数组作为X特征矩阵。然后,通过np.random.normal生成一个长度为n的随机数组作为误差项epsilon。紧接着,初始化一个长度为n的全0数组Y,然后根据epsilon和X与beta的乘积的正负情况,将Y相应位置赋值为0或1,从而生成二分类标签。最后,将X和Y拼接在一起,形成完整的数据集data。
阅读全文