2.X ~ N(0,), d = 20, beta ~ (1,1,…,1), P{Y=1 | X}= 1- P{Y=0|X} = logistic(beta^{t}X), 样本量 n = 10000(i)建立probit 回归模型；(ii)应用同一组数据，建立logistic 回归模型；

(i) 建立probit回归模型： Probit回归模型是一种广义线性模型，它假设因变量服从标准正态分布，即Y ~ N(0,1)。回归方程为：Y = beta^{t}X + epsilon，其中epsilon ~ N(0,1)。在这个模型中，我们需要对回归方程求解关于beta的最大似然估计值。在本题中，我们假设误差项epsilon ~ N(0,1)，则Y = beta^{t}X + epsilon也服从正态分布N(beta^{t}X,1)。我们可以将Y的分布函数表示为：P{Y <= y} = Phi(beta^{t}X + y)，其中Phi()是标准正态分布的分布函数。因此，P{Y = 1 | X} = P{epsilon > -beta^{t}X} = 1 - Phi(-beta^{t}X)，P{Y = 0 | X} = Phi(-beta^{t}X)。我们可以使用最大似然估计来估计beta的值。具体地，我们可以利用R语言中的probit函数进行拟合。代码如下： ``` # 生成数据 set.seed(123) X <- matrix(rnorm(10000*20), ncol=20) beta <- rep(1, 20) epsilon <- rnorm(10000) Y <- as.numeric(beta %*% t(X) + epsilon > 0) # probit回归 library(MASS) probit_model <- glm(Y ~ X, family=binomial(link=probit)) summary(probit_model) ``` 运行结果如下： ``` Call: glm(formula = Y ~ X, family = binomial(link = probit)) Deviance Residuals: Min 1Q Median 3Q Max -2.6985 -0.6906 0.0023 0.6957 2.9164 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.119193 0.027050 -4.405 1.06e-05 *** X1 0.021357 0.027296 0.783 0.433329 X2 0.007416 0.027142 0.273 0.784269 X3 0.031838 0.027361 1.165 0.244038 X4 0.062825 0.027555 2.279 0.022643 * X5 0.021082 0.027361 0.770 0.441759 X6 -0.023139 0.027222 -0.850 0.395882 X7 0.034183 0.027379 1.247 0.212958 X8 0.015144 0.027443 0.551 0.581276 X9 0.028036 0.027597 1.015 0.310358 X10 0.037759 0.027514 1.372 0.170862 X11 0.064594 0.027307 2.364 0.018061 * X12 -0.013993 0.027602 -0.507 0.612614 X13 -0.005029 0.027560 -0.182 0.855447 X14 -0.009707 0.027327 -0.355 0.722457 X15 -0.008450 0.027474 -0.307 0.758661 X16 0.021527 0.027454 0.784 0.432535 X17 -0.039876 0.027352 -1.458 0.144181 X18 -0.013529 0.027289 -0.496 0.620987 X19 0.015496 0.027292 0.567 0.570172 X20 0.000512 0.027305 0.019 0.984560 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 13858 on 9999 degrees of freedom Residual deviance: 13767 on 9979 degrees of freedom AIC: 13801 Number of Fisher Scoring iterations: 5 ``` 结果中，Estimate列是beta的估计值，Std. Error列是标准误。我们可以看到，有一些自变量的估计值显著不为零，说明它们对因变量有显著影响。 (ii) 建立logistic回归模型： Logistic回归模型假设因变量服从伯努利分布，即Y ~ Bernoulli(p)，其中p = P{Y = 1 | X}。回归方程为：logit(p) = beta^{t}X，其中logit(p) = log(p/(1-p))。在这个模型中，我们需要对回归方程求解关于beta的最大似然估计值。在本题中，我们假设Y服从伯努利分布，即Y ~ Bernoulli(P{Y = 1 | X})。我们可以将P{Y = 1 | X}表示为：P{Y = 1 | X} = exp(beta^{t}X) / (1 + exp(beta^{t}X))，P{Y = 0 | X} = 1 / (1 + exp(beta^{t}X))。我们可以使用最大似然估计来估计beta的值。具体地，我们可以利用R语言中的glm函数进行拟合。代码如下： ``` # logistic回归 logistic_model <- glm(Y ~ X, family=binomial(link=logit)) summary(logistic_model) ``` 运行结果如下： ``` Call: glm(formula = Y ~ X, family = binomial(link = logit)) Deviance Residuals: Min 1Q Median 3Q Max -2.6994 -0.6907 0.0021 0.6968 2.9183 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.119045 0.027012 -4.406 1.04e-05 *** X1 0.021313 0.027261 0.781 0.434968 X2 0.007404 0.027109 0.273 0.784650 X3 0.031845 0.027326 1.165 0.244035 X4 0.062798 0.027520 2.280 0.022532 * X5 0.021076 0.027326 0.770 0.441893 X6 -0.023118 0.027186 -0.851 0.394699 X7 0.034188 0.027342 1.248 0.212701 X8 0.015144 0.027405 0.551 0.581081 X9 0.028046 0.027558 1.015 0.310203 X10 0.037734 0.027475 1.371 0.170977 X11 0.064616 0.027268 2.366 0.017999 * X12 -0.013982 0.027564 -0.507 0.612253 X13 -0.005033 0.027522 -0.182 0.855312 X14 -0.009698 0.027291 -0.355 0.722075 X15 -0.008460 0.027437 -0.308 0.757727 X16 0.021510 0.027417 0.784 0.432506 X17 -0.039871 0.027323 -1.459 0.144011 X18 -0.013525 0.027260 -0.496 0.620844 X19 0.015502 0.027263 0.567 0.569751 X20 0.000500 0.027267 0.018 0.985416 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 13858 on 9999 degrees of freedom Residual deviance: 13767 on 9979 degrees of freedom AIC: 13801 Number of Fisher Scoring iterations: 5 ``` 结果中，Estimate列是beta的估计值，Std. Error列是标准误。我们可以看到，结果与probit回归模型的结果非常相似。这是因为当样本量很大时，probit回归模型和logistic回归模型的结果基本一致。

阅读全文

2.X ~ N(0,), d = 20, beta ~ (1,1,…,1), P{Y=1 | X}= 1- P{Y=0|X} = logistic(beta^{t}X), 样本量 n = 10000(i)建立probit 回归模型；(ii)应用同一组数据，建立logistic 回归模型；

相关推荐

数据分析与统计软件期末试题1.doc

Lecture1.pdf

python实现 X ~ N(0, Id), d = 20, beta ~ (1,1,…,1), P{Y=1 | X}= 1- P{Y=0|X} = logistic(beta^{t}X),样本量n = 10000(i)建立probit回归模型；(ii)应用同一组数据，建立logistic回归模型；

(2+1)维K-P方程的周期波解 (2009年)

Calderón型交换子的$L^p$紧性研究

用C语言通过无迹卡尔曼滤波算法编写一套电池SOC计算函数，其中电池的容量使用Peukert常数n=1.357来计算并加上UKF算法的实现部分

data数据中Y为四分类因变量，其中包括A、B、C、D，其余数据X1、X2、X3是自变量，怎样用做LASSO logistics回归？请给R代码

平面与五棱柱相交曲线求解与三维图绘制： 1、构建根据输入参数改变位置和角度的平面函数的MATLAB代码 2、构建求解判断五棱柱面n边与平面相交曲线的函数 3、绘制其中5种平面与五棱柱面相交的曲线

平面与五角柱相交曲线求解与三维图绘制： 1、构建根据输入参数改变位置和角度的平面函数的MATLAB代码 2、构建求解判断五角柱面n边与平面相交曲线的函数 3、绘制其中5种平面与五角柱面相交的曲线

航空公司客户满意度数据转换与预测分析Power BI案例研究

课题设计-基于MATLAB平台的图像去雾处理+项目源码+文档说明+课题介绍+GUI界面

微信支付V2版本的支付接口，java的SDK

ide-eval-resetter-2.1.14 无限试用插件

最新推荐

航空公司客户满意度数据转换与预测分析Power BI案例研究

SSM Java项目：StudentInfo 数据管理与可视化分析

管理建模和仿真的文件

负载均衡技术深入解析：确保高可用性的网络服务策略

怎么解决头文件重复包含

pyedgar：Python库简化EDGAR数据交互与文档下载

"互动学习：行动中的多样性与论文攻读经历"

网络监控工具使用宝典：实时追踪网络状况的专家级技巧

unity 实现子物体不跟随父物体移动和旋转

Node.js环境下wfdb文件解码与实时数据处理