"倾向值匹配法(PSM)的理论与应用"
倾向值匹配法(PSM,Propensity Score Matching)是一种统计学上的方法,主要用于处理因果推断中的内生性问题,尤其是样本选择偏误。这种方法源于经济学领域,旨在解决在观察性研究中无法随机分配处理(例如实验干预)的情况,通过匹配具有相似特征的个体来模拟随机实验的效果。
为什么使用PSM?在实际研究中,我们常常面临这样的问题:想要研究某一处理(如上北大)对结果(如收入)的影响,但因为样本的选择不是随机的,那些能够获得处理(如考上北大)的人可能本身就具备其他优势(如聪明、有毅力等)。这导致了所谓的“样本选择偏误”,使得处理和结果之间的关系变得模糊。PSM的核心思想是,通过构建一个倾向得分,这个得分反映了个体接受处理的概率,然后将具有相似倾向得分的个体进行配对,以此来减少选择偏误对因果效应估计的影响。
配对方法多样,可以从一维配对(如同行业)扩展到多维配对(如同行业、规模相当、股权结构相当等),PSM的优势在于它可以将多维信息压缩成一个单一的倾向得分,简化了匹配过程。在配对过程中,有两个核心问题需要考虑:一是确定哪个样本更适合匹配,通常选择满足共同支撑假设(即匹配样本都有处理和未处理两种状态)的样本;二是找到最佳配对对象,以满足平行假设,即在处理与否的条件下,处理组和控制组的基线特征应保持平衡。
平均处理效应的衡量,用的是ATT(Average Treatment Effect on the Treated),即处理组在接受处理后的平均效果与如果不接受处理时的平均效果之差。在实际计算中,可以通过匹配样本的得分,比较处理组和控制组的处理效应差异来估计ATT。例如,如果StuPK上北大的年薪是Y(1)=12W,不上北大的预计年薪是Y(0)=9W,那么ATT就是3W。
PSM的一个常见应用实例是研究培训对工资的影响。在这个例子中,处理组是接受培训的工人,控制组是未接受培训的工人。通过匹配处理组和控制组在其他所有方面都相同的个体,可以估计出培训对工资的因果效应。变量如年龄(age)、教育年限(educ)、种族(black)和特定群体标识(hsip)等可以用来构建倾向得分,并进行匹配。
PSM是一种强大的工具,它允许研究人员在非实验环境下探究因果关系,有效地处理内生性和样本选择偏误,提高因果效应估计的准确性和可信度。在社会科学、经济学、公共卫生等多个领域都有广泛应用。