Donald-Rubin潜在结果模型

从本文开始我们正式进入因果推断的内容.本文我们将要介绍的是因果推断的著名模型Donald-Rubin模型. 因果推断的发展历史悠久,从统计学的两个始祖Pearson和Fisher开始就受到关乎.本文我们将简单介绍因果推断的基本框架. 这篇文章参考的是丁鹏老师的讲义和Imbens 和 Rubins的课本.

Donal-Rubin模型框架

因果性的推断是一类非常常见的问题,例如:

  • 一种药是否能够降低糖尿病病人的血糖
  • 一套教育方法能否提高学生的成绩
  • 一种基因如何导致性状的改变 等等.

在这里的因果性,都是说对于一个个体,一种处理(例如上课,吃药等等)对它的影响.比如吃药与否,病人的血糖不同;采用教学方法与否,学生的平均成绩不同. 因此我们把某种处理对某个个体的某种性状的因果效用,定义为接受该处理与否该个体该种形状的差值.用更严格的语言来表述,我们可以用一个二值变量\(Z_i\)来表示个体\(i\)是否接受处理.处理取1,不处理取0(为了简单期间我们考虑二值的情况).而对于结果变量,我们用\(Y_i\)来表示.\(Y_i(0)\)\(Y_i(1)\)分别表示不接受处理和接受处理的结果变量. 因此个体的因果关系就可以定义为 \[CE_i = Y_i(1)-Y_i(0)\]一个显而易见的事实是这两个量我们总是只能观测到一个. 因此从本质上来说,因果推断实际上是缺失数据问题 因此,个体的因果作用是不可识别的.这里我们要注意到对于个体\(i\),潜在结果是确定的数;这里的随机性体现在\(i\).

但是对于更多的个体,我们可以识别总体的平均因果作用.

\[ACE(Z\rightarrow Y)=\mathbb{E}(Y_i(1)-Y_i(0))\] 这是因为

\[\begin{align} ACE(Z\rightarrow Y) &= \mathbb{E}(Y_i(1))-\mathbb{E}(Y_i(0)) \\ &= \mathbb{E}(Y_i(1))|Z_i=1)-\mathbb{E}(Y_i(0)|Z_i=0) \\ &= \mathbb{E}(Y_i|Z_i=1)-\mathbb{E}(Y_i|Z_i=0) \end{align} \]

在这里我们注意到第一个等号利用了期望的线性性,第二个等号则是利用了以下随机化假设 \[Z_i\bot Y_i(1),Y_i(0)\] 即随机分配独立于潜在结果. 第三个等号则需要潜在结果是固定的数的假设.

而另一方面对于这一模型,还有重要的SUTVA(Stable Unit Treatment Value Assumption)假设: * 对于每个单位来说,潜在结果不会随着处理的分配不同而变化 * 对每个单位,接受处理的效果是固定且惟一的.(即潜在结果是固定的)

举例而言,我们要探究阿斯匹林对头痛治疗的因果作用. 随机安排了实验组和对照组之后,阿斯匹林对我的头痛治疗的效果与你吃不吃药是没有关系的. 并且我吃药导致的头痛程度变化只能是固定的.

虽然这两条假设看上去都是自然的,但是实际情况中,也有很多情形下这两条假设是不成立的. 如果我们在一个较大的规模上探讨一个职业培训项目是否对学生未来薪酬有帮助. 这时一个学生的薪酬就会受到参加职业培训项目总人数的影响,因为他们相互之间是竞争的。以一个极端的例子来看,如果所有人都取得统计学的博士学位,那么统计学博士学位对你薪酬的帮助显然就没有现在这么大了.

在接受了SUTVA假设之后,我们再来看随机化实验究竟如何设计,即所谓的分配机制. 我们已经了解到在现有的框架中,\(Z_i\)表示的是一个个体是否接受某种处理. 既然\(Z_i\)是整个实验随机性的来源,就需要好好探讨\(Z_i\)作为一族随机变量究竟是如何分布的。一般而言有这样一些做法

  • \(Z_i\)是Bernoulli变量,即对每个个体,它们互相独立地以一定的概率\(p\)来决定是不是要接受处理.在极端情况下,我们会发现可能实验组和对照组并不均衡.
  • \(Z_i\)不是互相独立的. 一个经典的抽样方法是,事先给定实验组数量\(m\),接下来从整数\((1,2,\cdots,n)\)中随机抽取\(m\)个整数组成集合\(\mathcal{A}\),然后按照 \[Z_i=\begin{cases} 1, & i\in \mathcal{A} \\ 0,& i \notin \mathcal{A} \end{cases}\] 显然这样我们事先可以对实验组和对照组的均衡性有一个较好的把握.

在介绍其它分配机制之前,还想提一下,对于很多因果推断的问题,我们其实并不仅仅观测到了现在看到的结果变量. 很有可能还有某些协变量也在起作用. 一个简单的例子是,我们研究某种药物对血糖浓度的影响,在服药之前的血糖浓度很显然就是一个也会影响到结果的协变量. 因此考虑到协变量的因素,我们在进行分配时还有这样的分配方法:

  • 分层抽样:将个体按照协变量的值分层,在每层内进行经典随机抽样
  • 配对抽样:将个体按照协变量的值两两配对(接近的为一对),在每对内随机抽取一个接受处理一个不接受处理.

很显然配对抽样是分层抽样的一个极端情形能够得到在协变量中分布得最均匀的结果.

现在我们有了随机化实验,有了协变量,也有了潜在结果,就基本上了解了Rubin模型的框架(当然我们也可以在非随机化实验的观测数据问题中推广Rubin模型,那将是之后的文章中将要介绍的问题). 让我们最后再来用一个例子(Lord,1967,p.304)回顾一下因果关系的定义.

一所著名大学想要调查学生身体情况和他们在食堂的饮食是否有联系,以及这种联系是否有性别差异. 这所学校收集了很多数据,特别是每名学生入学时的体重和第一学年结束时的体重. 在Lord的原研究论文里,作者得到了这样一些发现:

男生和女生总体的平均体重在第一学年结束时的体重都基本和刚入学时一致. 而分别来看女生的平均体重比男生要轻一些

有两位统计学家看到了数据并做出了评论. 一个说

没有证据表明食堂饮食对学生的体重有显著影响

而另一位统计学家更仔细地看了数据,然后作出如下发现

把入学体重相近的男生按照入学体重分组后,每组男生的平均体重在一年内都增加了;而同样分组后每组女生的平均体重都下降了,因此食堂饮食导致男生平均体重增加而女生平均体重下降.

他们说的谁对呢?

其实仔细一想以后我们会发现他们说得都不对. 因为他们实际上是在拿观测到的潜在结果之一(一年后的体重)和协变量(刚入学时的体重)做比较,而这两者相减其实并不能反应食堂饮食的因果效用. 只有观测到一个学生在食堂吃一年之后的体重和同一个学生这一年不在食堂吃之后的体重(显然这是不可能同时观测到的)的差值才是真正的因果效用. 很显然对每个学生我们都只能观测到二者之一. 因此我们其实不能从这组数据里直接得到食堂饮食对学生体重变化的因果作用. (在之后的文章中我们会介绍如何利用回归的技术来进行推断)

类似于上面这个例子的错误推论其实比比皆是,特别是在社会科学领域的研究中. 我们不能把一个变量随着时间的变化就简单地当作是因果关系的体现. 因此因果推断领域对于因果关系的定义其实是非常严格的,也有着天然的困难(缺失一半数据). 也正是因为这样,这一领域现在才引起了诸多统计学家的关注和讨论,也是它独特的魅力所在.