不是所有随机对照实验都叫 怼 Judea Jordan Michael Pearl 反事实 (不是所有随机变量的数学期望都存在)
2011 年图灵奖得主、因果科学之父 Judea Pearl 曾提出著名的“因果阶梯”论(Pearl Causal Hierarchy,PCH)。
他认为,因果推断有三个层级,最低的第一层级是相关(association),涉及的是预测,而不涉及因果关系,只讨论变量之间的关联,比如公鸡打鸣与日出之间的相关关系。
第二层级是干预(intervention),涉及因果性,比如吸烟与患肺癌之间的因果关系。
,涉及的是回答诸如“如果情况不是现在这样,可能会发生什么”的问题。
反事实是当下许多因果推断研究的热门话题,但也出现不少蹭热度的研究,一些研究对于“反事实”一词加以不准确的使用甚至滥用。
最近,一篇研究文中多次提及“反事实”的因果推断论文在推特上被转发后,遭到了 Judea Pearl 的批评。

这篇论文的第一作者是加州大学伯克利分校的 Michael Jordan 教授,论文中,作者研究了一种构造算法(constructive algorithm),该算法聚焦于因果推理泛函,通过有限差分逼近统计泛函的 Gateaux 导数。在概率分布是先验未知但也需要从数据中估计的情况下,估计的分布产生经验的 Gateaux 导数,因此作者还进一步考察了经验的、数值的和分析的 Gateaux 导数之间的关系。在反事实均值估计的案例研究中,作者证明了有限差分与解析 Gateaux 导数之间的确切关系。
一个关注提供贝叶斯网络软件和服务的公司账号 @www.ar-tiste.xyz(以下称“ar-tiste”)转发了该论文,并评论:Michael Jordan 教授用贝叶斯网络而不是 SCM 来做反事实,所以他认为可以在不用 SCM 的情况下做第三梯级(即反事实)的推理计算。
SCM 是 Judea Pearl 提出的结构因果模型(Structural Causal MODELs),它由表示因果知识的图模型、反事实和干预逻辑、结构方程组成,常被用于回答反事实问题。
而 Pearl 认为:任何声称使用贝叶斯网络(Rung-2,第二阶梯)进行反事实计算的人都应该受到质疑,证据来自第 35-36 页(Pearl 的著作《Causality: models, reasoning, and inference》)中的示例。Jordan 的这篇论文将反事实定义为 E[Y(1)],也就是第二阶梯,而不是第三阶梯的反事实即 E[Y(1)|Y]。
他所引用的证据就是下面这两页内容:
一位研究因果的俄罗斯研究员也参与了讨论,他指出,反事实涉及的是类似于“如果治疗方案不同,结果有多大可能不同?”的问题。所以,这篇论文并不是在做反事实计算。
ar-tiste 对此回应说,他并没有宣称 SCM 是错误的,而是认为 SCM 是一个特例,如果做一个 bnet 的全概率分布的 FUNCTIONAL Taylor 级数,那么该扩展中的主导项就是 SCM。他认为,这也正是 Jordan 这篇论文的目的,Gateaux 导数是泛函导数。这篇论文并非一篇关于变分推理(VI)的论文。
他接着指出,“潜在结果”(Potential Outcomes,PO)是在没有使用 SCM 的情况下做反事实计算,而 Pearl 和 Bareinboim 声称只能使用 SCM 做反事实计算。所以要么是这篇论文搞错了,要么是 Pearl 的观点错误。
这个说法引起了 Pearl 的强烈反对,他表示,自己并没有声称“只能使用 SCM 进行反事实计算”,他的态度是,“如果你想了解你在做什么,你想捍卫或检验你的假设,那么你就需要知道
Pearl 引用了他早在 2014 年写的一篇博客“On the First Law of Causal Inference”,文中他提到,因果分析的现代工具并不是新事物,而是从 SEM 框架有机继承而来的。因此,人们可以利用 SEM 的研究来使因果分析更有效。

所谓 SEM 是指“结构方程模型”(Structural Equation Model),是一种做多元数据分析的统计工具,在因果研究中,在贝叶斯网络的基础上加入 SEM 可以进一步构建 SCM。Pearl 认为,反事实的结构性定义( structural definition)是因果推理的第一定律。
到这里,论文的作者之一 Angela Zhou 终于出面回应 Pearl :“是的,这篇论文只关注了第二阶梯(干预效应,干预平均值),而根本没有对第三阶梯(反事实)发表任何观点”。
然而,ar-tiste 看到正主回应后并不死心,又去搜了一下论文中的“counterfactual”一词,发现一共被提及了 25 次,所以“at all”这个说法并不准确...
这时,另一个网友站出来解释,在 PO 语境下,干预量和反事实量没有区别,所以即使文中多次出现“反事实”一词,论文本身也可能不涉及 Rung-3。
而 ar-tiste 认为,这似乎暗示了在 Pearl 和 PO 两派(SCM 和 PO 是两种主要的因果框架)眼中,“反事实”的定义不同,但二者都是将 Y(0) 和 Y(1) 定义为反事实变量。
Pearl 则发表了他对于“反事实”的看法,他认为,甚至是做第一阶梯估计的人也会声称自己在研究反事实,因为这个词显得更具现代性和前瞻性,这也是为什么他呼吁人们 只在第三阶梯任务中使用“反事实”这个词
可以看出,Pearl 对于“反事实”一词的使用非常谨慎,在一位不知真相的网友评论 Jordan 这篇论文是“优秀的因果建模并非常有 1980 年代的风格”时,Pearl 就毫不留情地指出,他没有从中看出一点 1980 年代的影子,论文没有 d-separation,也没有 graphoids,跟 1980 年代的图模型是八竿子打不着。
的确,因果推断的研究时下非常热门,也出现了很多盲目追赶潮流的研究,但 Pearl 认为:
最后,论文作者 Angela Zhou 没有给出更多解释,她回应:论文之后的编辑版本将改称为“干预平均值”(interventional mean),以此作为澄清。
不过,Pearl 还是将严谨态度贯彻到底,他认为,即使是“干预平均值”在论文例 1 中的定义也并不明确。
看来,即便是在因果推断这门看似不那么“硬”的学科中,研究者也需要保持足够的严谨精神。

版权文章,未经授权禁止转载。详情见 转载须知 。