Causal AI

发布时间:2020-10-08  栏目:人工智能  评论:0 Comments

Causal reasoning provides a fresh perspective on important topics including key challenges in image-based predictive modelling such as generalization, data scarcity, confounding, robustness, reliability and responsible reporting.

SCM1

SCM

 

常用的统计因果模型都采用了介入主义(interventionism)的诠释:因果关系的定义依赖于「介入」的概念外在的介入是因,产生现象的变化是果

 

一、因果性和相关性的区别

在统计学成为一门严谨的学科、皮尔逊清晰地分离相关性和因果性之前,大多数人都把相关性和因果性混为一谈。即便到了现在,认为相关就代表因果的人也不在少数。

  1. 相关性不代表因果性。
  2. 相关性是对称的,而因果性是不对称的。

用事件A表示「冰激凌销量增加」,用B表示「溺水死亡者数量增加」。A与B之间成正相关,但我们都知道,A与B之间不存在因果关系,它们都是由一个共同的因素「夏天」导致的。由此可见,仅仅使用概率统计的工具,并不足以让我们在现实中做出理性的因果推断

二、事件性因果

当我们说「A是因,B是对应的果」的时候,A和B可以是什么「东西」?

一般而言,我们认为A和B是某种事件,而且A必须发生在B之前。因为「因」必须发生在「果」之前,所以如果A导致了B,那么不可能同时有B导致了A——两个事件无法互为因果。由此可见,因果关系存在一种不对称性

针对「在时间上,因必须先于果」这一条件,哲学家们有过大量的讨论(Backward Causation),其中不少还涉及尖端的量子力学。不过,我们仍然没有理由放弃这一条件。因为,不同的模型有不同的适用范围,而因果模型的适用范围主要是宏观现象、经济、医疗、复杂动力/电路系统,不论微观物理的结论如何,它在已知领域的有效性都不受影响。

有人或许会质疑,为什么两个东西不能互为因果呢?例如,让A1表示草原上羊的数量,让B1表示草原上狼的数量;其他条件不变,狼的增加会导致羊的减少,羊的减少会导致狼的减少,狼的减少会反而导致羊的增加,羊的增加进而导致狼的增加;A1和B1互为因果。

值得注意,A1与B1表示了某种过程,而不是某些固定时间点上的事件,所以A1与B1之间完整的因果关系无法用事件性因果表示。所以,对于这种质疑,我有以下几条回应:

  1. 我们可以按照时间顺序,把每个时间点上的A和B拆分为单独的事件,即B1(狼增加)→A1(羊减少)→B2(狼减少)→A2(羊增加)。如此一来,事件性因果也能表达A与B之间的关系。
  2. 针对过程性的因果,我们有另一种模型——因果环路图(CLD),将在本文第三章介绍。
  3. 过程性因果比事件性因果复杂。在理解过程性因果模型之前,我们需要先理解更简单的事件性因果模型。

对于事件性因果,当前最成熟、最广泛的模型是结构因果模型(Structural Causal Model,以下简称SCM)。SCM结合了结构方程(SEM)、虚拟事实模型(RCM)、概率图模型(主要是贝叶斯网络),并将其应用于因果分析。各类常用因果模型,都可以看作SCM的子类。

2.1. 随机对照试验

任何一本初级统计学课本都会提到,基于观测的统计模型无法可靠地识别因果关系。要确定因果关系,必须通过随机对照试验(Randomized Controlled Trial)。

在一个简单随机对照试验中,试验对象(通常是参加研究的志愿者,下文每一个对象用u表示)会被随机分入两组:实验组(treatment group,下文用t表示)和对照组(control group,下文用c表示)。

2.2. 介入主义的因果观

在随机对照实验的基础框架上,我们可以建立起一个介入主义(interventionism)因果观。

一个介入主义的因果模型包括三部分:

  1. 所有的系统 [公式] :一个包含所有系统 [公式] 的集合。一个系统 [公式] 我们讨论的对象,可以是人体、机械、星球、化学反应系统、经济实体等。
  2. 所有的介入方式 [公式] :一个包含所有可能的介入方式 [公式] 的集合。例如,假设我们讨论的系统 [公式] 是一个有两个按钮的黑箱,一个按钮是红色的,另一个按钮是绿色的,那么所有可能的介入方式为 {按红按钮,按绿按钮,两个按钮都按,两个按钮都不按} 。(在这个具体的例子里,根据黑箱的结构不同,可能的介入方式或许不止四种,所以这只是一个经过简化,以便直观理解的模型。)
  3. 状态函数 [公式] :输入一个系统 [公式] 和一种介入方式 [公式] ,输出系统的某个状态 [公式] ,写作 [公式] 。例如,在一个医疗实验中, [公式] 可以反映「u(病人甲)在受到干预t(服用降压药)之后的y(血压)」。注意,y不一定要完整描述u的状态的所有部分,只反映几个变量也是可以的。我们当然可以让y表示某个病人全身所有分子的运动状态,但这类过于复杂的状态函数,往往没有太大的实用价值。可是,在简单电路这样的系统中,完整表达电路每个节点的状态不仅可行,而且有利。因此,在建立因果模型时,我们需要具体问题具体分析,选择一个合适的状态函数。

 

格兰杰因果的定义:如果得知事件A的发生有助于预测之后的事件B,那么我们说A是B的格兰杰因。然而,格兰杰因果只包含了观测,却没有包含介入,直接操纵A并不一定能影响B,这与我们日常对因果的直觉不符。所以,格兰杰因果虽然名叫「因果」,却只是一个统计相关性的概念,而非真正的因果概念。

 

虚拟事实模型(Rubin Causal Model,简称RCM)由Donald Rubin提出。在RCM中,因果关系「果」的定义是 [公式] 。

虚拟事实模型的不足

虽然RCM提供了一个可以用数学、统计定义的因果模型,但是它的缺点也很明显:在介入时,我们通常一次只能改变一个变量,观测的状态也只有一个变量。如果我们增加变量,模型的体积、需要的训练数据、训练时间都将以指数级增长。在下一部分,我们可以看到,贝叶斯网络先验的条件独立信息可以缓解这一困难。

此外,RCM从自变量的「因」到应变量的「果」的结构几乎完全是个黑箱,缺乏更清晰的可解释性。因此,单个RCM所能解决的问题也较为有限。相比之下,结构因果模型能为因果律、多变量之间的因果关系提供更详细的解释。

 

贝叶斯网络

贝叶斯网络是一种基于有向无环图(directed acyclic graph,简称DAG)的概率图模型。虽然贝叶斯网络并不能直接表示因果,只能表示相关,但是它的图结构是SCM的基础。

贝叶斯网络(以及其他所有的概率图模型)相比于原始的联合分布模型,最大的优势在于增加了变量之间条件独立的先验信息,从而减小了模型的体积,与模型进行推断、学习的时间

条件独立的信息是先验的,它们往往由任务相关的专家提供,而非从数据中学习得到。这种做法能保证网络结构的可靠。(此处讨论的是parameter learning而非structure learning,网络结构已知而参数未知;对于后者,我们有Chow-Liu算法,但此处不讨论。)之后,我们也会发现,类似的先验因果假设在SCM中有重要地位。

如果我们把箭头看作从因指向果,把A→B看作A导致了B,那么贝叶斯网络看起来似乎能表达因果关系。然而,贝叶斯网络本身无法区分出因果的方向。例如,A←B←C与A→B→C的因果方向完全相反,但在贝叶斯网络的模型描述下,它们表达的概率分布和条件独立假设完全相同。

 

结构方程+结构因果模型

为了表示因果关系,我们需要对贝叶斯网络进行改进。结构方程模型(Structural Equation Model,简称SEM)在经济与工程领域十分常用。在贝叶斯网络的基础上加入SEM的成分之后,我们就离完善的SCM(结构因果模型)更近了一步。

 

更多参考:

Causal Reinforcement Learning (causalai.net)

https://zhuanlan.zhihu.com/p/33860572

 

 

因果推理综述以及一些参考链接:

因果推理综述——《A Survey on Causal Inference》一文的总结和梳理 – 打瞌睡的布偶猫 – 博客园 (cnblogs.com)

留下评论

You must be logged in to post a comment.

相册集

pix pix pix pix pix pix

关于自己

杨文龙,微软Principal Engineering Manager, 曾在各家公司担任影像技术资深总监、数据科学团队资深经理、ADAS算法总监、资深深度学习工程师等职位,热爱创新发明,专注于人工智能、深度学习、图像处理、机器学习、算法、自然语言处理及软件等领域,目前发明有国际专利19篇,中国专利28篇。

联系我

个人技术笔记

welonshen@gmail.com

2015 in Shanghai