大数据面前,统计学的价值在哪里( 九 )

前面举了一些例子 , 提醒我们需要非常小心地设计方案收集数据 。 数据收集上来之后 , 我们还要做数据分析 。 按照前面大不列颠百科全书的说法 , 统计学同样是一门分析数据的艺术 。

讲到数据分析 , 在这里我只讲两个基本概念:相关与因果 。 为什么讲这两个概念呢?这是因为人们常常混淆这两个概念 , 常常会把相关关系误以为是因果关系 。 在许多科学研究和政策问题评价中 , 我们更关心因果关系 。 但是 , 当我们看到了某种形式的相关关系后 , 常常会误以为这就是我们追求的因果关系了 。

比如说 , 在中世纪的欧洲 , 很多人相信 , 虱子对人的健康是有帮助的 。 这是因为当时人们发现 , 得病的人身上很少有虱子 , 而健康人的身上反而是有虱子的 。 这是长期的观察累积下来 , 形成的经验 。 在中世纪的欧洲 , 很长一段时间里人们都根据这个经验 , 得出这样一个因果推论:这个人身上有虱子 , 所以他身体健康 , 那个人身上没虱子 , 说明他身体不健康 。

当时 , 人们确实观察到虱子的存在与否跟人是否健康构成了相关关系 , 但是 , 这是因果关系吗?有了温度计以后 , 人们就发现了 , 这不是真正意义上的因果关系:因为虱子对人的体温非常敏感 , 它只能在一个很小的温度区间范围生存下来 。 而人体一旦生病的话 , 很多时候会出现发烧症状 。 人体一发烧 , 温度变化 , 虱子就无法适应发烧时候的热度 , 于是跑掉了 。 如果我们只停留在观察到健康与否和虱子多寡之间存在关系 , 那实际只是相关关系 , 而不是因果关系 。 与之类似的例子还有很多 , 比如说 , 我们看到每年冰淇淋销量增加的同时 , 各地不幸溺亡的人数也在增加 。 那么这两件事情是不是构成因果关系呢?常识告诉我们 , 肯定不是 。 其实是因为每年气温升高之后 , 游泳的人可能就多了起来了 , 随之溺亡人数也就相应增加了 。 而同样是因为气温升高 , 冰淇淋的销量也会增加 。

也就是说 , 如果我们观察到一个因素出现了一点点变化 , 另外一个因素也会随着跟它变化 , 它们之间可能就有相关关系 , 但是这种相关关系 , 并不意味着这两个因素构成因果关系 。


推荐阅读