大数据面前,统计学的价值在哪里( 九 )
前面举了一些例子 , 提醒我们需要非常小心地设计方案收集数据 。 数据收集上来之后 , 我们还要做数据分析 。 按照前面大不列颠百科全书的说法 , 统计学同样是一门分析数据的艺术 。
讲到数据分析 , 在这里我只讲两个基本概念:相关与因果 。 为什么讲这两个概念呢?这是因为人们常常混淆这两个概念 , 常常会把相关关系误以为是因果关系 。 在许多科学研究和政策问题评价中 , 我们更关心因果关系 。 但是 , 当我们看到了某种形式的相关关系后 , 常常会误以为这就是我们追求的因果关系了 。
比如说 , 在中世纪的欧洲 , 很多人相信 , 虱子对人的健康是有帮助的 。 这是因为当时人们发现 , 得病的人身上很少有虱子 , 而健康人的身上反而是有虱子的 。 这是长期的观察累积下来 , 形成的经验 。 在中世纪的欧洲 , 很长一段时间里人们都根据这个经验 , 得出这样一个因果推论:这个人身上有虱子 , 所以他身体健康 , 那个人身上没虱子 , 说明他身体不健康 。
当时 , 人们确实观察到虱子的存在与否跟人是否健康构成了相关关系 , 但是 , 这是因果关系吗?有了温度计以后 , 人们就发现了 , 这不是真正意义上的因果关系:因为虱子对人的体温非常敏感 , 它只能在一个很小的温度区间范围生存下来 。 而人体一旦生病的话 , 很多时候会出现发烧症状 。 人体一发烧 , 温度变化 , 虱子就无法适应发烧时候的热度 , 于是跑掉了 。 如果我们只停留在观察到健康与否和虱子多寡之间存在关系 , 那实际只是相关关系 , 而不是因果关系 。 与之类似的例子还有很多 , 比如说 , 我们看到每年冰淇淋销量增加的同时 , 各地不幸溺亡的人数也在增加 。 那么这两件事情是不是构成因果关系呢?常识告诉我们 , 肯定不是 。 其实是因为每年气温升高之后 , 游泳的人可能就多了起来了 , 随之溺亡人数也就相应增加了 。 而同样是因为气温升高 , 冰淇淋的销量也会增加 。
也就是说 , 如果我们观察到一个因素出现了一点点变化 , 另外一个因素也会随着跟它变化 , 它们之间可能就有相关关系 , 但是这种相关关系 , 并不意味着这两个因素构成因果关系 。
推荐阅读
- 陈亚男|陈亚男直播狂捞82万?数据作假口碑降到4.09,朱小伟被打内幕被扒
- 肖战|肖战数据多厉害?榜单出炉碾压众多小鲜肉,没想到超过王一博17倍
- 李沁|这数据太真实,不敢相信,没有了肖战的撑场,江苏台收视一落千丈
- 开端|《开端》中7位宝藏演员,都比刘涛演得好,在演技面前,颜值名气都不值一提
- 带货|这些明星用实例告诉我们,“变味”的亲情在利益面前一文不值
- 芒果台|官方公布的收视数据,芒果台还真的拿到了卫视年冠?
- 黄景瑜|黄景瑜:16岁辍学打工,半路出道红透半边天,从不在父母面前流泪
- 肖战|肖战开年喜事连连,斩获年度人气男演员,数据太耀眼
- 选秀|重温《甄嬛传》:她才是最有心机的女人,甄嬛在她面前黯淡失色
- 言承旭|2021年香港流媒体音乐数据:前10位MIRROR占8席,卫兰30强不入?
