互联网如何让我们不高兴 | 世界读书日书单(内附福利)( 六 )



应该说 , 这两个方面的担忧都非常重要 , 是人类社会在步入大数据时代之际必须敲响的警钟 。 但是 , 从“体”“用”之分的角度说 , 它们都还属于“用”的层面 。 其实 , 在“体”的层面上 , 大数据技术便存在着与生俱来的盲区 。 美国学者爱德华·坦纳(Edward Tenner)的《效率悖论:枉费大数据》(The Efficiency Paradox: What Big Data Can't Do)一书 , 就是从“效率”这个关键词出发 , 系统揭示了大数据技术的盲区及其后果 。

此书的中心思想非常简洁明了 。
坦纳指出:“那种试图在一切事情上都达到效率极致的做法 , 能够在短期获得成功 , 但是从长期而言 , 势将损害效率 。 ”此即“效率悖论” 。

那么 , 什么是效率呢?坦纳对“效率”(efficiency)和“效力”(effectiveness)之间做了严格区分 。
他把“效率”定义为“以最小程度的消耗来制造产品 , 提供服务或信息 , 以及进行交易” 。
举一个例子 , 使用内燃机的机械犁远比用马拉的铁犁有效力 , 但是前者消耗的平均能量是后者的13倍 , 这意味着机械犁并不是很有效率 。
只有那种不仅能够增强“效力” , 而且能够显着提升“效率”的技术 , 才配得上“技术进步”这个称号 。

坦纳进而界定了两种意义上的“效率” 。 其一是所谓“连续进程效率”(continuous-process efficiency) , 它在19世纪工业革命的大潮中诞生 , 要义在于能够将此前需要一片接一片制造的产品以川流不息的方式连续生产出来 。 一个形象的画面是报纸在印刷过程中源源不断地“流”出印刷机 。 “连续进程效率”的前提是水轮机、蒸汽机等机器的发明能够提供巨大的动力 , 而且产量的大幅提升能够降低每一件产品的平均能源消耗 。 显然 , 这不仅是一场技术革命 , 更是一场生产方式的革命 。 在工业时代 , 公众在谈及“效率”时 , 所指的基本上都是“连续进程效率” 。

另一方面 , 进入信息时代以后 , 出现了第二种意义上的效率——“平台效率”(platform efficiency) 。 关于平台 , 最典型的例子就是互联网世界中的“云” 。 “云”可以让用户迅速找到需要的信息 , 可以用最小的能量消耗实现买家和卖家的匹配 。 大数据技术的功能就在于提高“平台效率” 。

然而 , 提高“平台效率”所导致的结果却未必有效 。

例如 , 网络搜索算法可以帮助用户寻找到上溯至19世纪的科学文献 。 理论上 , 这意味着研究者可以接触到大范围的文献 , 由此发掘出长期被遗忘的资料 , 增加援引文献的多样性 。 但事实上 , 社会学家通过统计分析3.5亿篇学术论文的文献索引得出结论 , 在运用网络搜索之后 , 大多数研究者的视野其实变狭隘了 , 他们援引的平均论文数量变少了 , 而且普遍只关注新近的和公认重要的论文 。 究其原因 , 网络搜索算法具有“自我强化的反馈环” 。 一篇论文以前被搜索得越多 , 它就越容易被搜索算法匹配给新的搜索者 。

坦纳指出 , 这个例子可以说明
大数据技术之“平台效率”的基本特征——通过迅速实现信息匹配 , 大数据技术省略了“试错”过程 , 从而把用户锁定在既存的模式里 。

例如 , 出版商和制片人可以通过大数据了解到 , 针对某一特定人群 , 什么类型的书籍和影视作品是最受欢迎的 , 据此出版和制作相应的产品 。 这样一来 , 每一本新书、每一部新电影似乎都可以保证有利可图 , 但是那种能够横扫不同人群 , 具有强大震撼力的作品会越来越少 。

“平台效率”的主要目标之一 , 在于实现信息交流的“无摩擦”状态 , 实现信息发布方和接受方之间 , 或是买方和卖方之间的直接匹配 , 消除第三方中介的存在 。 然而 , 坦纳指出 , 第三方中介具有不可抹杀的存在价值 , 他们在信息交流的过程中承担了必要的“守门人”功能 。


推荐阅读