应用|朱悦 | 应用市场竞争和个人信息收集:来自二百五十万款应用的证据( 二 )


其次 , 在检验方面 , 作者同时考虑了横截面和面板回归两种设定 。 简言之 , 结果相当稳健:市场愈集中 , 应用收集信息的范围 , 平均而言愈大 。 不过 , 相应差别的幅度较小:相比未见集中的应用市场(赫芬达尔指数小于1000) , 高度集中(赫芬达尔指数大于8000[10])市场平均多收集1-2%的信息 。 换用前述各项指标 , 相应估计及效应幅度 , 均始终保持稳健 。
应用|朱悦 | 应用市场竞争和个人信息收集:来自二百五十万款应用的证据
图片

图6 应用类别发生变化前后 , 界面显示的差异(部分)
恰如作者所述 , 即有更换指标、调整样本和增加控制等方法 , 此处仍有多种不易彻底解决的内生性 。 对此 , 原文尝试以下方法:2016年9月 , 谷歌“突然”[11]引入八种新的应用类别 , 并重新划分既有应用 。 结果 , 部分原属同一类别的应用 , 因此分入集中程度不同的类别 。 于是可以采用类似双重差分的识别方法[12] 。 相应估计在方向和幅度上都印证了之前结论 。
应用|朱悦 | 应用市场竞争和个人信息收集:来自二百五十万款应用的证据
图片

图7 类别调整时间点(对应竖线) , 留存于原类别内应用(实线)和分入新类别内应用(虚线)在索取敏感权限(左图)和所处市场集中程度(右图)上的变化
总之 , 尽管仍有一些细节值得讨论 , 从现有结果出发 , 认为“市场竞争程度不足”与“大量收集个人信息”间存在因果 , 似有足够依据 。 其中值得讨论的点 , 大多是相应问题难度高企的折射 。 未来 , 或可尝试更多衡量相关市场(不同的识别、调研有代表性用户样本、比对内容介绍相似度 , 等等)方法 , 渐渐加强相关结论 , 并为最终“武装”两类法律 , 立下充分根基 。
[1] Kummer, Michael, and Patrick Schulte. "When private information settles the bill: Money and privacy in Google’s market for smartphone applications." Management Science 65.8 (2019): 3470-3494 , 亦见于之前介绍《数据隐私、用户规模与企业存亡:来自三十万款应用的证据》 。
[2] 本文的实证框架相对简单 。 在实际探讨此类问题时 , 仍存在其它许多相当复杂的进路 。
[3] 见前注1中Kummer和Schulte研究 。
[4] 显然 , 此处最大的难点在于定义“为应用功能所必需的权限” 。 任何细致界定这一范围的努力 , 都面临商业、技术和概念等层面上的众多困难 , 也(尤其是在“过度收集”越发引起关注的时节里)涉及许多利益 。 这里 , 作者承继前注1中研究 , 采取了一种颇为聪明、但仍可审视的定义:由于收费应用通常在收集信息方面较为克制 , 所涉权限大多为实现功能所必须 。 因此 , 对特定的待研究应用范围(或者“相关市场”) , 对特定的权限 , 先计算范围内收费应用索取前述权限的比例 , 再和所有收费应用(二百五十万)索取前述权限的比例比较 , 如果前者大于后者 , 则界定相应权限为为相应范围内应用实现功能所“必须” , 否则 , 不是“必须” 。
[5] 作者这里的定义 , 似乎没有很好地落实“侵入式”这一特性 , 而是涵盖了范围相当广的第三方组件 。 同理 , 这一度量同样可以进一步考究 。
[6] 尽管作者在此处的处理相当精巧 , 仍有以下三个方面需要指出 。 首先 , 谷歌商店显示的“相似”数量有上限 , 这可能以相当复杂的形式引入度量误差(可能导致相关市场的划分过窄 , 且误差幅度在不同大小的市场上分布不一致) , 暂不清楚原文的实证方法是否足以充分揭示或纠正此处误差 。 相应上限随时间变动的事实 , 导致上述问题更为复杂 。 其次 , “相似”的衡量标准并不清晰 , 变更和解释均系于谷歌之手 , 宜抽样并与其它相关指标交叉检验;最后 , 指标在相当程度上系于平台之手 , 这一点可能在相当程度上压缩指标得以实际运用的空间 。


推荐阅读