应用|朱悦 | 应用市场竞争和个人信息收集:来自二百五十万款应用的证据

应用|朱悦 | 应用市场竞争和个人信息收集:来自二百五十万款应用的证据
图片

放眼数字世界 , 反垄断法落实 , 晦暗已久;个人信息保护 , 风烟正盛 。 有声音以前者主张后者 , 也有声音以后者倡导前者 , 不过 , 二者是否确实存在联系 , 始终难以澄清 。 在理论言说多到让人“晕头转向”的现状下 , 审视现实 , 便成相当重要的视角 。 Kesler、Kummer和Schulte深谙此道 。 延续先前作品[1] , 在新近文章中 , 他们初步阐明:二者确有密切联系 。
应用|朱悦 | 应用市场竞争和个人信息收集:来自二百五十万款应用的证据
图片

图1 原文采集数据所用爬虫的运作流程 。 范围涉及谷歌商店的250万款左右应用 , 形成跨越2015-2018年各季度的面板数据
首先 , 稍微展开解决此类问题的思路 。 具言之 , 文章的任务 , 是在“应用收集个人信息的范围”和“应用所在市场的集中程度”间 , 建立较为扎实的联系 。 从应用权限列表等着手 , 整理前一数据 , 有迹可循;整理后一数据 , 尤其困难 , 是监管、业界、学界常年“打架”的难点 , 本文有颇为“因地制宜”的新思路 。 最后 , 检验相似命题 , 还需要考虑需求等许多变量[2] 。
应用|朱悦 | 应用市场竞争和个人信息收集:来自二百五十万款应用的证据
图片

图2 所有应用中 , “索取不同数量的、并非为应用功能所必需权限”和“内置不同数量的、侵入式第三方组件数量”的各自占比在不同权限和组件数量上的频率分布
如上所述 , 应用索取权限 , 是度量“收集信息范围”的基点 。 在先前研究中 , 作者已经系统检视了安卓中涉及(敏感)信息收集的权限 , 计25种[3] 。 由此 , 应用“是否索取相应权限”和“索取相应权限数量” , 很自然地成为相应的度量 。 为求全面 , 原文还引入另两种争议稍大的度量:“索取并非为应用功能所必需权限数量”[4]和“内置侵入式第三方组件数量”[5] 。
应用|朱悦 | 应用市场竞争和个人信息收集:来自二百五十万款应用的证据
图片

图3 以特定应用为结点 , “是否相似应用”为边 , 得到的应用相似关系简图 。 作者认为:特定的集簇 , 可以作为界定相关市场的依据
市场界定方面 , 从谷歌市场内置的“相似应用”[6]功能出发 , 如上图所示 , 作者从应用全图中识别了呈集簇模式的子图 , 并以相应子图划分相关市场[7] 。 取定相关市场 , 则可以“评价数”[8]或“装机数”[9]作为市占率度量 。 由此 , 无论是市场内应用总数 , 还是市场的赫芬达尔指数 , 都是自然的市场集中程度指标 。 在检验中 , 原文还考虑了谷歌自带的类别划分 。
应用|朱悦 | 应用市场竞争和个人信息收集:来自二百五十万款应用的证据
图片

图4 横轴:不同市场的集中指数(赫芬达尔指数 , 三图皆同) , 自每图内部从左向右增加;纵轴 , 市场内应用收集敏感权限数量(左图 , 可见显著正相关)、收集不敏感权限数量(中图 , 未见显著相关)、收集敏感权限与不敏感权限比值(右图 , 可见显著正相关)
在“收集范围”和“市场集中”之外 , 检验还需考虑用户需求等变量 。 需求部分 , 应用评价总数可以作为代理变量 。 在其它控制上 , 同样承继之前工作 , 原文纳入以下指标:是否收费、收费价格、有无广告、平均评价、所属类别、有无隐私协议、合适年龄范围、内容描述长度、开发者先前上架应用数量 , 等等 。 对分布有偏变量 , 还检验了是否取对数等两种形式 。
应用|朱悦 | 应用市场竞争和个人信息收集:来自二百五十万款应用的证据
图片

图5 横轴:不同应用的市场份额 , 自每图内部从左向右增加;纵轴 , 市场内应用收集敏感权限数量(左图 , 可见显著正相关)、收集不敏感权限数量(中图 , 可见显著正相关)、收集敏感权限与不敏感权限比值(右图 , 可见显著正相关)


推荐阅读