华为从华为差分隐私技术看保护个体数据有多重要
_本文原题:从华为差分隐私技术看保护个体数据有多重要
数据分析在各个行业领域中的运用已经显而易见 。 它可以通过大数据统计分析对大批量群体特征数据进行信息的萃取与提炼 , 不断提取有用信息 , 形成研究报告和概括总结 , 最终帮助大部分机构或公司挖掘出数据更多的内在价值 。 比如 , 公司根据数据分析的精准结果做出粗略判断 , 判断产品生命周期的时长、产品的投放区域、大众喜好的颜色等 。
在过去 , 收集个人数据的方式非常直接 , 街头问卷调查可以将姓名、性别、手机号、习惯喜好等全部收集起来 , 如此一来 , 个人隐私的泄露也更加直观 。 随着科技、人工智能的发展 , 在各个平台上收集群体特征已经不再是难事 , 但是泄露隐患也随之增加 。
我们在数据使用过程中 , 主要的隐私泄露风险有三种:直接识别个体、链接攻击和推理攻击 。 可以肯定的是 , 删除姓名、证件号等身份标识能够在一定程度上保护个人隐私 , 但是并不能完全保证隐私信息的安全性 。 因为每个参与统计的个体都上传了其个体特征 , 用于分析的数据集一旦公开发布 , 攻击者就可以利用链接攻击和推理攻击等差分攻击技术 , 从最终分析结果中获取用户数据 , 比如个人消费习惯、收入情况、医疗就诊记录等 。
本文插图
这是发生在1997年的经典案例 , 卡内基梅隆大学的教授Latanya Sweeney , 她将匿名化的GIC数据库(包含每位患者的出生日期、性别和邮政编码)与选民登记记录相连 , 从而找出了马萨诸塞州州长William Weld的病历 。 由于大数据报表只需要呈现群体特征 , 不需要知道每个人的具体情况 , 因此 , 保护每个参与统计的个体数据就显得至关重要 。
本文插图
Latanya Sweeney
DWORK于2006年提出了差分隐私(differential privacy)技术 , 这是一项针对加入失真数据做统计的技术 , 它可以用噪声干扰计算过程 , 把原始数据淹没在噪音中 , 别有用心的人就无法从大数据报表中反推出原始数据 。 数据在离开个人设备之前 , 为数据添加噪声 , 这样云侧也无法识别单个个体的数据 。 简而言之 , 攻击者无法判断某个用户的数据是否在这个数据集中 , 也无法识别至单个人的隐私数据 , 以此保证多个场景下的个人隐私 。 比如一名男性参与了抽烟习惯研究的数据库 , 他不用担心其他分析数据库的人可以找到他的相关信息 , 甚至不用担心能否查询到他的数据是否在数据库中 。
本文插图
为了在更有效的保护个体用户隐私的基础上 , 提升用户的使用设备体验 , 华为在2018年率先将差分隐私技术引入到"用户体验改进计划"中 。
在"用户体验改进计划"中 , 华为希望通过收集用户的设备上有关可靠性、性能、功耗统计数据 , 故障和错误信息 , 以及有关用户设备和应用软件使用方式的数据 , 为用户提供更加可靠、流畅、省电的软硬件系统 , 打造极致的使用体验 。 但是只有在获得用户明确同意后 , 数据才会发送给华为 , 同时运用差分隐私技术可以在数据中添加随机噪声 , 华为无法获得真实数据 , 只有在与其他大量用户数据结合 , 并且平均掉随机添加的噪声 , 相关统计信息才会显现 。
如此一来 , 华为在无法获得用户原始数据的基础上既能识别出某些特性的群体使用率、使用次数、留存率等分析数据 , 不断提升用户使用体验 , 又可以防止攻击者无法反推出用户的原始隐私数据 。
推荐阅读
- 站长之家 华为成立数通自动驾驶网络联合实验室
- 华为|任正非亲自出马,密集调研顶尖高校,原来华为的战略要这么调整
- 婷小姐|麒麟990+128GB,目前已经跌成“小米价”,华为降价最狠的一款旗舰
- 科技小蠕虫|又一国家绕开华为,3大运营商核心网络不用华为,美国“围剿”下
- 忧家娱乐 华为手机维修,华为Nova5位置图
- 华为|消息称华为Mate 40发布时间或推迟到10月底:包含四个版本
- 网络华为成立数通自动驾驶网络联合实验室
- 华为|华为正式成立数通自动驾驶网络联合实验室:像改变汽车一样改变网络
- 【网络】华为成立数通自动驾驶网络联合实验室
- 程序员|强力支持!国家再出重拳,这是要彻底解决华为芯片危机
