『人工智能』当谈论机器学习中的公平公正时,我们该谈论些什么?( 七 )
公平性定义
本文中进行公平性分类和回归过程 , 使用了两个基本的定量统计定义:
SP (Statistical parity):预测函数 f 如果独立于某个受保护的属性 A , 即预测函数 f 满足 (X,A,Y) 上分布的统计奇偶性 , 与受保护属性无关 , 我们就说该函数满足 SP 要求 。 当 f(X)∈[0,1] 时 , 我们有:P[f(X)≥z|A=a]=P[f(x)≥z] 。
BGL(Bounded group lost):如果对于每个受保护的属性 A 来说 , 预测损失都低于某一预先确定的值 , 这个函数 f 满足于 BGL 。 以语音或人脸识别任务为例 , 这一公平性要求表示所有的组别都能获得较好的识别效果 。 当 E[l(Y,f(X))|A=a]≤ζ , 我们得到预测水平为ζ的预测函数 f 。
公平回归(Fair Regression)
公平回归的过程就是在满足 SP 或 BGL 的前提下最小化损失函数 E[l(Y),f(X)] 。 我们需要在该前提的约束下进行优化 。
SP:本文设置一个可调值用于控制公平性的准确度 , 例如针对每个属性的松弛参数ε_a , 此时公平回归任务为:
本文插图
(1)
BGL:针对每个属性 , 设定一个约束参数ζ_a , 此时公平回归问题为:
本文插图
【『人工智能』当谈论机器学习中的公平公正时,我们该谈论些什么?】
(2)
与第一篇论文提到的公平分类相似 , 为了实现更好的公平性-准确性权衡 , 这篇论文的作者在公平回归问题中引入一个随机预测因子(Randomized predictors):首先根据分布 Q 选取 f , 然后基于 f 进行预测 。 基于公式(1)和(2)给出下述符号:
本文插图
由此得到 SP 的目标函数:
本文插图
(3)
以及 BGL 的目标函数:
本文插图
(4)
监督学习示例
本文作者展示了如何将公平回归问题转化为三个标准的学习问题:加权最小二乘回归、在不公平约束下的加权风险最小化(无公平性约束)、成本敏感分类问题 。 加权最小二乘回归的风险优化问题:给定数据集 {(Wi,Xi,Yi)} , Wi 为非负权重 , f 最优化权重经验风险:
本文插图
在不公平约束下的加权风险最小化:使用 l 衡量准确度 , 能够得到针对相同类别 F 的加权最小二乘学习者 。 损失函数为:
本文插图
成本敏感分类:给定数据集 {(X^i,,Ci)} , 其中 X『i,, 为特征向量 , Ci 为表征成本(例如损失函数)区别 。 正值 Ci 表示 0 为最佳 , 负值 Ci 则表示 1 为最佳 。 成本敏感分类的最终目标为找到能够最优化经验成本的分类器 h 。 给定数据集 {(Wi,X^i,Yi)} , 当 Yi=1{Ci≤0} , 以及 Wi=|Ci| , 目标函数为:
本文插图
根据以上 , 作者就可以做出有 SP 或者 BGL 约束的公平回归算法 。
实验结果
本文使用如下数据库进行实验比对:成人库(Adult)、法学院(Law School)、社区和犯罪(Communities&Crime) 。 由于前两个库较大 , 本文也在其子库上进行了实验 。 对比基线算法包括不受任何公平约束的回归 , 以及来自公平分类和公平回归领域的两个基线算法 。 两个基线算法具体为:在任务为最小二乘回归的三个数据集上 , 本文使用完全实质性机会均等(full Substantive Equality of Opportunity, SEO)[10] 算法作为基线;在两个任务为 logistic 回归的数据集上 , 本文运行公平分类(Fair Classification , FC)[11] 算法作为基线 。
推荐阅读
- 机器人|深圳机器人产业产值1257亿元
- |《5G技术助力国产机器人完成全球首场骨科实时远程手术》公示材料
- 美军事进行时|五角大楼研制挖隧道的蚯蚓机器人为地面部队提供安全补给
- cnBetaTB|看机器人如何制作出既有颜值又美味的蛋饼
- 山东伟豪思|袋料全自动拆垛机器人的使用给企业带来了哪些益处
- 无人机这两项机器人发明,就是东京大学进军外卖界的野心!?
- 搜狐新闻|【复材资讯】碳纤维机器人手臂设计需要考虑的要素
- SILVER六足龙虾机器人成海底“清洁工”,可下潜200米续航16小时
- 简明科学指南|微软用人工智能取代新闻工作者
- 新智元|人工智能领域很多引人注目的进展并不真实
