『人工智能』当谈论机器学习中的公平公正时,我们该谈论些什么?( 七 )


公平性定义
本文中进行公平性分类和回归过程 , 使用了两个基本的定量统计定义:
SP (Statistical parity):预测函数 f 如果独立于某个受保护的属性 A , 即预测函数 f 满足 (X,A,Y) 上分布的统计奇偶性 , 与受保护属性无关 , 我们就说该函数满足 SP 要求 。 当 f(X)∈[0,1] 时 , 我们有:P[f(X)≥z|A=a]=P[f(x)≥z] 。
BGL(Bounded group lost):如果对于每个受保护的属性 A 来说 , 预测损失都低于某一预先确定的值 , 这个函数 f 满足于 BGL 。 以语音或人脸识别任务为例 , 这一公平性要求表示所有的组别都能获得较好的识别效果 。 当 E[l(Y,f(X))|A=a]≤ζ , 我们得到预测水平为ζ的预测函数 f 。
公平回归(Fair Regression)
公平回归的过程就是在满足 SP 或 BGL 的前提下最小化损失函数 E[l(Y),f(X)] 。 我们需要在该前提的约束下进行优化 。
SP:本文设置一个可调值用于控制公平性的准确度 , 例如针对每个属性的松弛参数ε_a , 此时公平回归任务为:
『人工智能』当谈论机器学习中的公平公正时,我们该谈论些什么?
本文插图

(1)
BGL:针对每个属性 , 设定一个约束参数ζ_a , 此时公平回归问题为:
『人工智能』当谈论机器学习中的公平公正时,我们该谈论些什么?
本文插图
【『人工智能』当谈论机器学习中的公平公正时,我们该谈论些什么?】

(2)
与第一篇论文提到的公平分类相似 , 为了实现更好的公平性-准确性权衡 , 这篇论文的作者在公平回归问题中引入一个随机预测因子(Randomized predictors):首先根据分布 Q 选取 f , 然后基于 f 进行预测 。 基于公式(1)和(2)给出下述符号:
『人工智能』当谈论机器学习中的公平公正时,我们该谈论些什么?
本文插图

由此得到 SP 的目标函数:
『人工智能』当谈论机器学习中的公平公正时,我们该谈论些什么?
本文插图

(3)
以及 BGL 的目标函数:

『人工智能』当谈论机器学习中的公平公正时,我们该谈论些什么?
本文插图

(4)
监督学习示例
本文作者展示了如何将公平回归问题转化为三个标准的学习问题:加权最小二乘回归、在不公平约束下的加权风险最小化(无公平性约束)、成本敏感分类问题 。 加权最小二乘回归的风险优化问题:给定数据集 {(Wi,Xi,Yi)} , Wi 为非负权重 , f 最优化权重经验风险:

『人工智能』当谈论机器学习中的公平公正时,我们该谈论些什么?
本文插图

在不公平约束下的加权风险最小化:使用 l 衡量准确度 , 能够得到针对相同类别 F 的加权最小二乘学习者 。 损失函数为:
『人工智能』当谈论机器学习中的公平公正时,我们该谈论些什么?
本文插图

成本敏感分类:给定数据集 {(X^i,,Ci)} , 其中 X『i,, 为特征向量 , Ci 为表征成本(例如损失函数)区别 。 正值 Ci 表示 0 为最佳 , 负值 Ci 则表示 1 为最佳 。 成本敏感分类的最终目标为找到能够最优化经验成本的分类器 h 。 给定数据集 {(Wi,X^i,Yi)} , 当 Yi=1{Ci≤0} , 以及 Wi=|Ci| , 目标函数为:

『人工智能』当谈论机器学习中的公平公正时,我们该谈论些什么?
本文插图

根据以上 , 作者就可以做出有 SP 或者 BGL 约束的公平回归算法 。
实验结果
本文使用如下数据库进行实验比对:成人库(Adult)、法学院(Law School)、社区和犯罪(Communities&Crime) 。 由于前两个库较大 , 本文也在其子库上进行了实验 。 对比基线算法包括不受任何公平约束的回归 , 以及来自公平分类和公平回归领域的两个基线算法 。 两个基线算法具体为:在任务为最小二乘回归的三个数据集上 , 本文使用完全实质性机会均等(full Substantive Equality of Opportunity, SEO)[10] 算法作为基线;在两个任务为 logistic 回归的数据集上 , 本文运行公平分类(Fair Classification , FC)[11] 算法作为基线 。


推荐阅读