原创 公平风险衡量标准定义

2019-11-12 11:02 444 1 2 分类: 机器人/ AI 文集: 人工智能

确保分类在敏感特征(例如,种族或性别)方面是非歧视性的或公平的是一个热门话题。这项任务的进展需要公平的定义,过去几年在这方面已经提出了一些建议。然而,其中一些假设二元敏感特征(因此排除了分类或实值敏感组),或者导致非凸目标(因此不利地影响优化环境)。在本文中,我们提出了一种新的公平定义,它概括了一些现有的提议,同时允许通用的敏感特征并导致一个凸的目标。关键的想法是强制执行敏感特征引起的每个子组的预期损失(或风险)是相称的。我们展示了这与数学关于风险度量的丰富文献有何关联。作为一种特殊情况,这会导致基于最小化风险条件值(CVaR)的新的凸性公平感知目标。

1. 介绍

确保学习的分类在某些敏感特征(例如,种族或性别)方面是非歧视性的或公平的是一个主题问题[Pedreshi等,2008,Zliobait_e,2017,Chouldechova等,2018]。在这个问题上取得进展需要人们就某种公平的概念达成一致;为此,个人[Dwork et al。,2012,Kusner et al。,2017,Speicher et al。,2018]和集团层面[Calders and Verwer,2010,Feldman等]都有几个公平的定义。 al。,2015,Hardt et al。,2016,Zafar et al。,2017b,Heidari et al。,2019]。最近,有几项着作[Zafar等,2017b,Dwork等,2018,Hashimoto等,2018,Alabi等,2018,Speicher等,2018,Donini等,2018,Heidari等。通过在子群损失方面解决问题,已经提取了早期的公平性。直觉上,这些工作假定一个公平的预测器会对每个敏感特征子群(例如男性和女性)产生类似的损失。人们通过最小化子群损失差异的特定概念来鼓励公平。对于特定的损失选择,这导致凸起的目标[Zafar等,2017c,Donini等,2018]。在本文中,我们提出了一个遵循这一主题的新公平定义,但提取了子群损失差异的概念。我们得到的框架适用于通用凸基础损失(例如,铰链),复杂敏感特征(例如,多值),并且导致凸目标。详细而言,我们的贡献如下:

(C1)建立在子群错误方面的公平概念[Zafar等,2017b,Dwork等,2018,Donini等,2018],我们提供了一个新的公平定义(定义3)每个敏感特征子组的平均损失(或风险)偏差较小。 (C2)我们在我们提出的公平定义和关于风险度量的丰富文献之间建立了联系(推论12)[Artzner et al。,1999,Fol​​lmer and Schied,2011],从而允许人们利用后者的工具和分析。 (C3)我们基于最小化风险条件值(CVaR)[Rockafellar和Uryasev,2000]提出了一个新的凸公平感知目标(公式26),并将其与现有的学习目标联系起来。

简而言之,我们的建议是将标准风险分解为敏感特征所定义的每个子组的风险。我们通过聚合器将这些结合起来,聚合器测量子群风险的均值和偏差。通过定义聚合器应满足的一些公理,我们从nance和运算研究中获得风险度量的联系。我们注意到,本文中的大部分工作都是为了解决问题,以便轻松利用大量现有的风险衡量结果;但是,据我们所知,这些工具对公平的应用是新颖的。最终结果是一个简单,强大的框架来学习公平的分类。在续集中,在回顾现有工作(x2)之后,我们介绍了我们新的公平定义(x3),并将其与财务风险度量(x4)联系起来。我们详细介绍了一个采用风险条件值(x5)的特殊情况,进一步发展了我们的方法(x6),并证实了它的经验可行性(x7)。

2. 公平作为子群风险偏差

我们通过引入子群风险的概念来呈现我们新的公平度量,并使用它来确定完美(x3.2)和近似公平性(x3.3)的自然度量。 我们还提出了一些反复出现的符号,总结在表1中。我们提出的核心思想是通过测量子群的平均行为和偏差来计算子群风险(方程式14和15)。

公平风险衡量标准

3.1小组风险

观察到敏感特征S将实例空间X划分为子组(例如,男性和女性)。 确定两个诱导量是有用的。 第一个是预测器f的子组风险,对于任何s 2属于S都有:

公平风险衡量标准

第二个是随机变量L(f):= LS(f),总结了所有子群风险。 对于|S|<∞,这仅仅是一个离散随机变量,它采用|S|可能值,即

公平风险衡量标准

,具有相应的概率P(S = s)。

我们现在可以将(1)中的原始风险L(f)重写为这些子群风险的平均值:

公平风险衡量标准

因此,学习(1)的基本目标可以表达为:

公平风险衡量标准

这样一个人寻求良好的平均亚组风险。在x2中讨论之后,我们分两步进行:我们首先根据子群风险确定完美公平的概念,然后提出相同的近似版本。

3.2通过子群风险实现完美公平

x2.2中的每一个公平度量都表明我们的预测器f在由S引起的子群体中表现相似。我们采用了一种忠实于此的完美公平概念。

公平风险衡量标准

抽象地说,(11)背后的想法是理想地选择损失,以捕捉忽视公平的问题的所有方面; 完美公平意味着无论敏感属性的价值如何,性能都不会发生变化。 对于特定的“选择”,由于Zafar等人的说法,第1版抓住了现有的完美公平概念。[2017b]。

公平风险衡量标准

定义1并不是衡量完美公平的新方法。 的确,Donini等人。 [2018,附录H]基本上考虑了相同的概念,对Y = 1进行了额外的调节。其他几项近期工作隐含地证明了在子群风险方面的公平性[Dwork et al。,2018,Hashimoto et al。,2018,Alabi et al。,2018]。 此外,最近基于福利的公平概念[Speicher et al。,2018,Heidari et al。,2019]也假定公平的分类同等地分配了利益(即负损失)。

然而,我们在第1版的基础上提出了一种近似公平的新概念,这种概念具有吸引人的特性,并为金融风险度量工具提供了桥梁。

3.3通过子组偏差的近似公平性

基于(11)设计近似公平度量的自然方法是确保子群风险L(f)大致恒定。 形式上,对于随机变量的非恒定性的一些偏差度量D(例如,标准偏差),我们将要求D(L(f))小。

公平风险衡量标准

定义3适用于通用S(例如,实值)。 对于二进制S的情况,它与现有的近似公平概念一致,正如我们现在所说明的那样。

公平风险衡量标准

3.4通过子组聚合进行公平感知学习

为了达到根据定义3的近似公平性,我们可以用惩罚期限来增加标准预期风险(10):对于合适的

> 0,我们有

公平风险衡量标准

因此我们找到了一个预测目标标签的预测器,但在所有子组中都是如此。 现在观察一下,根据(9),我们可以简洁地总结(13)

公平风险衡量标准

这样我们就可以确保平均子组风险很小,并且两个子组风险是相称的。

备注6.对于二进制S,以前的方法分享我们完美公平的概念(第1节)具有与(16)类似的目标。然而,存在一个微妙的差异:在(14)中,我们使用相同的损失来衡量标准风险,以及它在亚组之间的偏差。但是,Zafar等人。 [2017b],Donini等。 [2018]对这两个术语采用不同的损失。具体而言,它们对偏差采用线性损耗,这对应于测量A和S之间的协方差(7)。这种选择对于确保其目标的凸性至关重要;我们将看到,通过修改D,可以保留其他`的凸性。

备注7.超越期望的想法转变为人均损失的总体集合在学习理论[Chapelle et al。,2001,Maurer and Pontil,2009]和强有力的优化方面具有先例[Duchi et al。,2016,Gotoh et al。,2018]。这些鼓励所有样本的损失偏差很小,即,实际上,它们将每个实例视为其自己的组。 x5.3中也会出现类似的连接。

在这个阶段的一个自然问题是构成“明智的”偏差度量D的选择。当然,可以采用直观合理的选择,例如标准偏差(例4);但是,我们现在将公理化我们想要的属性 任何明智的偏差措施都要满足。这将导致一个可容许的公平风险措施家庭。

4.1公平风险衡量标准:一个公理化的定义

在这个阶段,我们采用了一些略微改变的术语:我们将其称为风险度量,而不是将R称为风险聚合器。 这种变化的原因将在下一节中显而易见。 有了这个,我们将公平风险度量R的类别定义为满足七个简单数学公理的那些。 在下文中,让L2(S)包括S上的实值随机变量,具有nite秒矩。

公平风险衡量标准

在附录A中,我们争论为什么当每个(14)使用R以确保跨子群的公平性时,这些公理中的每一个都是自然的。在这里,我们强调两个公理的导入:凸性(F1)是可取的,因为没有它,可以通过更粗粒度的分区来降低风险,正如我们现在所示。 F1和F2相当于R是次加和正均匀[Rockafellar和Uryasev,2013]。假设S = f0; 1g和敏感特征是确定的,因此引起X的分区(X0; X1)。然后L = L0 + L1,其中Li是L对Xi的限制,因此例如

公平风险衡量标准

现在如果R不是凸的,它将不是次加法的,因此R(L0 + L1)= R(L)> R(L0)+ R(L1)。也就是说,通过分成子组,我们可以自动使我们的风险度量更小,这与我们希望实现的目标相反。凸性也是可取的,因为结合F3,如果f 7! L(f)是凸的,那么f 7也是如此! R(L(F))。因此,对于凸“和”F,与一些现有方法相比,鼓励公平性不会造成优化负担[Kamishima et al。,2012,Zafar et al。,2016]。

凸性也是可取的,因为结合F3,如果f àL(f)是凸的,那么f 7也是如此f àR(L(F))。 因此,对于l和F,与一些现有方法相比,鼓励公平性不会造成优化负担[Kamishima et al。,2012,Zafar et al。,2016]。

逆境(F6)具有明确的正当性,因为它惩罚偏离完美公平性(通过定义1,这对应于常数L); 这对任何公平措施都至关重要。

广告

文章评论 1条评论)

登录后参与讨论

curton 2019-11-17 15:15

学习了
相关推荐阅读
红旗不倒 2019-12-05 15:22
工业相机与智能相机打灯小技巧、光源的种类和特征
即使观测检测相同的目标物,一旦使用的照明方式改变,观测检测到的画面就会发生惊人的变化。以往经常有即使调整倍率光圈或者更换镜头也无法观测到目标的情况,其实只要稍微变换照明,即可轻松观察。想要熟练使用工业...
红旗不倒 2019-12-04 15:53
国产芯片飞腾了FT-2000A/2,FT-2000+/64,FT-2000/4怎样
国产事业蒸蒸日上之国产芯片最近两年国产芯片发迅速,很大一部分原因是美国要求禁止向违反美国制裁法规与出口管制禁令的通讯企业出售美国芯片或其他部件,这对于许多企业来说是致命的打击;从2008年开始中国芯片...
红旗不倒 2019-12-04 15:44
中国企业家(马云和任正非),这两大高峰为什么那么成功
不知道大家是否还记得,小米科技的雷总曾经开玩笑的说:“马云强大的不得了,是我们中国企业家里最成功的人”。因为很多企业的老板都在赚着辛苦钱,而马云不一样,靠服务器就可以赚钱,当我们都在睡觉的时候,他依然...
红旗不倒 2019-12-04 15:31
比特币和加密货币Altcoins为什么很值得研究分析
比特币已成为历史上最成功的加密货币。在20031年安静发布后的两年内,尽管只是粗略地分析了系统的设计,但比特币的经济价值仍高达数十亿美元。从那时起,越来越多的文献论证了该系统的属性,发现了对其的攻击行...
红旗不倒 2019-12-04 15:25
ETHIR: 以太坊字节码高层次分析框架,相关方法和工具
创建分布式一致性的方法已经产生了一系列用于构建复制事务日志(区块链)的分布式协议。这些技术进步使得分散加密货币的诞生成为可能,比如比特币。比特币最著名的实现之一Ethereum在复制分布式存储中加入了...
红旗不倒 2019-12-04 15:20
区块链的分散应用程序(DApp)的自动化测试
随着基于区块链的分散式应用(DApp)最近越来越受欢迎,我们迫切需要有效的测试方案和工具。由于应用程序与区块链的交互引入的复杂性,现有的测试方法变得不适用。在本文中,我们提出了一个名为Sungarit...
广告
我要评论
1
1
广告
关闭 热点推荐上一条 /1 下一条