衡量公平性
你如何确保一个模型同样适用于不同的人群?事实证明,在许多情况下,这比你想象的要困难。
问题是,有不同的方法来衡量模型的准确性,而且通常在数学上不可能在各组之间都相等。
我们将通过创建一个(假)医学模型来对这些人进行疾病筛查,从而说明这种情况是如何发生的。
基本事实
这些人中大约有一半实际上患有甲型肝炎;其中一半没有。
模型预测
在一个完美的世界里,只有病人的检测结果呈阳性,只有健康人的检测结果为阴性。
模型错误
但模型和测试并不完美。
该模型可能会犯错误,将生病的人标记为健康的c。
或者相反:将一个健康的人标记为生病的f。
千万不要错过疾病。。。
如果有一个简单的后续测试,我们可以让该模型积极地称为密切病例,这样它就很少错过这种疾病。
我们可以通过测量检测呈阳性的病人的百分比来量化这一点
…还是避免过度拥挤?
另一方面,如果没有二次检测,或者治疗使用的药物供应有限,我们可能更关心检测呈阳性的人中实际患病的百分比。
模型优化中的这些问题和权衡并不是什么新鲜事,但当我们有能力精确调整疾病诊断的积极性时,它们就会成为焦点。
试着调整模型在诊断疾病方面的积极性
分组分析
当我们检查模型是否公平对待不同的群体时,事情变得更加复杂。¹
无论我们在这些指标之间的权衡方面做出什么决定,我们都可能希望它们在不同的人群中大致持平。
如果我们试图平均分配资源,那么让该模型遗漏的儿童病例比成年人多就不好了!
基本发病率
如果你仔细观察,你会发现这种疾病在儿童中更为普遍。也就是说,不同群体的疾病“基本发病率”不同。
基本利率的不同使情况变得异常棘手。首先,尽管该检测检测到的患病成年人和患病儿童的比例相同,但检测呈阳性的成年人感染该疾病的可能性低于检测呈阳性儿童。
不平衡指标
为什么儿童和成人在诊断方面存在差异?健康成年人的比例更高,因此测试中的错误会导致更多健康成年人被标记为“阳性”,而不是健康儿童(同样,错误的阴性)。
为了解决这个问题,我们可以让模型将年龄考虑在内。
试着调整滑块,使模型级成人的攻击性低于儿童。
结论
值得庆幸的是,你选择满足的公平概念将取决于你的模型的上下文,所以虽然不可能满足公平的每一个定义,但你可以专注于对你的用例有意义的公平概念。
即使不可能在各个方面都做到公平,我们也不应该停止检查偏见。隐藏的偏见探索概述了人类偏见可以输入ML模型的不同方式。
更多阅读
在某些情况下,为不同人群设定不同的阈值可能是不可接受的。你能让人工智能比法官更公平吗?探索了一种可以把人送进监狱的算法。
有很多不同的指标可以用来确定算法是否公平。用更智能的机器学习来攻击歧视,这表明了其中一些是如何工作的。将公平指标与假设工具和其他公平工具结合使用,您可以根据常用的公平指标测试自己的模型。
机器学习从业者使用“回忆”等词来描述检测呈阳性的病人的百分比。查看PAIR指南手册词汇表,了解如何与构建模型的人员交谈。
附录
这篇文章使用了非常学术的、数学的公平标准,并没有涵盖我们在口语中可能包含的公平的所有内容。这里对算法的技术描述与它们所部署的社会环境之间存在差距。
²有时我们可能更关心不同人群中的不同错误模式。如果儿童的治疗风险更大,我们可能希望该模型在诊断方面不那么激进。
³上面的例子假设模型根据人们生病的可能性对他们进行分类和评分。通过完全控制模型在两组中诊断不足和过度的确切比率,实际上有可能将我们迄今为止讨论的两个指标保持一致。试着调整下面的模型,使两者对齐。
再加上第三个指标,即e检测呈阴性的健康人的百分比,就不可能实现完美的公平。你能明白为什么除非两个人群的基本发病率相同,否则这三个指标都不会一致吗?
信用
Adam Pearce//2020年5月
感谢Carey Radebaugh、Dan Nanas、David Weinberger、Emily Denton、Emily Reif、Fernanda Viégas、Hal Abelson、James Wexler、Kristen Olson、Lucas Dixon、Mahima Pushkarna、Martin Wattenberg、Michael Terry、Rebecca Salois、Timnit Gebru、Tulsee Doshi、Yannick Assogba、Yoni Halpern、Zan Armstrong和我在谷歌的其他同事对这篇文章的帮助。
最新内容
- 3 days ago
- 3 days ago
- 3 days ago
- 5 days 18 hours ago
- 6 days ago
- 6 days ago
- 6 days ago
- 6 days ago
- 1 week 3 days ago
- 1 week 3 days ago