问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

【人工智能】解决 AI(以及人类)的偏见

创作时间:
作者:
@小白创作中心

【人工智能】解决 AI(以及人类)的偏见

引用
网易
1.
https://www.163.com/dy/article/JG9Q6R5305569LVD.html

随着人工智能(AI)在招聘、刑事司法和医疗保健等敏感领域的应用日益广泛,关于AI偏见和公平性的讨论也越来越多。AI的决策会比人类的决策更少偏见吗?还是AI会让这些问题变得更糟?本文将从技术、社会伦理等多角度探讨这一问题。

人工智能(AI)有潜力帮助人类做出更公平的决策——但前提是我们也必须认真努力地实现 AI 系统的公平性。
AI 在招聘、刑事司法和医疗保健等敏感领域的应用日益广泛,引发了关于偏见和公平性的争论。然而,人类在这些领域和其他领域的决策也可能存在缺陷,受到个人和社会偏见的影响,而这些偏见往往是无意识的。

AI 的决策会比人类的决策更少偏见吗?还是 AI 会让这些问题变得更糟?

AI 的决策会比人类的决策更少偏见吗?还是 AI 会让这些问题变得更糟?

辩论中出现了两个机会。第一个机会是利用 AI 来识别和减少人类偏见的影响。第二个机会是改进 AI 系统本身,从如何利用数据到如何开发、部署和使用,以防止它们延续人类和社会偏见或产生偏见和相关的挑战。要实现这些机会,需要跨学科合作,进一步开发和实施技术改进、运营实践和道德标准。

AI 可以帮助减少偏见,但它也可能产生并扩大偏见

人类决策过程中的偏见已得到充分证实。一些研究人员强调,法官的决策可能会无意识地受到其个人特征的影响,而研究表明,雇主对简历相同但名字代表不同种族群体的候选人的面试几率也不同。人类也容易误用信息。例如,雇主可能会以可能损害少数群体的方式审查潜在雇员的信用记录,尽管信用记录和工作行为之间尚未确定明确的联系。人类的决策也很难探究或审查:人们可能会谎报他们考虑的因素,或者可能不了解影响他们思维的因素,从而留下无意识偏见的空间。

在许多情况下, AI 可以减少人类对数据的主观解释,因为机器学习算法会根据所使用的训练数据学会只考虑那些可以提高其预测准确性的变量。

在许多情况下, AI 可以减少人类对数据的主观解读,因为机器学习算法会根据所使用的训练数据,学会只考虑那些能提高预测准确性的变量。此外,一些证据表明,算法可以改善决策,使其在决策过程中变得更加公平。例如,乔恩·克莱因伯格 (Jon Kleinberg) 等人已经表明,算法可以帮助减少刑事司法系统中的种族差异。另一项研究发现,自动化金融承保系统特别有利于历史上服务不足的申请人。与人类决策不同, AI 做出的决策在原则上(在实践中也越来越多)可以被公开、审查和质询。引用麻省理工学院的安德鲁·麦卡菲 (Andrew McAfee) 的话:“如果你想消除偏见,就让算法发挥作用。”

与此同时,大量证据表明, AI 模型可以嵌入人类和社会偏见,并大规模部署它们。ProPublica 的 Julia Angwin 和其他研究人员展示了 COMPAS 如何错误地将非裔美国人被告标记为“高风险”,其错误率几乎是白人被告的两倍。COMPAS 曾用于预测佛罗里达州布劳沃德县的累犯率。最近,一家科技公司停止了基于分析先前决策的招聘算法的开发,因为发现该算法对来自女子大学的申请者不公平。Joy Buolamwini 和 Timnit Gebru 的研究发现, 面部分析技术的错误率因种族和性别而异。在“ CEO 图像搜索”中,搜索“CEO”时,排名靠前的图像结果中只有 11% 是女性,而当时美国女性 CEO 占比 27%。

基础数据往往是偏见的来源

问题的主要根源往往是底层数据,而不是算法本身。模型可能基于包含人类决策的数据进行训练,也可能基于反映社会或历史不平等的二阶效应的数据进行训练。例如,基于新闻文章进行训练的词向量(一组自然语言处理技术)可能表现出社会中存在的性别刻板印象。

模型可以基于包含人类决策的数据或反映社会或历史不平等的二阶效应的数据进行训练。

数据收集或选择使用的方式也可能带来偏差。在刑事司法模型中,由于某些街区警力过强而对其过度抽样,可能会导致记录更多的犯罪,从而导致警力增加。

用户生成的数据也会形成反馈循环,导致偏见。在拉坦亚·斯威尼 (Latanya Sweeney) 关于在线广告定位种族差异的研究中,搜索非裔美国人姓名往往会比搜索白人姓名获得更多带有“逮捕”字样的广告。斯威尼推测,即使最初显示的不同版本的广告文案(带有和不带有“逮捕”的版本)相同,但用户可能在不同搜索中更频繁地点击不同版本,从而导致算法更频繁地显示它们。

机器学习算法还可能发现社会上不可接受或非法的统计相关性。例如,如果抵押贷款模型发现老年人违约的可能性更高,并根据年龄减少贷款,社会和法律机构可能会认为这是非法的年龄歧视。

为了最大限度地减少偏见,我们如何定义和衡量公平?

我们应该如何编纂公平的定义?阿尔温德·纳拉亚南(Arvind Narayanan)至少列出了21 种不同的公平定义,并表示即便如此,这些定义也“并不详尽”。纽约大学 AI Now 研究所联席主任凯特·克劳福德(Kate Crawford)利用前文提到的 CEO 图像搜索,强调了其中的复杂性:我们如何确定算法应显示的女性“公平”比例?是如今女性 CEO 的比例吗?还是说“公平”的数字可能是 50%,即使现实世界还没有达到这个水平?关于定义的讨论大多集中在个人公平或以相似的方式对待相似的个体,以及群体公平——使模型的预测或结果在各个群体之间公平,特别是对潜在的弱势群体。

定义公平性的工作还揭示了不同定义之间或公平性与其他目标之间的潜在权衡。例如,Jon Kleinberg、Sendhil Mullainathan 和 Manish Raghavan 以及 Alexandra Chouldechova 等人已经证明,除非在非常特殊的条件下,否则模型无法同时符合多个群体公平性指标。这解释了为什么开发 COMPAS 分数的公司声称其系统是无偏见的,因为它满足了“预测均等性”,但 ProPublica 发现它有偏见,因为它没有表现出“对假阳性的平衡”。

专家们对解决这些权衡的最佳方法意见不一。例如,一些人建议为不同的群体设置不同的决策阈值(例如获得贷款所需的预测分数)可能会实现最佳平衡,特别是如果我们认为模型中的一些基础变量可能存在偏差。其他人则认为,保持单一阈值对所有群体都更公平。由于这些复杂性,制定一个单一的、通用的公平定义或衡量公平的指标可能永远不可能。相反,根据用例和情况,可能需要不同的指标和标准。

早期技术进展正在进行中,但还需要做更多

已经出现了几种在 AI 模型上实施公平性约束的方法。第一种方法是预处理数据以尽可能保持准确性,同时减少结果与受保护特征之间的任何关系,或者生成不包含敏感属性信息的数据表示。后一类包括“反事实公平”方法,这些方法基于这样的理念:在敏感属性发生变化的反事实世界中,决策应该保持不变。Silvia Chiappa 的路径特定反事实方法甚至可以考虑敏感属性可能影响结果的不同方式——一些影响可能被认为是公平的,可以保留,而其他影响可能被认为是不公平的,因此应该丢弃。

第二种方法包括后处理技术。这些技术在模型做出预测后对其进行转换,以满足公平性约束。第三种方法要么对优化过程本身施加公平性约束,要么使用对手来最小化系统预测敏感属性的能力。

研究人员还在开发和测试其他改进。在数据方面,研究人员通过添加更多数据点来提高受保护群体的表现,在文本分类任务上取得了进展。创新的训练技术,例如对不同群体使用迁移学习 或解耦分类器,已被证明有助于减少面部分析技术中的差异。

事实证明,针对不同群体使用迁移学习或解耦分类器等创新训练技术有助于减少面部分析技术的差异。

最后,为解决 AI 系统中可解释性这一相邻问题而开发的技术(使用神经网络时,很难解释如何做出特定的预测或决策,以及数据或其他地方的哪些特征导致了这一结果)也可以在识别和减轻偏见方面发挥作用。可解释性技术可以 帮助确定 决策中考虑的因素是否反映了偏见,并且可以比人类决策更具责任感,因为人类决策通常无法进行如此严格的探索。

仍然需要人类判断来确保 AI 支持的决策是公平的

虽然公平性的定义和统计指标无疑很有帮助,但它们无法考虑到 AI 系统部署的社会背景的细微差别,也无法考虑到数据收集方式的潜在问题。因此,重要的是考虑在什么地方需要人类判断以及以何种形式进行。谁来决定 AI 系统何时已充分减少偏见,以便可以安全地投入使用?此外,在什么情况下应该允许完全自动化的决策?没有优化算法可以解决这样的问题,也没有机器可以自行确定正确答案;它需要人类的判断和流程,借鉴社会科学、法律和伦理等学科,制定标准,以便人类可以在考虑偏见和公平的情况下部署 AI 。这项工作才刚刚开始。

一些新兴工作侧重于流程和方法,例如“数据集数据表”和“模型报告模型卡”,它们使数据集和 AI 模型的构建、测试和预期用途更加透明。其他努力则侧重于鼓励在系统部署前进行影响评估和审计以检查公平性并持续对其进行审查,以及促进更好地理解可能提高公平性的法律框架和工具。AI Now Institute 的年度报告涵盖了许多有关 AI 的关键问题,而“嵌入式伦理”将伦理模块整合到标准计算机科学课程中,这些努力展示了跨学科专家如何进行合作。

确保公平性的一种方法是鼓励进行影响评估和审计,以便在系统部署之前检查公平性并进行持续审查。

当我们提高自动化决策的标准时,我们是否也能对人类的决策提出更高的标准?

在识别偏见方面取得的进展指向了另一个机会:重新思考我们用来确定人类决策何时公平以及何时反映出有问题的偏见的标准。审查人类在做决定时使用的实际因素(而不是他们声称使用的因素)比评估算法要困难得多。我们往往依赖公平代理。例如,我们经常接受来自被认为“公平”的过程的结果。但程序公平是否等同于结果公平?另一个经常使用的代理是组合公平,这意味着如果做决定的群体包含多种观点,那么其决定就被认为是公平的。也许这些传统上是我们拥有的最好的工具,但当我们开始将公平性测试应用于 AI 系统时,我们是否也可以开始让人类承担更多责任?

关于定义的讨论大部分集中在个人公平或对相似的个体进行相似对待,以及群体公平——使得模型的预测或结果在各个群体之间公平,特别是对于潜在的弱势群体。

更好的数据、分析和 AI 可能成为检查人类偏见的强大新工具。这可以采取与人类决策者一起运行算法的形式,比较结果,并检查差异的可能解释。这种方法的例子开始出现在一些组织中。同样,如果一个组织意识到一个根据其人类决策(或基于先前人类决策的数据)训练的算法显示出偏见,它不应该简单地停止使用该算法,而应该考虑如何改变潜在的人类行为。也许组织也可以通过将最相关的偏见测试应用于人类决策,从衡量公平性方面取得的最新进展中受益。

AI 从业者、商业和政策领导者需要考虑的六种潜在发展方式

尽量减少 AI 中的偏见是让人们信任这些系统的重要先决条件。如果 AI 要发挥其潜力,这一点至关重要,正如 麦肯 AI 将为企业带来利益,通过提高生产力为经济带来利益,通过解决紧迫的社会问题为社会带来利益。那些努力实现公平最大化和尽量减少 AI 偏见的人可以考虑以下几条前进的道路:

1. 了解AI可以帮助纠正偏见的情况,以及AI可能加剧偏见的高风险情况。

在部署 AI 时,预测可能容易出现不公平偏见的领域非常重要,例如那些存在偏见系统或数据扭曲的领域。组织需要随时了解 AI 如何以及在哪些方面可以提高公平性,以及 AI 系统在哪些方面遇到了困难。

2. 建立流程和实践来测试和减轻AI系统中的偏见。

解决不公平偏见需要利用一系列工具和程序。上述技术工具可以突出潜在的偏见来源,并揭示数据中对结果影响最大的特征。运营策略可以包括通过更有意识的抽样来改进数据收集,并使用内部“红队”或第三方来审计数据和模型。最后,流程和指标的透明度可以帮助观察员了解为促进公平而采取的步骤以及任何相关的权衡。

3. 就人类决策中的潜在偏见进行基于事实的对话。

随着 AI 越来越多地揭示人类决策过程,领导者可以考虑过去使用的代理是否足够,以及 AI 如何通过揭示可能被忽视的长期偏见来提供帮助。当根据最近的人类决策或行为训练的模型表现出偏见时,组织应该考虑未来如何改进以人为主导的流程。

4.充分探索人与机器如何实现最佳协同合作。

这包括考虑哪些情况和用例是可以接受的(并且确实为现实世界做好了准备),哪些情况和用例是人类应该始终参与的。一些有前途的系统使用机器和人类的结合来减少偏见。这种技术包括“人在环”决策,其中算法提供建议或选项,人类再三检查或从中进行选择。在这样的系统中,算法对其建议的信心的透明度可以帮助人类了解应该给予它多大的重视。

5. 在偏见研究方面投入更多资金,提供更多数据用于研究(同时尊重隐私),并采用多学科方法。

虽然近年来技术和多学科研究取得了重大进展,但仍需要加大对这些工作的投入。企业领导者还可以通过向各组织中研究这些问题的研究人员和从业人员提供更多数据来支持进展,同时注意隐私问题和潜在风险。要取得更多进展,需要跨学科的参与,包括伦理学家、社会科学家和最了解每个应用领域细微差别的专家。随着该领域的进步和实际应用经验的增长,多学科方法的一个关键部分将是不断考虑和评估 AI 决策的作用。

6. 对AI领域本身的多样化进行更多投资。

许多人指出, AI 领域本身并不涵盖社会的多样性,包括性别、种族、地域、阶级和身体残疾。更加多元化的 AI 社区将能够更好地预测、发现和审查不公平偏见的问题,并能够更好地吸引可能受到偏见影响的社区。这将需要在多个方面进行投资,尤其是在 AI 教育以及获取工具和机会方面。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号