问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

当算法遇上“偏见”:探索隐藏在代码深处的原因与解决方案

创作时间:
作者:
@小白创作中心

当算法遇上“偏见”:探索隐藏在代码深处的原因与解决方案

引用
1
来源
1.
https://m.xianjichina.com/special/detail_565835.html

在当今数字化时代,算法已经渗透到我们生活的方方面面。从搜索引擎的结果排序、新闻和商品推荐,到司法领域的犯罪风险评估和就业市场的简历筛选,算法无处不在,成为了一种重要的决策工具。然而,随着算法应用的日益广泛,其可能存在的 “偏见” 问题逐渐引起人们的关注。接下来,让我们一起探讨隐藏在代码深处的原因与解决方案。

算法的定义与演变

“算法” 一词最初源于阿拉伯语,后流经拉丁语进入英文世界。在公元 820 年,阿拉伯数学家在《用印度数字进行计算》一书中提出了 “算法” 这个概念,当时它只是指解决具体问题的一个方法。随着纯数学理论向应用数学理论的迁移,算法开始进入各种应用数学领域。

1968 年,Donald E. Knuth 在《计算机程序设计的艺术》中对算法进行了定义,即算法有非常明确的计算过程、可在有限的步骤当中完成,并且具有正确的结果。后来,这个词被社会学家、法律学家、政策学家以及政府部门等借用,开始指向一种复杂的社会技术系统。

在现代社会,算法完成了将信息、算法和人三者联系在一起的闭环,达到一个逻辑上的完整性。其最终目的是帮助人们从海量的信息中筛选出最有意义、最有用的内容。和人做决策相比,算法具有更客观、更公正、效率更高的优点,但一旦出现错误,也可能带来灾难性的问题。

算法具有系统性和可重复性的特点,通过系统的计算,其结果可以被验证并且反复出现,但出现错误时也是一个结构性的问题。而且,算法在很多时候是在用户不知情的情况下进行决策的,具有一定的隐蔽性。

一些 “偏见” 可能是固有的

从技术角度讲,算法本身没有像人类一样的情感、观念和偏见,它仅仅是一系列指令的集合,在理想状态下,按照预定的规则和逻辑对输入的数据进行处理和输出,不存在偏向。但是,算法是基于数据进行训练和学习的,如果数据本身存在偏差,那么算法就会产生偏见。

在招聘算法中,如果用于训练的数据大部分源于男性求职者的成功事例,那么算法在评估求职者时,就可能会对男性求职者产生偏向。同理,当算法 “学习” 了其他具有性别、地域或文化倾向的数据模式后,在后续的应用中就会带有这种偏见。

美国学者在 2018 年启动的 “图网轮盘” 研究就像一次行为艺术,清楚地反映出人工智能算法系统很容易复刻和强化来自现实社会的固有偏见。如果对此忽视,这些偏见便会渗入各类数字系统,进而影响整个社会的发展。

除了反映社会偏见,算法还会造成数据屏蔽。算法对数据的提取、分析、处理等操作是基于概率的,它优先抓取出现频次较高的 “强势数据”,一些 “弱势数据” 或 “少数派数据” 就容易被忽略、被屏蔽。

而且,数据体量越大、算法越是高度自动化,越容易造成数据屏蔽。这种数据屏蔽的问题较为隐蔽,但其影响不容小觑,显著问题之一是对文化多元性的影响。就像乔恩・克莱因伯格所质疑的,如果我们都使用同一种算法作决定,是否会导致作出的决定高度趋同,进而使我们的文化也高度趋同?

另外,如果存在人为因素的干扰,算法的偏向就可能是别有用心的。在设计内容推荐系统时,若将系统目标人为设计为 “延长用户的停留时间”,就会导致算法倾向于推送耸人听闻的新闻信息或低俗娱乐内容,从而对内容的多样性和用户体验产生不良影响。像被困在算法里的外卖骑手、遭遇大数据杀熟的网约车用户等现象,背后的算法大多受到了人为因素的干扰。

算法偏见是哪些原因导致的?

代码错误是算法偏见的一个层次。程序代码出现错误在程序员的工作中并不罕见。

在互联网历史中有一张著名的日志图片,上面有一个像飞蛾一样的虫子,这就是程序出错的例子,也就是所谓的 “bug”。在对图片和视频进行识别和过滤时,也可能出现代码错误。比如设置规则识别和过滤不雅视频、不雅图片,根据皮肤颜色在图片中所占比例来判断是否召回内容重新核查。

但这个规则在应用到泳装照,尤其是美人鱼图片时就会出现问题。因为不清楚美人鱼该适用人的图片过滤规则还是自然动物的规则,程序员最后可能不得不放弃错误百出的算法,改为人工检查。但面对海量的图片和视频,人工检查显然不是长久之计,还是需要合理的算法来解决。

算法偏差是一个概率问题。当我们使用各种网站、应用时,会发现它们好像很了解我们的喜好,这其实是算法根据我们的行为进行概率推测的结果。可以把用户看作一个不透明的袋子,用户的兴趣爱好就是袋子里的小球,算法通过已知的小球(用户行为)来推测袋子里小球的颜色分布(用户的兴趣)。

随着已知条件(用户行为)的增加,算法推测用户兴趣的概率就会越来越准。但这始终是一个概率问题,所以有可能出现偏差。

从媒介环境学的观点来看,所有的媒介技术都有一定的倾向性。例如,远古时期的羊皮纸、泥板等媒介难以携带但能长时间保存,具有时间倾向性;报纸容易携带但容易毁坏,具有空间倾向性。

现在的手机设备、社交网络等媒介取代了之前的媒介形式,并且产生了新的倾向性。如在电子媒介时代,算法同社交媒体、互联网结合,使我们进入再部落化时代。我们在互联网虚拟空间联系更紧密,但也更容易沉浸在自己的小世界中,产生极端情绪和思维,这也导致算法可能会偏向于传播情绪化、短小的信息。

社会偏见也会导致算法偏见。微软推出的 AI 聊天机器人 Tay,由于没有限制语言和交往模式,在 Twitter 上线一天就学会了辱骂人类、发表种族歧视言论,这是因为它在开放的人类环境数据中学习到了大量的偏见和错误认知。

还有美国法院曾采用的 AI 算法协助法官判断犯罪风险,该算法会对弱势群体、女性、有色人种产生系统性歧视。因为它读取了美国历史上大量犯罪卷宗记录,这些记录本身存在偏见,导致算法机械地认为黑人或女性犯罪风险更高、惩罚力度应更大。

而且,当算法的结果符合人类的固有成见时,人们就不会去质疑算法,反而会用这个结果巩固自己的成见,如天猫销售额质疑事件,很多人没有质疑算法是否有问题,就认定天猫有问题。

如何应对算法偏见?

首先,可以从数据端着手来减少算法偏见。倡导在算法设计阶段进行多样化数据的收集,确保用于训练算法的数据具有多样性,特别是在就业、金融保险等民生议题相关的算法中,构建数据集时应收集来自不同性别、种族、年龄、地域等各种背景的事例,避免数据过于集中。同时,要对数据进行严格的质量检查,剔除带有明显歧视、偏见的信息。

其次,在算法的设计过程中,必须考虑多元化的公平标准,并引入公平性指标作为约束条件。例如,建立基于公平性约束的迭代系统,让算法能够学习并提升自我的公平感知梯度,使算法模型考虑到不同群体,尤其是少数群体的利益。

再次,可要求平台或算法开发者公开算法设计的决策依据,以便监管机构和第三方能够对算法是否存在潜在的偏见进行审查。同时,设立专门的渠道,让公众能够通过反馈、投诉等方式参与到算法的改善过程中。

最后,要认真审视算法的整个数据挖掘、提取、分类和分析测算的流程,并在整个流程中思考 “公平” 的问题。算法公平不是单一的标准,而是多样的标准,应确保它在各个可及的层面上都是公平的。

这就需要对公平性指标进行新的评估,让量化指标凸显不同群体之间的相关差异,例如采用数据公平原则,确保数据集中包含多种类型的数据,对少数或稀有数据进行加权处理;采用监督公平原则,让平台以简单、清晰、可理解的方式公布算法推荐服务的基本原理等信息,接受公众监督。

算法偏见与数据遮蔽是一个复杂的社会问题,而非单纯的科学问题。尽管可以通过上述方法来缓解这些问题,但要从根本上克服这些问题,需要全人类社会的长期共同努力。

在算法和人类共栖共生的未来,我们需要不断地审视和改进算法,以确保其更加公平、公正地服务于社会。否则,算法偏见可能会在自动化的感知系统中不断积累,对社会的公平性、文化多样性等诸多方面产生深远的负面影响。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号