问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

人工智能中的数据单一文化:对多样性和创新的威胁

创作时间:
作者:
@小白创作中心

人工智能中的数据单一文化:对多样性和创新的威胁

引用
1
来源
1.
https://www.unite.ai/zh-CN/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD%E4%B8%AD%E7%9A%84%E6%95%B0%E6%8D%AE%E5%8D%95%E4%B8%80%E6%96%87%E5%8C%96%E5%AF%B9%E5%A4%9A%E6%A0%B7%E6%80%A7%E5%92%8C%E5%88%9B%E6%96%B0%E7%9A%84%E5%A8%81%E8%83%81/

随着人工智能在各行各业的广泛应用,数据作为AI模型的燃料变得越来越重要。然而,数据单一文化这一现象正在对AI系统的多样性和创新性构成威胁。本文将深入探讨数据单一文化的概念、成因、影响以及可能的解决方案。

人工智能正在重塑世界,从改变医疗保健到改革教育。它正在解决长期存在的挑战,并开启我们从未想过的可能性。数据是这场革命的核心——是每个人工智能模型的燃料。它使这些系统能够做出预测、发现模式并提供影响我们日常生活的解决方案。
然而,尽管如此丰富的数据推动了创新,但统一数据集(通常称为数据单一化)的主导地位对人工智能发展的多样性和创造力构成了重大风险。这就像农业单一化,在大片田地里种植同一种作物会使生态系统变得脆弱,容易受到病虫害的侵害。在人工智能中,依赖统一的数据集会产生僵化、有偏见且通常不可靠的模型。

理解数据单一文化

当单一数据集或一组狭窄的数据源主导 AI 系统的训练时,就会出现数据单一化。面部识别是 AI 中数据单一化的一个有据可查的例子。研究麻省理工学院媒体实验室的研究发现,主要针对浅肤色人种图像进行训练的模型在处理深色皮肤人脸时会遇到困难。深色皮肤女性的错误率达到 34.7%,而浅肤色男性的错误率仅为 0.8%。这些结果凸显了训练数据中肤色多样性不足的影响。

其他领域也存在类似问题。例如,大型语言模型 (LLM)(如 OpenAI 的 GPT 和 Google 的 Bard)在大量依赖英语内容的数据集上进行训练,而这些内容主要来自西方背景。这种多样性的缺乏使得它们在理解世界其他地区的语言和文化细微差别方面不太准确。印度等国家发展更能反映当地语言和文化价值观的法学硕士学位。

这个问题可能很严重,尤其是在医疗保健等领域。例如,主要根据欧洲人口数据进行训练的医疗诊断工具在具有不同遗传和环境因素的地区可能表现不佳。

数据单一文化从何而来

人工智能中数据单一化现象的出现有多种原因。流行的数据集包括影像网和COCO数据量巨大、易于获取且应用广泛。但它们往往反映出一种狭隘的、以西方为中心的观点。收集多样化数据并不便宜,因此许多较小的组织依赖这些现有的数据集。这种依赖加剧了多样性的缺乏。

标准化也是一个关键因素。研究人员经常使用广泛认可的数据集来比较他们的结果,无意中阻碍了对替代来源的探索。这种趋势形成了一个反馈循环,每个人都针对相同的基准进行优化,而不是解决实际问题。

有时,这些问题是由于疏忽造成的。数据集创建者可能会无意中遗漏某些群体、语言或地区。例如,Siri 等语音助手的早期版本无法很好地处理非西方口音。原因是开发人员没有包含足够的来自这些地区的数据。这些疏忽导致工具无法满足全球受众的需求。

为什么重要

随着人工智能在决策中扮演更重要的角色,数据单一文化可能会对现实世界产生影响。当人工智能模型从训练数据中继承偏见时,它们可能会强化歧视。招聘算法根据男性主导行业的数据进行训练可能会无意中偏向男性候选人,从而将符合条件的女性排除在考虑范围之外。

文化代表性是另一个挑战。Netflix 和 Spotify 等推荐系统通常偏爱西方偏好,排斥其他文化的内容。这种歧视限制了用户体验,并通过使想法变得狭隘和重复而抑制了创新。

在有限的数据上进行训练时,人工智能系统也会变得脆弱。在 COVID-19 疫情期间,使用疫情前数据进行训练的医疗模型失败以适应全球卫生危机的复杂性。这种僵化可能会使人工智能系统在面对意外情况时变得不那么有用。

数据单一化也会导致道德和法律问题。Twitter 和 Apple 等公司因算法存在偏见而面临公众的强烈反对。Twitter 的图片裁剪工具被指责种族偏见而 Apple Card 的信用算法据称为女性提供了更低的限制。这些争议损害了人们对产品的信任,并引发了人们对人工智能开发问责制的质疑。

如何解决数据单一化问题

解决数据单一化问题需要扩大用于训练人工智能系统的数据范围。这项任务需要开发工具和技术,使从不同来源收集数据变得更容易。Mozilla 的共同声音例如,收集来自世界各地的人们的语音样本,创建一个包含各种口音和语言的更丰富的数据集——同样,联合国教科文组织的人工智能数据等计划也专注于将代表性不足的社区纳入其中。

制定道德准则是另一个关键步骤。多伦多宣言促进透明度和包容性,确保人工智能系统在设计上是公平的。强有力的数据治理政策受到以下因素的启发:《通用数据保护条例》(GDPR)法规也能发挥重要作用。法规要求清晰记录数据来源,并要求组织负责确保多样性。

开源平台也能发挥作用。例如,拥抱脸的数据集存储库允许研究人员访问和共享各种数据。这种协作模式促进了人工智能生态系统的发展,减少了对狭窄数据集的依赖。透明度也发挥着重要作用。使用可解释的人工智能系统和定期检查有助于识别和纠正偏见。这种解释对于确保模型公平性和适应性至关重要。

建立多元化的团队可能是最有效和最直接的一步。具有不同背景的团队更善于发现数据中的盲点并设计适用于更广泛用户的系统。包容性的团队会带来更好的结果,使人工智能更加光明和公平。

底线

人工智能具有巨大的潜力,但其有效性取决于其数据质量。数据单一化限制了这种潜力,产生了与现实世界需求脱节的偏见和不灵活的系统。为了克服这些挑战,开发人员、政府和社区必须合作实现数据集多样化、实施道德规范并培养包容性团队。

通过直接解决这些问题,我们可以创造出更加智能、公平的人工智能,反映出它所服务的世界的多样性。

本文原文来自unite.ai

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号