问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

人工智能的数据困境:隐私、监管和道德人工智能的未来

创作时间:
作者:
@小白创作中心

人工智能的数据困境:隐私、监管和道德人工智能的未来

引用
1
来源
1.
https://www.unite.ai/zh-CN/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD%E6%95%B0%E6%8D%AE%E5%9B%B0%E5%A2%83-%E9%9A%90%E7%A7%81%E7%9B%91%E7%AE%A1%E5%92%8C%E9%81%93%E5%BE%B7%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD%E7%9A%84%E6%9C%AA%E6%9D%A5/

随着人工智能技术的快速发展,数据已成为AI发展的关键要素。然而,在数据获取和使用过程中,隐私保护、法律合规和道德考量成为AI发展必须面对的重要课题。本文深入探讨了AI数据困境的多个维度,从数据获取方法到全球监管环境,为企业和开发者提供了全面的参考指南。

人工智能驱动的解决方案每天都在迅速应用于各种行业、服务和产品。然而,它们的有效性完全取决于训练数据的质量——这是数据集创建过程中经常被误解或忽视的一个方面。

随着数据保护机构加强对人工智能技术如何与隐私和数据保护法规保持一致的审查,公司面临着越来越大的压力,需要以合规和合乎道德的方式获取、注释和完善数据集。

构建 AI 数据集是否真的有道德的方法?企业面临的最大道德挑战是什么?他们如何应对这些挑战?不断发展的法律框架如何影响训练数据的可用性和使用?让我们来探讨这些问题。

数据隐私和人工智能

从本质上讲,人工智能需要大量个人资料执行任务。这引发了人们对收集、保存和使用这些信息的担忧。世界各地的许多法律都规范和限制个人数据的使用,从欧洲的《GDPR》和新出台的《人工智能法案》到美国的《健康保险隐私及责任法》(后者规范了医疗行业对患者数据的访问)。

参考世界各地数据保护法有多严格 /DLA派珀

例如,目前美国有 2025 个州制定了全面的数据隐私法,另有 2026 个州将于 XNUMX 年和 XNUMX 年初生效。新政府已发出信号,将在联邦层面改变数据隐私执法方式。人工智能监管是重点,强调促进创新而不是施加限制。这转变包括废除先前有关人工智能的行政命令,并引入新的指令来指导其发展和应用。

各国的数据保护立法正在不断发展:欧洲的法律更为严格,而亚洲或非洲的法律则往往不那么严格。

然而,个人身份信息 (PII)(例如面部图像、护照等官方文件或任何其他敏感个人数据)在大多数国家/地区通常受到一定程度的限制。据联合国贸易与发展组织称,未经消费者通知或同意而收集、使用和向第三方共享个人信息是世界上大多数国家/地区的主要担忧。137来自194国家制定了确保数据保护和隐私的法规。因此,大多数跨国公司都采取了广泛的预防措施,避免使用 PII 进行模型训练,因为欧盟等法规严格禁止此类做法,只有在执法等受到严格监管的领域才会出现罕见的例外。

随着时间的推移,数据保护法变得越来越全面,并在全球范围内得到执行。公司会调整其做法以避免法律挑战并满足新兴的法律和道德要求。

公司使用什么方法获取数据?

因此,在研究训练模型的数据保护问题时,首先必须了解公司从哪里获得这些数据。数据主要有三个来源。

  • 数据收集

该方法可以从众包平台、媒体股票和开源数据集收集数据。

值得注意的是,公共素材媒体受不同的许可协议约束。即使是商业使用许可也经常明确规定内容不能用于模型训练。这些要求因平台而异,需要企业确认他们能够以所需的方式使用内容。

即使 AI 公司合法获取内容,他们仍会面临一些问题。AI 模型训练的快速发展远远超出了法律框架,这意味着围绕 AI 训练数据的规则和法规仍在不断发展。因此,在使用库存内容进行 AI 训练之前,公司必须随时了解法律发展情况并仔细审查许可协议。

  • 数据创建

最安全的数据集准备方法之一是创建独特的内容,例如在工作室或户外地点等受控环境中拍摄人物。在参与之前,个人签署一份同意使用其 PII 的同意书,其中指定要收集哪些数据、如何使用这些数据以及在何处使用这些数据,以及谁将有权访问这些数据。这确保了全面的法律保护,并让公司有信心他们不会面临非法使用数据的指控。

这种方法的主要缺点是成本高,尤其是在为极端情况或大型项目创建数据时。然而,大型公司和企业越来越多地继续使用这种方法,原因至少有两个。首先,它确保完全符合所有标准和法律法规。其次,它为公司提供完全适合其特定场景和需求的数据,保证模型训练的最高准确率。

  • 合成数据生成

使用软件工具根据给定场景创建图像、文本或视频。但是,合成数据有局限性:它是基于预定义的参数生成的,缺乏真实数据的自然可变性。

这种缺乏会对 AI 模型产生负面影响。虽然这种情况并不适用于所有情况,也并不总是发生,但仍然需要记住“模型崩溃”——过度依赖合成数据会导致模型性能下降,从而产生低质量的输出。

合成数据对于基本任务仍然非常有效,例如识别一般模式、识别物体或区分面部等基本视觉元素。

然而,当公司需要从头开始训练模型或处理罕见或高度特定的场景时,这并不是最好的选择。

最能说明问题的情况发生在车内环境中,例如驾驶员被孩子分散注意力、有人在驾驶时显得疲劳,甚至是鲁莽驾驶的情况。这些数据点在公共数据集中并不常见——也不应该存在——因为它们涉及私人环境中的真实个人。由于人工智能模型依赖训练数据来生成合成输出,因此它们很难准确地表示它们从未遇到过的场景。

当合成数据失效时,通过有真实参与者的受控环境收集的创建数据就成为解决方案。

数据解决方案提供商钥匙标记在汽车上安装摄像头,聘请演员,记录照顾婴儿、喝奶瓶或表现出疲劳迹象等动作。演员签署合同,明确同意使用他们的数据进行人工智能训练,确保遵守隐私法。

数据集创建过程中的职责

从客户到注释公司,流程中的每个参与者都有其协议中规定的具体责任。第一步是签订合同,详细说明关系的性质,包括保密和知识产权条款。

让我们考虑处理数据的第一个选项,即从头开始创建数据。知识产权规定,提供商创建的任何数据都属于雇佣公司,这意味着这些数据是代表他们创建的。这也意味着提供商必须确保数据是合法且正确地获取的。

作为一家数据解决方案公司,Keymakr 首先检查数据创建的管辖区,获得所有相关个人的适当同意,并保证数据可以合法用于人工智能训练,从而确保数据合规性。

还要注意的是,一旦数据用于 AI 模型训练,就几乎不可能确定哪些具体数据对模型做出了贡献,因为 AI 会将所有数据混合在一起。因此,具体输出往往不是它的输出,尤其是在讨论数百万张图像时。

由于发展迅速,该领域仍然需要明确责任分配。这与自动驾驶汽车的复杂性类似,无论是驾驶员、制造商还是软件公司,责任问题仍然需要明确分配。

在其他情况下,注释提供者在收到要注释的数据集时,会假定客户已合法获取了该数据。如果有明显迹象表明该数据已被非法获取,则提供者必须报告。然而,这种明显情况极为罕见。

还需要注意的是,重视声誉的大公司、企业和品牌对其数据来源非常谨慎,即使数据不是从头创建的,而是从其他合法来源获取的。

总而言之,数据工作流程中每个参与者的责任取决于协议。你可以将此流程视为更广泛的“可持续发展链”的一部分,其中每个参与者在维护法律和道德标准方面都发挥着至关重要的作用。

关于AI开发后端存在哪些误解?

关于人工智能开发的一个主要误解是,人工智能模型的工作原理类似于搜索引擎,它们根据学习到的知识收集和汇总信息以呈现给用户。然而,人工智能模型,尤其是语言模型,通常基于概率而不是真正的理解来运作。它们根据统计可能性预测单词或术语,使用先前数据中看到的模式。人工智能并不“知道”任何事情;它只是推断、猜测和调整概率。

此外,许多人认为训练人工智能需要大量数据集,但人工智能需要识别的很多东西(如狗、猫或人类)已经很成熟。现在的重点是提高准确性和改进模型,而不是重新发明识别能力。当今人工智能的大部分开发都围绕着弥补准确性的最后小差距,而不是从头开始。

道德挑战以及欧盟人工智能法案和美国监管放松将如何影响全球人工智能市场

在讨论处理数据的道德和合法性时,清楚地了解“道德”人工智能的定义也很重要。

如今,企业在人工智能领域面临的最大道德挑战是确定人工智能不该做什么或不该教什么。人们普遍认为,合乎道德的人工智能应该帮助人类而不是伤害人类,避免欺骗。然而,人工智能系统可能会出错或产生“幻觉”,这就很难确定这些错误是否属于虚假信息或伤害。

人工智能伦理是联合国教科文组织等组织参与的一场重大辩论,其关键原则围绕可审计性和可追溯性输出。

围绕数据访问和 AI 训练的法律框架在塑造 AI 的道德格局方面发挥着重要作用。对数据使用限制较少的国家/地区允许更多人访问训练数据,而数据法律较为严格的国家/地区则限制 AI 训练的数据可用性。

例如,通过了《人工智能法案》的欧洲和撤销了许多人工智能监管法规的美国,所采取的截然不同的做法反映了当前的全球格局。

欧盟《人工智能法案》对在欧洲运营的公司产生了重大影响。该法案实施了严格的监管框架,使企业难以使用或开发某些人工智能模型。公司必须获得特定许可才能使用某些技术,而且在许多情况下,这些法规实际上使小型企业难以遵守这些规则。

因此,一些初创公司可能会选择离开欧洲或完全避免在那里运营,这与加密货币法规的影响类似。有能力承担合规要求所需投资的大型公司可能会适应。不过,该法案可能会将人工智能创新赶出欧洲,转而青睐监管不那么严格的美国或以色列等市场。

美国决定在限制较少的情况下投入大量资源进行人工智能开发,这也可能存在弊端,但会给市场带来更多多样性。欧盟注重安全和监管合规,而美国可能会鼓励更多冒险和前沿实验。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号