问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

AI对齐新方法:如何让人工智能理解人类价值观?

创作时间:
作者:
@小白创作中心

AI对齐新方法:如何让人工智能理解人类价值观?

引用
CSDN
1.
https://blog.csdn.net/qq_46094659/article/details/138211674

随着人工智能技术的快速发展,如何确保AI系统的行为符合人类价值观成为了一个重要议题。本文提出了一种新的方法——道德图谱启发(MGE),通过大型语言模型来采访参与者,了解他们在特定背景下的价值观,并将这些价值观整合成一个可以指导AI行为的对齐目标。

什么是价值观?

在讨论AI对齐时,一个核心问题是:什么是人类价值观?以及我们如何让AI适应这些价值观?现有的方法,如集体宪法AI(CCAI),虽然试图引出价值观,但往往收集的是模糊的评论而非具体的价值观。例如,"AI应该始终做正确的事情"这样的表述缺乏明确的指导意义。

为了更精确地定义价值观,研究者采用了泰勒(Taylor,1977)的"强烈评价性术语"概念。泰勒认为,价值观是一种语言,用于评估选项,突出某些选择的优越性。这种定义强调了价值观不仅仅是工具性的,而是包含了选择者想要坚持、尊重或珍惜的更伟大的东西。

价值观如何结合在一起?

假设我们可以从人群中收集价值观,我们需要一种方法来聚合或协调这些价值观,使其能够指导AI的行为。传统的社会选择理论,如投票或市场机制,存在一些问题:它们要么忽略了价值观之间的相关性,要么限制了道德学习的空间。

研究者提出了一个新的概念——道德图谱,它能够处理上下文丰富且细粒度的解决方案。道德图谱由(上下文、价值观卡1、价值观卡2)的元组组成,其中对于相同的上下文,价值观卡2被认为比价值观卡1更明智。这种结构允许模型在面对用户输入时,根据最明智的价值观来生成响应。

道德图谱启发(MGE)

MGE过程依赖于两个主要创新:价值观卡和道德图谱。价值观卡将"人类价值观"提炼成易于解释的数据对象,而道德图谱则协调这些价值观成图结构。

价值观卡

价值观卡的核心是询问用户在做出选择时关注什么,并将他们的注意力路径中的各种标准记录为要点列表。这些列表中的项目被称为"注意政策"(AP)。通过这种方式,可以将抽象的价值观转化为具体、可操作的信息。

道德图谱

道德图谱通过询问用户的智慧判断来构建。研究者定义了"智慧"的概念:对于上下文c,一个人p认为价值观va比价值观vb更明智,如果一旦他们学会了通过va进行选择,就不再需要在c中通过vb进行选择。这种定义使得在不依赖最终理由的情况下探讨道德成为可能。

实证研究

为了评估道德图谱作为对齐目标的效果,研究者进行了一项案例研究。他们构建了一个Web应用程序,并吸引了代表美国的500名参与者。实验结果表明,MGE过程能够有效地引出和协调价值观:

  • 合法性:参与者绝大多数认可所制作的价值观卡,并表示整个过程帮助他们更清晰地了解什么对自己来说是重要的。
  • 稳健性:参与者认为最终的道德图是公平的,即使他们的价值没有被评为最明智的。
  • 细粒度:几乎所有参与者(89.1%)都觉得这个过程很好地代表了他们的价值观。
  • 可概括性:实验结果表明,道德图谱能够很好地转移到以前未见过的情况。
  • 可审计性:每个价值观卡都有一组注意力策略,可以相对容易地确定哪个响应最符合某个值。
  • 可扩展性:随着参与者的增加,获得的值变得更加明智。

结论

研究者认为,如果人工智能系统逐渐被赋予更多的自主权,仅根据运营商的意图行事可能会产生灾难性的后果。通过道德图谱等方式与人类价值观保持一致,有助于确保人工智能系统致力于人类集体繁荣。

本文原文来自CSDN

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号