资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

AI对齐新方法：如何让人工智能理解人类价值观？

创作时间:

作者:

@小白创作中心

AI对齐新方法：如何让人工智能理解人类价值观？

引用

CSDN

https://blog.csdn.net/qq_46094659/article/details/138211674

随着人工智能技术的快速发展，如何确保AI系统的行为符合人类价值观成为了一个重要议题。本文提出了一种新的方法——道德图谱启发（MGE），通过大型语言模型来采访参与者，了解他们在特定背景下的价值观，并将这些价值观整合成一个可以指导AI行为的对齐目标。

什么是价值观？

在讨论AI对齐时，一个核心问题是：什么是人类价值观？以及我们如何让AI适应这些价值观？现有的方法，如集体宪法AI（CCAI），虽然试图引出价值观，但往往收集的是模糊的评论而非具体的价值观。例如，"AI应该始终做正确的事情"这样的表述缺乏明确的指导意义。

为了更精确地定义价值观，研究者采用了泰勒（Taylor，1977）的"强烈评价性术语"概念。泰勒认为，价值观是一种语言，用于评估选项，突出某些选择的优越性。这种定义强调了价值观不仅仅是工具性的，而是包含了选择者想要坚持、尊重或珍惜的更伟大的东西。

价值观如何结合在一起？

假设我们可以从人群中收集价值观，我们需要一种方法来聚合或协调这些价值观，使其能够指导AI的行为。传统的社会选择理论，如投票或市场机制，存在一些问题：它们要么忽略了价值观之间的相关性，要么限制了道德学习的空间。

研究者提出了一个新的概念——道德图谱，它能够处理上下文丰富且细粒度的解决方案。道德图谱由（上下文、价值观卡1、价值观卡2）的元组组成，其中对于相同的上下文，价值观卡2被认为比价值观卡1更明智。这种结构允许模型在面对用户输入时，根据最明智的价值观来生成响应。

道德图谱启发（MGE）

MGE过程依赖于两个主要创新：价值观卡和道德图谱。价值观卡将"人类价值观"提炼成易于解释的数据对象，而道德图谱则协调这些价值观成图结构。

价值观卡

价值观卡的核心是询问用户在做出选择时关注什么，并将他们的注意力路径中的各种标准记录为要点列表。这些列表中的项目被称为"注意政策"（AP）。通过这种方式，可以将抽象的价值观转化为具体、可操作的信息。

道德图谱

道德图谱通过询问用户的智慧判断来构建。研究者定义了"智慧"的概念：对于上下文c，一个人p认为价值观va比价值观vb更明智，如果一旦他们学会了通过va进行选择，就不再需要在c中通过vb进行选择。这种定义使得在不依赖最终理由的情况下探讨道德成为可能。

实证研究

为了评估道德图谱作为对齐目标的效果，研究者进行了一项案例研究。他们构建了一个Web应用程序，并吸引了代表美国的500名参与者。实验结果表明，MGE过程能够有效地引出和协调价值观：

合法性：参与者绝大多数认可所制作的价值观卡，并表示整个过程帮助他们更清晰地了解什么对自己来说是重要的。
稳健性：参与者认为最终的道德图是公平的，即使他们的价值没有被评为最明智的。
细粒度：几乎所有参与者（89.1%）都觉得这个过程很好地代表了他们的价值观。
可概括性：实验结果表明，道德图谱能够很好地转移到以前未见过的情况。
可审计性：每个价值观卡都有一组注意力策略，可以相对容易地确定哪个响应最符合某个值。
可扩展性：随着参与者的增加，获得的值变得更加明智。

结论

研究者认为，如果人工智能系统逐渐被赋予更多的自主权，仅根据运营商的意图行事可能会产生灾难性的后果。通过道德图谱等方式与人类价值观保持一致，有助于确保人工智能系统致力于人类集体繁荣。

本文原文来自CSDN

热门推荐

一文读懂躯干骨：胸骨角等关键结构详解

“疤痕教育”引争议：周丽淇的育儿方式启发家庭教育新思考

天津到广州高铁省钱攻略：票价、优惠、购票技巧全解析

元旦机票价格分化：广州出发最低300元，热门航线涨至千元

区块链技术赋能，打造透明可追溯的中医药保健品供应链

心血管疾病患者使用阿司匹林：副作用防范与用药指南

天花顶爆炸螺丝安装指南：工具准备与实战技巧

OCR技术助力文档数字化，告别纸质烦恼

停丧习俗背后的文化密码

连续4次削弱仍强势，后羿凭攻速叠加机制稳居射手榜首

从“关关雎鸠”到“夜月幽梦”：古代婚礼祝福诗词全集

鼓浪屿打卡圣地：日光岩观景台

鼓浪屿船票最新购票指南：价格、优惠、码头全攻略

鼓浪屿摄影攻略：从日出到夜景，捕捉最美瞬间

冰雪来袭！法兰克福机场120个航班取消，欧洲航空运输受阻

格律诗创作口诀详解：从平仄到押韵的十八句心法

老年人出现幻觉怎么办？药物治疗配合心理关怀是关键

春光易逝，多情却被无情恼：苏轼《蝶恋花》解读

10%-20%老年人受幻觉困扰，专业护理提供新解决方案

聚光灯下的妈妈：周丽淇的高情商育儿经

周丽淇首曝4岁儿子近况：身高超龄，重视三观培养

三百轻骑破敌万众，南明名将李定国的桂林大捷

王者荣耀后羿：高输出玩法全攻略，从设置到实战

射手英雄生存与输出并重，四大维度提升战力

王者荣耀后羿：减速流出装成版本最优解

研究证实：氯吡格雷可有效替代阿司匹林，副作用更小

从免疫力到肌肉健康，蛋白质的7大功能与补充指南

从东京电影节到三大奖项，赵丽颖事业远超冯绍峰

精选四季结婚对联，传统祝福尽在其中

百年中英街焕新颜，地铁“晨曦特快”助力打卡