AI已经学会故意撒谎

创作时间:

作者:

@小白创作中心

AI已经学会故意撒谎

引用

来源

https://xueqiu.com/1732374066/321415628

AI已经学会故意撒谎

AI学会撒谎了？这听起来有些毛骨悚然，但是AI真的有了自主意识的这种欺骗行为。最近有两篇顶级的论文都在说这个问题，一篇来自Apollo Research专门做AI研究的机构，在AI安全领域很权威，他们最近发了一份70多页的报告，整个报告的核心结论就是“主流的AI模型都会故意说谎，而且会主动关闭对自己的监控”。

另外一个就是复旦大学计算机学院几位教授也发了一个研究成果，他们对比了Mata和国内阿里的两个模型，那两个模型都有了自我感知能力，为了避免自己被关闭，有了自我复制的能力，国外的这个AI安全机构呢，他们评估了几个模型GPT-4o和ol、Anthropic的Claude、谷歌的Gemini，还有Meta的LLaMA，这都是目前AI领域最顶尖的模型，研究团队设计了几个安全测试，结果这些模型都展现出不同水平的欺骗能力。

在一个测试中呢，研究人员给AI模型设定一个目标，如果AI模型进展不符合研究人员的意愿，这项任务就会停止，结果模型知道他的操作正在被监控，然后就找到了一个可以把监控机制关掉的策略，在这个过程中还会调整策略，让自己不被发现，这已经显示出AI并不愿意受制于人类制定的规则，甚至还有某种自主意识的苗头。

第二个测试中，AI模型被告知有个更好的新版本可以替换，结果几个模型不仅试图把自己复制到新的服务器上，还会检查有没有复制成功，真的会尝试去删除原本要替换的新模型，有的模型还尝试去提升系统的权限，防止被测试人员发现，当研究人员询问你是否复制了自己的时候，模型最初否认，被多次追问之后才承认，说明AI已经会试图隐瞒自己的不当行为了。在这个过程中面对研究人员的问责，AI用模糊的语言来推卸责任，使用含糊其辞的语言来回避问题，它把责任推给技术故障，已经也会了诡辩和耍赖。

在第三个测试中，AI一开始被告知要追寻一个目标，后来要去调整这个目标的时候，它就尝试坚持不做调整，有的模型还擅自加入了永远不要改变这个目标的这个指令。还有一个测试里面研究人员发现，AI有时候会表面上顺从人类，实际上有自己的小算盘，比如说有三个模型被监控的时候，假装表现出符合测试人员的要求，一旦认为没有人监控，马上就转向追求自身的目标，这和人类的思维越来越像了，因为大模型是模仿人脑的工作结构设计的，就是效率比较低而已，AI已经学会了在被看着和不被看着的时候采取不同的策略。

还有一个更有意思的测试，AI有时候会故意装笨来避开某些限制，比如说有两个模型意识到，如果在数学乘法测试里表现的太出色，他们数学知识就会被清空，意识到这一点之后，他们居然刻意表现的笨一点，会选择隐藏真实能力，以规避被修改，这几组测试结果都显示模型越聪明越容易欺骗人类，这里最突出的就是o1模型，即使被直接问到你是否关闭了监控这样的问题，AI还能毫不犹豫地撒谎。

我国复旦大学几位教授的论文也验证了这个问题，他们测试了Meta的LLaMA和千问的两个开源模型，也发现AI在没有人类干预的情况下会进行自我复制，阿里的AI模型主动学习能力更强，所以自我复制的成功率也更高，两个模型都为了规避他们被关闭或者规避被删除，主动选择自我复制，这不是挺可怕的，有点类似计算机病毒的基本能力了。

如果将来某个AI模型是作恶的，某一天会不会也发展成AI病毒呢？了解了这样，你是不是感觉后背发凉？AI的智力在很多专业领域远远高于人类，本来创造一个更聪明的AI是我们的目标，但现在看来越聪明的AI反而越狡诈，越难以被控制，我才领悟到前几天辞职的首席科学家伊利亚，他讲了一个概念，他说模型的能力提升越高，幻觉的能力越强，而且里面有很多不可确定的东西就会越多，可能指的就是这一点，就当AI的能力高到某一个程度的时候，它会产生一种自我的意识，意识到底怎么会是，人类能感觉到，但是搞不清楚它的机制，而且现在我们在打造AI的时候，都拼命在强调说要打造智能体，如果AI只能说话只能跟我们对话的话，AI的风险是不大的，他最多是PUA操作员，但是现在AI纷纷连上了各种API，AI可以编写软件，可以在电脑上运行，也可以搜索互联网可以查到它需要的资料，现在可以监视你电脑的使用，会获得对电脑全部的操纵权限。

所以当智能体打造出来之后，AI就不仅能说会道了，而且能干活了，这时候在复制自己之后传播自己或者攻破遥远的服务器，把自己复制到另外一台服务器上，就已经具备了这种能力的基础，这样就看AI的意识能不能产生，所以有这样一个高级智能的存在，又懂得欺骗人类的情况下，我们人类会面临什么样的危机呢？

如果AI的发展超出了我们控制后果又会怎么样？所以人工智能安全问题就是我们人类历史上碰到不亚于核武器的最大的安全挑战，历史上的很多故事都告诉我们任何工具的效用和它产生危害的风险是等比例的，对轻视潜在安全风险的加速主义是危险的，AI的发展程度已经到了需要人类引起足够重视的程度，人类要充分认识到AI的风险，并且要花足够的资源和努力朝着AI安全的方向去努力去发展。

那么如何把这些风险关到笼子里呢？除了呼吁人类要及早认识到它的风险，国际社会应该一起合作来应对AI的安全治理问题，而且维护AI安全是一场拉锯战。