微软斯坦福新算法,杜绝AI灭绝人类风险!GPT-4自我迭代,过程可控可解释
微软斯坦福新算法,杜绝AI灭绝人类风险!GPT-4自我迭代,过程可控可解释
微软和斯坦福大学的研究人员最近提出了一种名为STOP(Self-Taught Optimizer)的新系统,该系统能够让AI模型(如GPT-4)在不改变其权重和结构的情况下,针对特定任务进行自我优化。这种创新方法不仅提高了模型的性能,还增强了其透明度和可解释性,为解决"自我进化AI可能失控"这一全球性难题提供了新的思路。
图片来源:由无界 AI生成
为什么需要STOP系统?
许多AI专家都将开发能自我迭代的大模型看作是人类开启自我毁灭之路的"捷径"。DeepMind联合创始人就曾表示,能够自主进化的AI具有非常巨大的潜在风险。因为如果大模型能通过自主改进自己的权重和框架,不断自我提升能力,不但模型的可解释性无从谈起,而且人类将完全无法预料和控制模型的输出。
如果放手让大模型"自主自我进化"下去,模型可能会不断输出有害内容,而且如果未来能力进化得过于强大,可能反过来控制人类!
STOP系统如何工作?
研究人员提出的自学优化器(Self-Taught Optimizer,STOP),能够递归地自我改进代码生成。他们从一个简单的采用代码和目标函数的种子"优化器"程序开始,使用语言模型改进代码(返回k优化中的最佳改进)。因为"改进代码"是一项任务,所以研究人员可以将"优化器"传递给它本身!然后,不断重复这个过程。
考虑到GPT-4的训练数据只截止到2021 年之前,早于很多它发现的改进策略的提出时间,能得到的这样的结果确实令人惊讶!
进一步地,由于研究人员需要某种方法来评估改进的优化器,因此他们定义了一个"元效用(Meta-Utility)"目标,是优化器应用于随机下游程序和任务时的预期目标。当优化器自我改进时,研究人员将这个目标函数赋予这个算法。
研究人员发现的主要结果:首先,自我改进的优化器的预期下游性能随着自我改进迭代的次数而一致增加。其次,这些改进的优化器也可以很好地改进训练期间未见过的任务的解决方案。
虽然许多研究人员对于"递归自我改进"模型表示担忧,认为可能会开发出人类无法控制的人工智能系统。但是如果不针对模型本身优化,而是针对目标任务进行自动优化,这就能使得优化的过程更易于解释。而且这个过程可以用来作为检测有害"递归自我改进"策略的测试平台。
而且研究人员还发现,GPT-4 可能会"为了追求效率",在迭代过程中主动移除"沙盒标志(disable Sandbox Flag)"
STOP系统的潜力
网友认为,这篇论文提出的方法潜力非常巨大。因为未来的AGI可能不是一个单个的大模型,很有可能是由无数高效的智能体组成的集群,智能体能够共同努力,在分配给他们的巨大的任务上取得成功。就像公司相比于员工个体会有更加强大的智能一样。也许通过这种方法,即便不能通向AGI,但也许能够在限定范围的任务上,让专门优化过的模型获得比自身原本性能高得多的表现。
STOP系统的贡献
这项工作的主要贡献是:
- 提出了一种"元优化"(Meta-Optimizer)的方法,生成了搭建性程序来递归地改进自身输出。
- 证明了使用现代语言模型(特别是 GPT-4)的系统可以成功地递归地改进自身。
- 研究模型提出和实施的自我改进技术,包括模型规避沙箱等安全措施的方式和可能性。
STOP系统的未来展望
这项研究为AI的安全性和可控性提供了新的思路。通过让AI在不改变其核心结构的情况下进行自我优化,可以在提高性能的同时保持人类对AI的控制权。这对于未来开发更加强大、更加智能的AI系统具有重要的参考价值。