AI教父”杨立昆:现有训练方式永远实现不了人类水平 AI
AI教父”杨立昆:现有训练方式永远实现不了人类水平 AI
在人工智能快速发展的2024年,科技界分成了两派:一派认为AI将失控,给人类带来生存威胁,另一派则认为这种担忧被夸大。作为Meta首席科学家、神经网络领域的开创者之一的杨立昆(Yann LeCun)站在了后一派的最前线。
AI威胁论:杞人忧天还是未雨绸缪?
面对AI威胁论,杨立昆毫不掩饰地表达了不屑。“有人说五个月后AI就会消灭人类,显然他们错了。”在他看来,真正的挑战不在于AI是否会统治人类,而在于如何确保这项技术的民主化,避免其被少数科技巨头垄断。
开源与垄断:谁将主导AI未来?
“如果只有美国西海岸的三家公司控制着所有人的数字生活,这将是民主的终结。”杨立昆强调,我们需要开放的AI平台,让不同文化、不同价值观的人们都能参与其中。
AI的学习方式:文本训练 vs 视觉学习
一个四岁的孩子通过视觉接收到的数据量,与最大的语言模型通过文本接收的数据量相当。但阅读这些文本需要几十万年,而孩子只用了16,000小时。这告诉我们,仅靠文本训练永远无法达到人类水平的AI。
技术发展现状:我们离通用AI还有多远?
“我们有能通过律师资格考试的AI,但连一个能自动收拾餐桌的家用机器人都造不出来。”这说明理解物理世界比处理语言要困难得多。我们还远未达到通用人工智能的水平。
监管与政策:限制研发 vs 开放竞争
“对AI产品进行监管是必要的,但对研发设限是极其危险的。”这种限制会导致只有少数已进入该领域的公司能够继续发展,形成垄断。我们需要的是开放和竞争。
全球化视角:AI需要说多少种语言?
未来的AI必须能说印度的700种语言,印度尼西亚的300多种语言。这不可能由单一公司在封闭环境中完成,需要全球性的分布式合作。就像Linux一样,这必须是一个开放的平台。
安全与伦理:如何让AI变得安全?
让AI变得安全不是通过限制其发展,而是从设计之初就植入正确的目标和约束。这就像制定法律一样——我们通过法律塑造人类行为,也可以通过设计约束来规范AI行为。
未来展望:人人都将拥有AI助手
在未来5到10年内,每个人都将随身携带AI助手,某种程度上比自己更聪明的助手。这不仅是技术的进步,更是一个全新的计算平台。
社会影响:AI是问题还是解决方案?
AI不是制造问题的工具,而是解决问题的方案。以Facebook为例,从2017年到2022年,AI自动删除仇恨言论的比例从23%提升到95%。关键是确保好人手中的AI比坏人手中的更强大。
关于开源:是福是祸?
有人批评Meta是因为落后才选择开源路线,是追赶的策略。但杨立昆表示,如果没有Meta,就不会有现在的ChatGPT和Claude这些系统,至少不会达到现在的水平。
未来的AI助手:不只是聊天机器人
杨立昆透露,Meta正在研究下一代人工智能系统,这些系统不仅仅基于预测下一个词。大语言模型之所以被称为大语言模型,是因为它们基本上是在训练预测文本中的下一个词。但这种方法无法保证生成的词序列是有意义的,不会产生虚构内容或编造信息。因此,业界一直在努力微调这些系统,通过人工反馈训练它们执行特定任务,避免产生无意义的内容。同时,我们也在训练系统在不确定答案时查询数据库或搜索引擎。这就需要系统能够判断自己是否知道答案,有时还需要生成多个答案并选择其中最好的。但从根本上说,这不是未来系统的运作方式。
5-10年计划:智能眼镜与元宇宙
杨立昆透露了一个秘密——他现在戴着智能眼镜。这显示了我们已经取得的进步。他还表示,展望未来5到10年,我们将随身携带智能眼镜,可能还有其他智能设备。它们都将配备人工智能助手。这些设备将在我们的日常生活中为我们提供帮助。我们需要这些系统具备类人智能,达到人类水平的智能,在某些方面甚至超越人类。但现在我们离这个目标还很远。有些人让我们相信我们已经接近所谓的通用人工智能(AGI)了,但实际上我们还远未达到。当他说“很远”时,并不是指几个世纪那么久,可能不需要几十年,但至少需要几年时间。说“至少几年”的原因是这可能比我们想象的更难。
我们可以从以下现象看出这一点:现在我们有能够通过律师资格考试或大学考试的大语言模型,但我们在哪里可以找到能够打扫房间、收拾餐桌、装载洗碗机的家用机器人呢?这不是因为我们无法制造机器人,而是因为我们还不能让它们变得足够智能。事实证明,对人工智能系统来说,理解物理世界比理解语言要困难得多。这听起来可能有违直觉,因为人类认为语言是智能的巅峰。实际上,语言相对简单,因为它只是一系列离散符号。而现实世界,我们还远未掌握。
因此,我们正在研究新的架构和系统,让它们能够理解物理世界,并像婴儿和幼年动物那样通过观察和互动来学习理解物理世界。这些系统最终将能够规划一系列行动以实现特定目标。这就是我们所说的智能体系统。一个智能体系统能够规划一系列行动以达到特定结果。目前,人们谈论的智能体系统实际上并不具备这种规划能力,它们某种程度上是在投机取巧,只是学习了一些行动模板。
开源 vs 闭源:谁将主导AI未来?
在人工智能领域,开源的概念会更复杂一些。构建人工智能系统首先需要收集训练数据,然后在这些数据上训练所谓的基础模型(foundation model)。训练代码和数据通常是不公开的。例如,Meta并不发布Llama模型的训练数据和大部分训练代码。之后,我们可以发布训练好的基础模型。这就是Llama的本质。它附带开源代码,允许你运行系统并按照自己的需求进行微调。你无需向Meta付费或请求许可。这种开放性存在一些限制,主要是出于法律环境的考虑。而关键在于,主流模型现在都是封闭的。来自OpenAI、Anthropic和谷歌的模型都是封闭的。
有人批评说,你们是因为落后才选择开源路线,这是追赶的策略。对于来自竞争对手的这种说法,杨立昆如何回应?这其中有一段有趣的历史。首先,你要明白,除了谷歌之外,业界所有公司构建人工智能系统时都使用一个名为PyTorch的开源软件平台,这个平台最初是由Meta开发的。Meta后来将其所有权转移给了Linux基金会,因此现在已不属于Meta。但OpenAI、Anthropic等公司都在使用PyTorch。可以说,如果没有Meta,就不会有现在的ChatGPT和Claude这些系统,至少不会达到现在的水平。ChatGPT这类工具所使用的底层技术是在不同机构开发的。OpenAI在还不那么保密的时期也做出过贡献。
在Meta,我们有一个相当大的研究团队。我们还有一个专门从事生成式人工智能的应用研究和高级开发组织。研究组织的名称是FAIR,现在这个名称代表“基础人工智能研究”(Fundamental AI Research)。这个团队有500人。我们正在研究的是下一代人工智能系统,超越大语言模型和聊天机器人的范畴。
AI的未来:分布式训练与全球合作
杨立昆设想的未来是通过分布式方式训练一个人工智能系统,一个共同的人工智能系统,作为人类知识的储存库。这意味着在世界各地设立多个数据中心,使用本地数据为全球系统做贡献。你不需要复制数据。谁来运营这个全球系统?谁在运营Linux?谁在支持维基百科?以Linux为例,它主要是由各公司雇员支持的,这些公司允许员工贡献他们的工作成果。我们可以建立类似的系统,让每个人都为这个全球模型做出贡献。
“三教父”之争:AI威胁论的分歧
与杨立昆共同获得图灵奖的杰弗里·辛顿(Geoffrey Hinton)和约书亚·本吉奥(Yoshua Bengio)都在大声疾呼,警告人工智能的潜在危险,他们都支持政府加强监管和监督,包括对研发的监管。而杨立昆称他们的警告完全是“胡说八道”。他认为,现在的大语言模型并不具有主观体验,而且这些危险已经被讨论了好几年,但被夸大到了荒谬的地步,以至于完全失去了意义。
人性本善 vs 人性本恶
杨立昆认为,终将拥有一些像人类和动物一样学习的系统,它们能像人类和动物一样高效地学习新技能和新任务,而这种学习速度说实话是惊人的。但是,我们还无法用机器复制这一点。像特斯拉这样的公司拥有数十万甚至数百万小时的人类驾驶数据。他们可以用这些数据来训练人工智能系统,他们也确实这么做了。但这些系统仍然不如人类。我们还买不到真正的自动驾驶汽车或机器人出租车,除非使用一些变通方法。比如Waymo可以做到这一点,但需要很多技巧。同样,我们也买不到家用机器人,因为我们还不能让它们变得足够智能。
原因很简单。正如杨立昆所说,我们在所有公开可用的文本以及更多数据上训练大语言模型和聊天机器人。这大约是20万亿个词。每个词由三个字节表示,所以大约是60万亿字节。让我们将其四舍五入到10的14次方,也就是1后面跟着14个零。现在,询问发展心理学家。他们会告诉你,一个四岁的孩子总共清醒时间约16,000小时。在这16,000小时里,视觉信息以每秒约2兆字节的速度传输到孩子的视觉皮层。这个计算基于以下事实:我们有100万条视神经纤维,每条纤维每秒传输约1字节的信息。我们有两只眼睛,所以大约是每秒2兆字节。做一下算术,16,000小时的数据量,你得到的也是10的14次方字节。这就是说,一个四岁的孩子通过视觉接收到的数据量,与最大的大语言模型通过文本接收的数据量相当。而阅读这些文本,我们任何人都需要几十万年的时间。这告诉我们,仅仅通过训练文本数据,我们永远无法达到人类水平的人工智能。
我们必须通过感知输入来训练,而这些数据实际上是无限的。16,000小时的视频相当于YouTube上30分钟的上传量。我们拥有的视频数据远超过我们所需要的。因此,未来几年人工智能发展的重大挑战是让系统通过观察世界、观看视频,然后在世界中互动来理解世界是如何运作的。这个问题目前还没有解决,但有很大可能在未来五年内会取得重大进展。这就是为什么你看到所有这些公司都开始研发人形机器人。他们现在还不能让这些机器人足够智能,但他们认为人工智能在未来五年内会取得足够的进展,到这些产品可以面向公众销售时,人工智能将足够强大。
开源的力量:Llama的全球影响力
Llama系列模型是开源的,这使得人们能够根据特定的垂直领域应用或特定语言来自主微调它。比如,我们在塞内加尔的一位前同事创办了一家公司,提供能说法语、沃洛夫语和其他半打本地语言的医疗助手聊天机器人。我们正在与印度的多个组织合作,确保Llama的下一个版本能够说印度所有22种或29种官方语言。这还只能覆盖印度95%的人口。印度有700种语言,其中大多数是纯口语,没有书面形式。现在我们有了能够处理纯口语的技术,这是令人惊叹的。上周我在越南领奖时,也看到了类似的努力,让系统能说越南语。我们在世界各地都看到这种情况。人们正在对这些模型进行微调,用于我们从未想到可能的用途。我认为我们需要更有意识地建立全球伙伴关系,让这些系统从一开始就能作为基础模型说世界上所有的语言,理解所有的文化。这样更容易让专门化系统的开发工作取得成功。
我们做了一个实验,把这些智能眼镜给印度农村地区的人使用。他们非常喜欢,因为他们可以用自己的语言交谈。他们可以看着一株植物,询问这株植物有什么病,如何治疗,一周后天气会怎样,诸如此类的问题。所以这将产生广泛的影响。
结语:AI的未来取决于我们
杨立昆最后强调,AI不是人们用来制造仇恨言论或虚假信息的工具,实际上它是对抗这些行为的最佳手段。我们需要确保好人手中的人工智能比坏人手中的更强大。
这场对话展示了AI领域最顶尖专家之一的思考和观点,为我们理解AI的未来提供了宝贵的视角。
本文原文来自网易新闻,采访者为Kara Swisher。