深度学习50年:从神经网络到AGI的突破之路
深度学习50年:从神经网络到AGI的突破之路
深度学习是人工智能领域最重要的突破之一,从2018年图灵奖颁发给Hinton、杨立昆和Bengio三位计算机科学家,到GPT等大模型的兴起,深度学习的发展历程充满了曲折与突破。本文将带你回顾深度学习从一个被质疑的科研方向,到为人类带来AGI曙光的完整历程。
神经网络早期:信仰驱动研究
1960年,Frank Rosenblatt发明了第一台神经网络原型机Mark I,这台机器可以通过学习认识ABCD英文单词。然而,Minsky在1969年发表的《Perceptrons》一书,详细描述了神经网络的种种局限性,几乎断送了神经网络的发展。
Hinton推动1980年代神经网络发展
Geoffrey Hinton出生于1947年英国,他的家族从祖爷爷辈(逻辑学家George Boole)开始就是科学世家。Hinton在1980年代发明了Backpropation算法,并与UCSD学者Sejnowski合作打造了Boltzmann机器,为神经网络的发展奠定了基础。
神经网络破圈:成为巨头追逐对象
2004年,Hinton开始探索大模型大数据,他最开始称之为“Deep belief networks”。2007年,在每年一度的人工智能权威NIPS会议上,Hinton发布了深度学习的概念。2008年,深耕语音识别多年的微软工程师邓力在NIPS上遇到了Hinton,后者表示深度学习已经在语音识别上取得了突破。
Google开始接触神经网络
2010年,Hinton的学生Navdeep Jaitly来到Google进行暑期实习,准备复刻神经网络进行语音识别。Google的海量数据在神经网络加持下效果倍增,Jaitly的模型错误率只有21%,当时最好的系统却有23%,经过2个星期调整后,Jaitly系统错误率下降到18%。
Hassabis创立DeepMind
Demis Hassabis出生于1976年,他有四分之一中国血统,其目前是一位新加坡的华裔。14岁时候,Hassabis就曾经是全球排名第二的国际象棋选手。2010年,Hassabis,Deepmind另外一位创始人Shane Legg,以及一位社会活动家Mustafa Suleyman联合成立了DeepMind,在商业企划第一行清楚写着他们的目标实现Artificial General Intelligence(AGI),也就是通用人工智能。
Google将深度学习融入各个产品
Google在收购Hinton的公司后,其计算中心还在用CPU计算而不是GPU,Google数据中心负责人当时对于深度学习并没有信仰,因此也没有看到为其匹配GPU的重要性。最终Jeff Dean和John Giannandrea两人最终拍板给Google买了4万张GPU(投资了1.3亿美元)。此后,深度学习开始向Google 各个产品渗透,以自动驾驶为例,只要Google能够搜集足够的代表各种情形的数据,神经网络就能够自动识别足够多的物体。
Sutskever发明语言模型,奠基大模型路线
Ilya Sutskever 是Hinton的博士生,当他加入Google后(通过对Hinton公司收购),深度学习已经在图片识别,语音识别上取得了突破,下一个要攻克的目标是翻译。Ilya Sutskever看来,这种方法不仅可以用来翻译,只要有合适的数据,还可以用来进行一系列生成场景,比如很快提炼文章核心要义,比如提炼图片中核心意思,只要有足够大的模型,足够多的数据,成功是确定的。Ilya Sutskever后来成为了OPEN AI的联合创始人,实际上,当时他想法和GPT已经比较接近了(后来Google推出的Transformer延续了这个思维)。
GAN——生成逼真AIGC创新模式
2013年,Bengio的博士生Ian Goodfellow面试了Facebook,觉得不合适,他对Google Brain的工作更感兴趣。在一次实验室博士聚会中,有人提出如何使用神经网络模型生成逼真的图片,当时DeepMind已经有方法可以反向生成图片,但是只是对高品质输入图片才有用。在聚会中,博士生提出可以基于生成图片进行像素级分析,然后和原有图片进行对比来验证仿真程度。Goodfellow提出一个颠覆式创新的想法——为什么不训练两个神经网络模型,其中一个生成图片,一个来验证生成图片是否足够逼真呢?这样,两个模型可以互相促进,直到生成的图片足够逼真(能够骗过机器)为止。这个想法被其他博士生嗤之以鼻,但是Goodfellow决定自己尝试,且取得了不错的效果,他在论文中将这个模型命名为Generative adversarial network(简称GAN)。
巨头们的深度学习野心
Facebook邀请杨立昆建立AI Lab。深度学习的突破进展,以及Google的一系列动作当然也吸引了Zuckerberg的注意力,Facebook也要建立自己的AI Lab进行深度学习研究。Zuckerberg找到了杨立昆,请他领军(足够分量),但是后者担忧Facebook是否能给一个长期的科研环境(而不是追求短期回报),最初只是答应做咨询。Zuckerberg展开了持续追求,他告诉杨立昆深度学习可以在社交网络有充分发挥空间,可以自动识别语音、图片等;长期来看,可以打造元宇宙里面的自动助手等。杨立昆问,有什么领域是Facebook不会做的吗?Zuckerberg的答案是机器人(真正的)。最终,杨立昆被打动,答应出任Facebook AI实验室主任,但是他提了两个条件,其一是不离开NYU的教职(兼任),且不离开纽约(Facebook在纽约设立办公室)。他每周会花一天在NYU,四天在Facebook。此外,他要求在Facebook推行学术界的开放研究标准,因为只有开放可以加速研究。
Alpha Go掀起新一轮高潮
2015年,Facebook的CTOMike Schroepfer提到公司的深度学习专家们正在教模型下围棋。实际上,AI模型在国际象棋领域早就取得了突破(早在1997年IBM深蓝打败了国际象棋大师卡斯帕罗夫),然而围棋却是一个从复杂程度远超国际象棋的品类,计算机一直没有突破。Facebook对外放风背后其实有一个重要目的,就是Zuckerberg很想在机器学习等方向做出引领行业的成果,让外界认为Facebook是科技引领公司。然而,DeepMind的Alpha Go最后抢先了,就在Facebook对外宣传几天后,DeepMind就在《Nature》上发表了一篇论文,描述了Alpha Go击败了欧洲的围棋冠军。2016年3月,Alpha Go迎来了历史时刻,他将对战当时人类最优秀的围棋选手李世石。在李世石以及绝大多数外界看来,李世石毫无疑问会获胜,然而Hassabis有很不一样的认知,因为他看到了Alpha Go夜以继日的自我训练,在迅速变得越来越聪明,在击败欧洲冠军Fan Hui后,Alpha Go又变强了很多。最终结果大家可能有印象,5局比赛,Alpha Go最终4:1获胜,有趣的是,模型在第4局78步上走了一步昏招(李世石也变聪明了,他故意下了一步Alpha Go没有看过的招数),最终挽回一点颜面。2017年5月,当Alpha Go面对柯洁时候,后者就没有那么好运了,3:0战胜了柯洁。
OpenAI另辟蹊径
2015年,Y Combinator的负责人 Sam Altman,支付平台Stripe的CTO Greg Brockman,以及Elon Musk等讨论成立一家独立于大公司的AI公司的可能性。Sam Altman生于1985年,2005年他创立一家社交网络公司Loopt,获得了Y Combinator的投资,7年后社交网络公司关闭, Sam Altman直接被Paul Graham任命为接班人,在运行YC时候Altman培养了自己识人的能力,更不用说融资的能力。回到2015年当天会谈,他们谈论几个核心问题:现在成立AI实验室太晚了吗?他们一致认为难度很高,首先是要获得最优秀的人才,其次才可能有研究成果。他们首先联系了Bengio,后者推荐了一些顶级AI人才其中就包括当时在Deepmind工作的Ilya Sutskever,这些AI研究者们被一个独立、开放(初衷是研究成功免费共享给社会)的AI研究组织定位吸引,同样也被Musk等人对于AGI未来发展审慎的态度所吸引。3周后,他们联系的10位专家中9位同意加入Open AI(5位有DeepMind工作经验,Hassabis觉得自己被Musk背叛了,因为后者也投资了DeepMind),只有Ilya Sutskever还在犹豫,因为Google给他开出200万美元年薪,而Open AI只能给他零头,最终他还是答应加入。早期OpenAI并不被看好,杨立昆就觉得,他们招募了一些不错的学者,但是都太年轻了,OpenAI也太小了,很难在长期保持人才竞争力。开放的科研理念实际上并不新鲜,Facebook、Google实际上都公开了他们大部分科研成果(GPT基于Transformer就来自Google)。
Google BERT看到AGI的曙光
2015年,杨立昆在一次和一位学者辩论时候提到当时AI领域已经发生的主要应用场景是识别物体和翻译,下一步就是让深度学习模型能够理解人类的话(NLP),甚至能够进行对话。2018年,一位Google工程师发布了Bert大模型,其被称为Universal language model——基于大模型,大数据(出版图书、Wikipedia等),OpenAI、Google等都在进行类似的研究(GPT),其中GPT核心方式通过上文预测下一个单词,而Bert则是通过上下文进行完形填空。后来Bert证明可以通过Allen Institue一系列阅读理解的测试,回答一些知识类问题。Google 将BERT进行开源,并且在100多种语言进行训练,也有其他人用更大数据来训练它。NYU一位教授Gary Marcus预测说NLP模型不会发展太快,因为学者们经常会聚焦他们擅长的领域(意思是还不擅长LLM)。Hinton反击说,他的话没有技术描述,“永不过时”。
加强学习+机器人
2015-2017年亚马逊一直举办一个拣货机器人大赛,其要求参赛机器人在15分钟里面分拣10个货品,难度很高,也现实行业的需求。Google Brain在建立医疗分布后就开始AI+机器人研究,由Sergey Levine主要负责,他觉得人类可以通过与外界的感知交互获得技能,机器人也可以。于是Google Brain开始设置了一些机械臂,让他们基于深度学习模型自我学习如何分拣货物,几个星期后,这些机械臂能够轻松捡起“眼前”的货品。2019年,Google Brain发布一个机械臂,通过14小时学习后,能够拿起货物丢进正确的箱子里,准确率达到85%,而人类准确率只有80%。OpenAI也在做类似的研究,除了训练机器人打游戏(Dota2),其Rubik's Cube(魔方)项目,当他们要训练机械臂时,他们选择在虚拟现实世界里面训练(不是真正的机械臂,而是仿真)。另一个知名AI机器人创业企业是Covriant,其创始人为前OpenAI员工,Abbeel,以及他的学生PeterChen和Rocky Duan。Covriant最早投资人来自Hinton(他说后悔当时投少了)和杨立昆。Covriant后来和著名机器人公司ABB达成合作,在一个德国仓库的实验中,其机器人分拣准确度达到99%。Hinton聚焦研究Capsule Network。早在Hinton到Google之后,其便和Jeff Dean合作开始了对Capsule Network研究,其是缘起于1970年代的一种更复杂模仿大脑结构的模型。在Hinton看来,当时深度学习模型能够通过输入图片识别各种物体,但是这些图像都是二维的,比如其可以识别一个咖啡杯,但是如果被子打翻了,模型可能就认不出了。Capsule Network能够有三维信息输入(和人一样),2017年,他推出了能够比当时主流神经网络从不同角度更准确识别物体的Capsule Network,在Hinton看来,Capsule Network本质是对大脑结构一种更复杂的模拟,其潜力可能也更大。最开始,Hinton不看好DeepMind的加强学习路线,他觉得需要太多数据、太多算力。他也不看好AGI的方向,他觉得机器就是专用的就行,为什么我的手术机器人需要知道棒球规则呢?但是后来他投资Covariant后,他看到加强学习的强大效果后,相信了加强学习的威力,但是他仍然不相信AGI。
结语:因为相信,所以看见
那个写书抨击神经网络的Minsky 1969年就拿到了图灵奖。1970年代,Hinton冒天下之大不韪,选择了无人问津的神经网络研究,出于自己的相信,杨立昆,Bengio也是,他们2018年终于拿到了图灵奖。
DeepMind和OpenAI的创立本身就来自于对AGI的信仰。
微软在2010年神经网络爆发没有赶上,因为Peter Lee等人压根不相信神经网络能有这么大威力。Google Brain没有追上GPT这一波AGI浪潮,是不是和Hinton压根不相信AGI相关?(可能他现在不这么想了)。
这个世界能够阻碍你进步的,大概只有你的认知了。