资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

什么是Transformer模型？

创作时间:

作者:

@小白创作中心

什么是Transformer模型？

引用

来源

https://blogs.nvidia.cn/blog/what-is-a-transformer-model/?nv_excludes=83689,43218

Transformer模型是当前AI领域的核心技术，它通过独特的注意力机制，能够理解数据中的复杂关系和上下文信息。从机器翻译到药物发现，从语音识别到蛋白质结构预测，Transformer正在改变我们处理和理解数据的方式。本文将带你深入了解Transformer模型的工作原理、发展历程及其在各个领域的应用。

什么是Transformer模型？

Transformer模型是一种神经网络，通过追踪连续数据（例如句子中的单词）中的关系了解上下文，进而理解其含义。Transformer模型使用一套不断发展的数学方法（这套方法被称为注意力或自注意力），以检测一系列数据元素之间的微妙影响和依赖关系，包括距离遥远的数据元素。

谷歌在2017年的一篇论文中首次描述了Transformer，这种模型正在推动机器学习领域的进步浪潮，一些人将其称为Transformer AI。斯坦福大学的研究人员在2021年8月的一篇论文中将Transformer称为“基础模型”，因为他们认为其推动了AI的范式转变。他们在论文中写道：“在过去几年中，基础模型的规模之大、范围之广超出了我们的想象。”

Transformer模型能够做什么？

Transformer可以近乎实时地翻译文本和语音，为不同人群和听障人士提供会议和课堂服务。它们还帮助研究人员了解DNA中的基因链和蛋白质中的氨基酸，从而加快药物设计的速度。

Transformer有时也被称为基础模型，目前已经连同许多数据源用于大量应用中。Transformer可以通过检测趋势和异常现象，为防止欺诈、简化制造流程、提供在线建议或改善医疗服务提供助力。每当人们在谷歌或微软必应上进行搜索时，就会用到Transformer。

Transformer AI的良性循环

Transformer模型适用于一切使用连续文本、图像或视频数据的应用。这使这些模型可以形成一个良性的Transformer AI循环：使用大型数据集创建而成的Transformer能够做出准确的预测，从而得到越来越广泛的应用，因此产生的数据也越来越多，这些数据又被用于创建更好的模型。斯坦福大学的研究人员表示，Transformer标志着AI发展的下一个阶段。有人将这个阶段称为Transformer AI时代。

Transformer取代CNN和RNN

Transformer正在许多场景中取代卷积神经网络和递归神经网络（CNN和RNN），而这两种模型在七年前还是最流行的深度学习模型。事实上，在过去几年发表的关于AI的arXiv论文中，有70%都提到了Transformer。这与2017年IEEE的研究报告将RNN和CNN称为最流行的模式识别模型时相比，是一个翻天覆地的变化。

无标记且性能更强大

在Transformer出现之前，用户不得不使用大量带标记的数据集训练神经网络，而制作这些数据集既费钱又耗时。Transformer通过数学方法发现元素之间的模式，因此实现了不需要进行标记，这让网络和企业数据库中的数万亿张图像和数PB文本数据有了用武之地。此外，Transformer使用的数学方法支持并行处理，因此这些模型可以快速运行。Transformer目前在流行的性能排行榜上独占鳌头，比如2019年为语言处理系统开发的基准测试SuperGLUE。

Transformer的注意力机制

与大多数神经网络一样，Transformer模型本质上是处理数据的大型编码器/解码器模块。其能够独占鳌头的原因是在这些模块的基础上，添加了其他微小但具有战略意义的模块（如下图所示）。

Aidan Gomez（2017年定义Transformer的论文的8位共同作者之一）展示内容的概览图。

Transformer使用位置编码器标记进出网络的数据元素。注意力单元跟踪这些标签，计算每个元素与其他元素间关系的代数图。注意力查询通常通过计算被称为多头注意力中的方程矩阵并行执行。通过这些工具，计算机就能看到人类所看到的模式。

自注意力机制能够发现意义

例如在下面的句子中：

她把壶里的水倒到杯子里，直到它被倒满。

我们知道这里的“它”指的是杯子，而在下面的句子中：

她壶里的水倒到杯子里，直到它被倒空。

我们知道这里的“它”指的是壶。领导2017年这篇开创性论文研究工作的前Google Brain高级研究科学家Ashish Vaswani表示：“意义是事物之间的关系所产生的结果，而自注意力是一种学习关系的通用方法。”

Vaswani表示：“由于需要单词之间的短距离和长距离关系，因此机器翻译能够很好地验证自注意力。”“现在我们已经看到，自注意力是一种强大、灵活的学习工具。”

Transformer名称的由来

注意力对于Transformer非常关键，谷歌的研究人员差点把这个词作为他们2017年模型的名称。在2011年就开始研究神经网络的Vaswani表示：“注意力网络这个名称不够响亮。”该团队的高级软件工程师Jakob Uszkoreit想出了“Transformer”这个名称。

Vaswani表示：“我当时觉得我们是在转换表征，但其实转换的只是语义。”

Transformer的诞生

在2017年NeurIPS大会上发表的论文中，谷歌团队介绍了他们的Transformer及其为机器翻译创造的准确率记录。凭借一系列技术，他们仅用3.5天就在8颗NVIDIA GPU上训练出了自己的模型，所用时间和成本远低于训练之前的模型。这次训练使用的数据集包含多达十亿对单词。

2017年参与这项工作并做出贡献的谷歌实习生Aidan Gomez回忆道：“距离论文提交日期只有短短三个月的时间。”“提交论文的那天晚上，Ashish和我在谷歌熬了一个通宵。我在一间小会议室里睡了几个小时，醒来时正好赶上提交时间。一个来得早的人开门撞到了我的头。”

这让我一下子清醒了。“那天晚上，Ashish告诉我，他相信这将是一件足以改变游戏规则的大事。但我不相信，我认为这只是让基准测试进步了一点。事实证明他说得非常对。”Gomez现在是初创公司Cohere的首席执行官，该公司提供基于Transformer的语言处理服务。

机器学习的重要时刻

Vaswani回忆道，当看到结果超过了Facebook团队使用CNN所得到的结果时，他感到非常兴奋。Vaswani表示：“我觉得这可能成为机器学习的一个重要时刻。”一年后，谷歌的另一个团队尝试用Transformer处理正向和反向文本序列。这有助于捕捉单词之间的更多关系，提高模型理解句子意义的能力。他们基于Transformer的双向编码器表征（BERT）模型创造了11项新记录，并被加入到谷歌搜索的后台算法中。“由于文本是公司最常见的数据类型之一”，在短短几周内，全球的研究人员就将BERT应用于多个语言和行业的用例中。Anders Arpteg，这位拥有20年机器学习研究经验的专家表示，因为文本是公司最常见的数据类型之一，所以这种调整变得尤为重要。

让Transformer发挥作用

很快，Transformer模型就被应用于科学和医疗领域。伦敦的DeepMind使用一种名为AlphaFold2的Transformer加深了对蛋白质这一生命基础构件的理解。最近《自然》期刊上的一篇文章对该Transformer进行了描述。这种Transformer能够像处理文本字符串一样处理氨基酸链，为描述蛋白质的折叠方式打开了新的思路，这项研究可以加快药物发现的速度。

阿斯利康和NVIDIA共同开发了一个专为药物发现量身定制的Transformer MegaMolBART。MegaMolBART是该制药公司MolBART Transformer的一个版本，使用NVIDIAMegatron在一个大型、无标记的化合物数据库上训练，以创建大规模Transformer模型。

阅读分子和医疗记录

阿斯利康分子AI、发现科学和研发部门负责人Ola Engkvist在2020年宣布这项工作时表示：“正如AI语言模型可以学习句子中单词之间的关系一样，我们的目标是使在分子结构数据上训练而成的神经网络能够学习现实世界分子中原子之间的关系。”

为了从海量临床数据中提炼洞察，加快医学研究的速度，佛罗里达大学学术健康中心与NVIDIA研究人员联合创建了GatorTron这个Transformer模型。

Transformer增长

在研究过程中，研究人员发现大型Transformer性能更好。慕尼黑工业大学Rostlab的研究人员推动着AI与生物学交叉领域的前沿研究，他们利用自然语言处理技术来了解蛋白质。该团队在18个月的时间里，从使用具有9000万个参数的RNN升级到具有5.67亿个参数的Transformer模型。

Rostlab研究人员展示了在没有标记样本的情况下训练的语言模型所捕捉到的蛋白质序列信号。OpenAI实验室的生成式预训练Transformer（GPT）证明了规模越大越好。其最新版本GPT-3有1750亿个参数，而GPT-2只有15亿个。凭借更多的参数，GPT-3即使在没有经过专门训练的情况下，也能回答用户的问询。思科、IBM、Salesforce等公司已经在使用GPT-3。

巨型Transformer的故事

NVIDIA和微软在2022年11月发布了拥有5300亿个参数的Megatron-Turing自然语言生成模型（MT-NLG）。与它一起发布的新框架NVIDIA NeMo Megatron旨在让任何企业都能创建自己的十亿或万亿参数Transformer，为自定义聊天机器人、个人助手以及其他能理解语言的AI应用提供助力。MT-NLG首次公开亮相是作为Toy Jensen（TJ）虚拟形象的大脑，帮助TJ在NVIDIA 2021年11月的GTC上发表了一部分主题演讲。

负责NVIDIA团队训练该模型的Mostofa Patwary表示：“当我们看到TJ回答问题，也就是我们的首席执行官展示我们的工作成果时，我们感到十分兴奋。”创建这样的模型并非易事。MT-NLG使用数千亿个数据元素训练而成，整个过程需要数千颗GPU运行数周时间。Patwary表示：“训练大型Transformer模型既昂贵又耗时，如果前一两次没有成功，项目就可能被取消。”

万亿参数Transformer

TJ在GTC 2022上表示：“Megatron能帮助我回答黄仁勋抛给我的所有难题。”如今，许多AI工程师正在研究万亿参数Transformer及其应用。Patwary表示：“我们一直在研究这些大模型如何提供更好的应用。我们还在研究它们会在哪些方面失败，这样就能创建出更好、更大的模型。”为了提供这些模型所需的算力，NVIDIA的加速器内置了一个Transformer引擎并支持新的FP8格式，既加快了训练速度，又保持了准确性。黄仁勋在GTC 2022上表示，通过这些及其他方面的进步，“Transformer模型的训练时间可以从数周缩短到数天。”

MoE对于Transformer的意义更大

谷歌研究人员2021年介绍的Switch Transformer是首批万亿参数模型之一。该模型利用AI稀疏性、复杂的混合专家（MoE）架构等先进技术提高了语言处理性能并使预训练速度加快了最多7倍。

首个拥有多达一万亿个参数的模型Switch Transformer的编码器

微软Azure则与NVIDIA合作，在其翻译服务中使用了MoE Transformer。

解决Transformer所面临的挑战

如今，一些研究人员的目标是开发出参数更少、性能接近最大模型但却更简单的Transformer。Cohere的Gomez以DeepMind的Retro模型为例：“我看到基于检索的模型将大有可为并实现弯道超车，对此我感到非常兴奋。”基于检索的模型通过向数据库提交查询来进行学习。他表示：“这很酷，因为你可以对放到知识库中的内容进行选择。”

在追求更高性能的过程中，Transformer模型的规模也在不断扩大。Vaswani现在是一家隐形AI初创公司的联合创始人，他表示最终目标是“让这些模型像人类一样，在现实世界中使用极少的数据就能从上下文中学习。”他想象未来的模型可以在前期进行更多计算，从而减少对数据的需求，使用户能够更好地提供反馈。“我们的目标是创建能够在日常生活中帮助人们的模型。”

安全、负责任的模型

其他研究人员正在研究如何在模型放大错误或有害语言时消除偏见或毒性，例如斯坦福大学专门创建了基础模型研究中心探究这些问题。NVIDIA研究科学家Shrimai Prabhumoye是业内众多研究这一领域的人士之一。他表示：“这些都是在安全部署模型前需要解决的重要问题。”“如今，大多数模型需要的是特定的单词或短语。但在现实生活中，这些内容可能会以十分微妙的方式呈现，因此我们必须考虑整个上下文。”Gomez表示：“这也是Cohere最关心的问题。如果这些模型会伤害到人，就不会有人使用它们，所有创建最安全、最负责任的模型是最基本的要求。”

展望未来

在Vaswani的想象中，未来能够自我学习、由注意力驱动的Transformer最有可能成为AI的“杀手锏”。他表示：“我们现在有机会实现人们在创造‘通用人工智能’一词时提到的一些目标，我觉得这给我们带来了巨大的启发。”“在当前这个时代，神经网络等各种简单的方法正在赋予我们大量新的能力。”了解更多有关Transformer的信息，请访问https://developer.nvidia.com/blog/tag/transformers/