问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

从Transformer到多模态:AI大模型的进化之路

创作时间:
作者:
@小白创作中心

从Transformer到多模态:AI大模型的进化之路

引用
1
来源
1.
https://www.cnblogs.com/lightsong/p/18403642

从Transformer到多模态,AI大模型正在经历一场深刻的变革。本文将带你了解这一变革的历程,从最初的Vision Transformer(ViT)到如今的多模态大语言模型(MLLMs),探索AI如何实现对图像、视频、音频等多种模态信息的理解和生成。

Vision Transformer(ViT):计算机视觉领域的突破

ViT,全称Vision Transformer,是计算机视觉领域的重要创新。它将自然语言处理中的Transformer模型引入到图像识别任务中,让图像也能像文字一样被“翻译”和理解。具体来说,ViT将输入图像划分为固定大小的图像块(patch),这些图像块被拉平并通过线性变换映射为固定长度的向量。然后,这些向量序列拼接到一个可学习的分类标记([CLS] token)后面,接着加上对应位置的可学习位置编码后,输入到Transformer Encoder中。最后,提取出[CLS] token对应的特征输入到分类器中进行学习。

多模态大语言模型(MLLMs):从单一模态到多模态融合

多模态大型语言模型(MLLMs)的发展经历了从单一模态到多模态融合的转变,以及从静态模型到动态、交互式系统的演进。Flamingo是第一个在视觉-语言领域探索上下文学习的模型。MLLMs的发展时间线从2022年4月到2024年2月,涵盖了多个重要研究和模型。

多模态大模型(MLLMs)的分类主要基于其功能性和设计原则:

  • 功能性分类

  • 理解(Understanding):这类MLLMs主要关注于理解和处理多模态输入,例如图像、视频、音频和文本。

  • 生成(Generation):这类模型不仅理解输入,还能生成特定模态的输出,如图像、视频、音频或文本。

  • 设计分类

  • 工具使用(Tool-using):这类模型将LLM视为黑盒,并提供对特定多模态专家系统的访问,通过推理来执行特定的多模态任务。

  • 端到端(End-to-end):这类模型是整体联合训练的,意味着整个模型在训练过程中是一起优化的。

  • 模态转换

  • I+T→T:图像和文本输入,文本输出。

  • V+T→T:视频和文本输入,文本输出。

  • A+T→T:音频和文本输入,文本输出。

  • 3D+T→T:3D点云和文本输入,文本输出。

  • I+V+A+T→T:图像、视频、音频和文本输入,文本输出。

  • 特定功能

  • 文档理解(ID):处理文档内容的理解任务。

  • 输出边界框(IB):在图像中识别并输出对象的边界框。

  • 输出分割掩模(IM):生成图像中对象的分割掩模。

  • 输出检索图像(IR):从数据库中检索与输入相关的图像。

MLLMs的模型架构

MM-LLMs的模型架构包括5个组成部分:

  • 模态编码器(Modality Encoder):负责对不同的模态输入IX进行编码,得到对应的特征FX。常用的编码器包括NFNet-F6、ViT、CLIP ViT、Eva-CLIP ViT等。

  • 输入投影器(Input Projector):负责将编码后的其他模态特征FX投影到文本特征空间T,得到对齐的特征PX。常用的实现方法有直接线性投影或多层感知机。

  • LLM骨干网络(LLM Backbone):利用预训练的大型语言模型作为核心,负责对齐后的特征进行语义理解、推理和决策,并输出文本输出t和来自其他模态的信号令牌SX。常用的LLM包括Flan-T5、ChatGLM、UL2、Qwen等。

  • 输出投影器(Output Projector):将LLM骨干网络中的信号令牌SX映射到特征HX,以使其可被后续的模态生成器MGX理解。通常采用Tiny Transformer或多层感知机来实现。

  • 模态生成器(Modality Generator):负责生成不同模态的输出,通常采用预训练的潜在扩散模型(LDMs),将输出投影器映射的特征HX作为条件输入,以生成多模态内容。常用的LDMs包括Stable Diffusion、Zeroscope、AudioLDM-2等。

MM-LLM的训练流程

MM-LLM的训练流程主要包括多模态预训练(MM PT)和多模态指令调优(MM IT)两个阶段:

  • 多模态预训练(MM PT):在预训练阶段,通常利用X-Text数据集来训练输入投影器和输出投影器,以实现不同模态之间的对齐。对于多模态理解模型,只需优化输入投影器的目标函数。对于多模态生成模型,则需要优化输入投影器、输出投影器和模态生成器的目标函数。

  • 多模态指令调优(MM IT):在指令调优阶段,通常利用一组以指令格式组织的数据集对预训练的MM-LLMs进行微调。这个阶段包括监督式微调(SFT)和基于人类反馈的强化学习(RLHF),旨在更好地与人类意图保持一致,并增强模型的交互能力。

Video-LLaMA:视频理解的突破

在数字时代,视频已经成为一种主要的内容形式。但是理解和解释视频内容是一项复杂的任务,不仅需要视觉和听觉信号的整合,还需要处理上下文的时间序列的能力。Video-LLaMA旨在使LLM能够理解视频中的视觉和听觉内容。论文设计了两个分支,即视觉语言分支和音频语言分支,分别将视频帧和音频信号转换为与llm文本输入兼容的查询表示。

Video-LLaMA结合了视频中的视觉和听觉内容,可以提高语言模型对视频内容的理解。他们提出了一个视频Q-former来捕捉视觉场景的时间变化,一个音频Q-former来整合视听信号。该模型在大量视频图像标题对和视觉指令调优数据集上进行训练,使视觉和音频编码器的输出与LLM的嵌入空间对齐。作者发现Video-LLaMA展示了感知和理解视频内容的能力,并根据视频中呈现的视觉和听觉信息产生有意义的反应。

影响和潜力

Video-LLaMA模型展示了一种令人印象深刻的感知和理解视频内容的能力。它基于视频中呈现的视觉和听觉信息。这种能力标志着视频理解领域的重大进步,为各个领域的应用开辟了新的可能性。例如,在娱乐行业,Video-LLaMA可用于为视障观众生成准确的语音描述。在教育领域,它可以用来创建交互式学习材料。在安全领域,它可以用来分析监控录像,识别潜在的威胁或异常情况。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号