问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

搭建人工智能多模态大语言模型的通用方法

创作时间:

作者:

@小白创作中心

搭建人工智能多模态大语言模型的通用方法

引用

1

来源

1.

https://www.cnblogs.com/jellyai/p/18593100

本文详细介绍了构建多模态大语言模型的两种主流方案：统一嵌入-解码器架构和跨模态注意力架构，并说明了图像编码与投影在文本-图像融合中的关键作用。通过对基础概念、典型实现方式及现有研究进行分析，读者可初步了解多模态LLM的设计思路和技术路径。

构建多模态 LLM 的常见方法

构建多模态 LLM（大型语言模型）主要有两种方法：

方法 A：统一嵌入-解码器架构 (Unified Embedding Decoder Architecture)
方法 B：跨模态注意力架构 (Cross-modality Attention Architecture)

（顺便说一下，目前这些技术还没有官方的标准术语。简短一点的描述可能就是“纯解码器结构（decoder-only）”和“基于交叉注意力（cross-attention-based）”的两种方法。）

图示：统一嵌入-解码器架构，也就是一个未修改过的解码器风格 LLM（比如 GPT-2、Phi-3、Gemma 或者 Llama 3.2），它接收的输入是包括了图像 token 和文本 token 的嵌入。

在统一嵌入-解码器架构中，一张图像会被转成一串嵌入向量，就像在标准的文本 LLM 里文本被转成嵌入向量那样。

理解图像编码器 (Image encoders)

图像的嵌入是通过图像编码器模块（而不是分词器）来搞定的，如下图所示。

图示：把图像编码成图像 patch 的嵌入的过程。

经典的 Vision Transformer (ViT) 架构，类似 2020 年那篇 “An Image is Worth 16x16 Words” 里的模型。

图示：经典的 Vision Transformer (ViT) 架构，类似 2020 年那篇 “An Image is Worth 16x16 Words” 里的模型。

线性投影模块 (linear projection) 的作用

线性投影层把展平的图像 patch 从 256 维投影到 768 维嵌入空间。

图示：线性投影层把展平的图像 patch 从 256 维投影到 768 维嵌入空间。

图像和文本的分词对比 (Image vs text tokenization)

图像和文本的分词与嵌入过程的对比。

图示：左边是图像的分块和嵌入，右边是文本的分词和嵌入，对比放一起。

在把图像 patch token 投影到和文本 token 嵌入相同的维度后，我们就能轻松地把它们拼接在一起，送进标准的 LLM。

图示：在把图像 patch token 投影到和文本 token 嵌入相同的维度后，我们就能轻松地把它们拼接在一起，送进标准的 LLM。

方法 B：跨模态注意力架构 (Cross-Modality Attention Architecture)

在跨模态注意力架构中，我们依然使用之前讨论过的图像编码器设置。但与把图像的patch嵌入作为LLM输入不同，这里是在多头注意力层中通过跨注意力机制把图像信息接入进来。

图示：跨模态注意力架构方法的示意图。

最初的 Transformer 架构里使用的跨注意力机制。

图示：最初的 Transformer 架构里使用的跨注意力机制。（图片来自“Attention Is All You Need”论文：https://arxiv.org/abs/1706.03762，有标注）

常规自注意力机制的流程。

图示：常规自注意力机制的流程。（这里展示的是多头注意力中的一个注意力头的处理流程）

跨注意力（cross-attention）的示意图，有两个不同的输入 x1 和 x2。

图示：跨注意力（cross-attention）的示意图，有两个不同的输入 x1 和 x2

总结：本文详细介绍了构建多模态大语言模型的两种主流方案：统一嵌入-解码器架构和跨模态注意力架构，并说明了图像编码与投影在文本-图像融合中的关键作用。通过对基础概念、典型实现方式及现有研究进行分析，读者可初步了解多模态LLM的设计思路和技术路径。下一篇将重点探讨如何为这两类架构的方法实际训练多模态大语言模型，以期在实践中取得更高效、更稳定的性能表现。

热门推荐

佛山四季划分

佛山四季划分

穿越时空的爱情考验：《时间旅行者的妻子》爱情哲学解析

穿越时空的爱情考验：《时间旅行者的妻子》爱情哲学解析

四大底色看贵州白酒 | 见证2024

四大底色看贵州白酒 | 见证2024

膝蓋疼痛？中醫療法治療膝關節炎新趨勢

膝蓋疼痛？中醫療法治療膝關節炎新趨勢

电子港澳通行证刷脸：法律合规与隐私保护

电子港澳通行证刷脸：法律合规与隐私保护

八字命理学：探索生辰奥秘

八字命理学：探索生辰奥秘

中国男篮官宣26人大名单，辽宁一人广东四人，赵继伟赵睿齐麟缺席

中国男篮官宣26人大名单，辽宁一人广东四人，赵继伟赵睿齐麟缺席

古城保护复兴“姑苏模式”：一条平江路，织就传统与现代的双面绣

古城保护复兴“姑苏模式”：一条平江路，织就传统与现代的双面绣

奥尔夫教学法与音乐治疗

奥尔夫教学法与音乐治疗

新手养猫必看！鱼油到底是神药还是智商税？揭秘猫咪鱼油的真相！

新手养猫必看！鱼油到底是神药还是智商税？揭秘猫咪鱼油的真相！

纳斯达克100股指期货实时趋势展望：影响因素分析和预测

纳斯达克100股指期货实时趋势展望：影响因素分析和预测

新研究：长期单身的人分4个类型，有一种其实很幸福

新研究：长期单身的人分4个类型，有一种其实很幸福

北京地铁1号线：探索京城的多样风光与丰富文化！

北京地铁1号线：探索京城的多样风光与丰富文化！

探秘宝可梦：基拉祈的奇幻之旅与魅力解析

探秘宝可梦：基拉祈的奇幻之旅与魅力解析

DeepSeek热潮下，AI加速重构搜索新范式

DeepSeek热潮下，AI加速重构搜索新范式

工时长、压力大，医护人员的职场幸福解方是什么？

工时长、压力大，医护人员的职场幸福解方是什么？

十二生肖的文化精髓及其深远影响

十二生肖的文化精髓及其深远影响

《星际争霸：重制版》三大种族背景及战术解析

《星际争霸：重制版》三大种族背景及战术解析

从治愈到争议：基因编辑技术的力量与陷阱

从治愈到争议：基因编辑技术的力量与陷阱

新入校的学生都要做结核筛查，做结核菌素实验是怎么回事？

新入校的学生都要做结核筛查，做结核菌素实验是怎么回事？

怀孕后胃胀气是怎么回事

怀孕后胃胀气是怎么回事

中国古建筑怎么分类？

中国古建筑怎么分类？

股票分红的钱去哪里了，股价为什么降低了

股票分红的钱去哪里了，股价为什么降低了

不只有街机格斗！《天外魔境》全系列回顾

不只有街机格斗！《天外魔境》全系列回顾

哪吒VS孙悟空，两者对决谁的胜算更大？让DeepSeek来分析一下

哪吒VS孙悟空，两者对决谁的胜算更大？让DeepSeek来分析一下

恋爱中的情感界限，情侣是否需要独立又彼此依赖的空间？

恋爱中的情感界限，情侣是否需要独立又彼此依赖的空间？

九上名著《水浒传》考点解读及作品介绍

九上名著《水浒传》考点解读及作品介绍

暗恋之花（从情感到象征）

暗恋之花（从情感到象征）

全面解析NFC技术及其在支付、安防和标签中的应用

全面解析NFC技术及其在支付、安防和标签中的应用

一双职业运动员禁用的跑鞋，背后是中国跑步科技的坚持

一双职业运动员禁用的跑鞋，背后是中国跑步科技的坚持

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号