问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

多模态大语言模型（MLLM）架构详解：从入门到精通

创作时间:

作者:

@小白创作中心

多模态大语言模型（MLLM）架构详解：从入门到精通

引用

CSDN

1.

https://m.blog.csdn.net/Python_0011/article/details/139607935

多模态大语言模型（Multimodal Large Language Model，简称MLLM）是在传统大语言模型（LLM）的基础上发展起来的一种新型AI模型。它不仅具备强大的泛化和推理能力，还能够处理多种类型的信息，如文本、图像、音频等。与传统的多模态方法（如CLIP和OFA）相比，MLLM展现出了一些独特的特性，主要体现在以下几个方面：

模型规模：MLLM通常拥有数十亿的参数量，这为模型提供了巨大的潜力空间。
训练范式：为了充分发挥这些参数的潜力，MLLM采用了多模态预训练和指令微调等新的训练方法，并相应地开发了新的数据集构造方式和评测方法。

下面，让我们详细了解一下MLLM的主要架构组件：

1. 模型架构

典型的MLLM架构主要包括模态编码器、连接器和LLM。如果需要支持更多类型的输出（如图片、音频、视频），还可以额外接入生成器。下图展示了这种架构的基本结构：

模态编码器（Modality Encoder）：负责将非文本信息（如图片）转换为特征表示。
连接器（Connector）：将特征进一步处理成LLM可以理解的视觉Token格式。
LLM：作为整个系统的“大脑”，负责综合处理这些信息并生成最终的输出。

以Qwen-VL为例，其参数分布如下：LLM部分有7.7B参数（占总参数量的80.2%），视觉编码器有1.9B参数（占19.7%），而连接器只有0.08B参数。

2. 模态编码器

模态编码器的主要任务是将非文本信息（如图片）编码成特征信息。编码器的性能直接影响到LLM能够获取的信息量。例如，对于视觉编码器而言，提高输入图片的分辨率是提升性能的有效方法。这可以通过两种方式实现：

直接提升分辨率并重新训练编码器。
将大分辨率图片分割成多个子图，每个子图以低分辨率输入编码器。

3. LLM

常用的LLM包括LLaMA系列、Qwen系列和InternLM系列等。其中，LLaMA系列主要支持英文，而后两者在中英双语支持方面表现更好。实验表明，增加LLM的参数量可以显著提升模型性能。例如，LLaVA-NeXT在7B、13B和34B的不同规模LLM上进行实验，发现更大的模型在多个基准测试中表现更优，甚至在34B模型上展现出零样本的中文处理能力。此外，MoE（Mixture of Experts）架构通过稀疏计算的方式，可以在不增加实际计算量的情况下提升模型规模。

4. 连接器

连接器的主要作用是将非文本特征（如视觉特征）转换成适合LLM处理的Token格式。虽然连接器在整体架构中参数量较少，但其作用不可忽视。它需要确保特征信息能够被LLM有效利用。

5. 生成器

生成器是可选组件，主要用于将LLM的输出特征转换为非文本形式的内容，如图像或视频。这弥补了LLM在多模态生成能力上的不足。例如：

图像生成：根据文本描述生成对应的图像。
视频生成：根据文本描述生成视频内容，或从图片序列生成视频。

随着AI技术的不断发展，MLLM正在成为连接人类与数字世界的重要桥梁。对于普通人来说，持续学习和实践是把握这一技术趋势的关键。通过不断积累知识和经验，我们可以更好地理解并应用这些前沿技术，为人工智能的健康发展贡献力量。

热门推荐

越鞠丸的十大禁忌

越鞠丸的十大禁忌

铁锅粘锅了怎么办？教你轻松二次开锅

铁锅粘锅了怎么办？教你轻松二次开锅

选择适合减肥的酸奶（健康减肥的秘密武器）

选择适合减肥的酸奶（健康减肥的秘密武器）

国企上班时间一般是多久？——详解国企工作时间与相关管理政策

国企上班时间一般是多久？——详解国企工作时间与相关管理政策

揭秘10个高SEO价值标题：数字、关键词与吸引力的完美结合

揭秘10个高SEO价值标题：数字、关键词与吸引力的完美结合

网站SEO优化中标题标签的使用方法与影响 - 提升排名的关键策略

网站SEO优化中标题标签的使用方法与影响 - 提升排名的关键策略

买车应该选什么颜色？交警教你一句“口诀”，照着买不会吃亏

买车应该选什么颜色？交警教你一句“口诀”，照着买不会吃亏

买车最好不买白色？原因你知道吗？

买车最好不买白色？原因你知道吗？

英国日期英文怎么写

英国日期英文怎么写

工伤未认定企业如何补偿？一文详解工伤赔偿问题

工伤未认定企业如何补偿？一文详解工伤赔偿问题

买饮料前，请注意这一套标识

买饮料前，请注意这一套标识

安徽东至：延伸农业产业链拓宽增收致富路

安徽东至：延伸农业产业链拓宽增收致富路

解决荣耀手环与华为手机连接问题的全面指南

解决荣耀手环与华为手机连接问题的全面指南

新的UEFI安全启动漏洞可能允许攻击者加载恶意Bootkit

新的UEFI安全启动漏洞可能允许攻击者加载恶意Bootkit

自然人独资有限责任公司需要监事吗？

自然人独资有限责任公司需要监事吗？

藿香正气水不防暑？夏日养生别掉坑！

藿香正气水不防暑？夏日养生别掉坑！

互联网+剪纸：传统艺术与现代科技的完美结合

互联网+剪纸：传统艺术与现代科技的完美结合

建筑工程的各级验收：如何组织？如何验收？

建筑工程的各级验收：如何组织？如何验收？

李耳：道家思想的开创者

李耳：道家思想的开创者

老子的名字“李耳”竟然是个谐音梗

老子的名字“李耳”竟然是个谐音梗

日语配音李云龙：从语言特点到文化融合的深度探讨

日语配音李云龙：从语言特点到文化融合的深度探讨

碧溪苑社区开展环境卫生整治志愿服务活动

碧溪苑社区开展环境卫生整治志愿服务活动

元宵节为什么要舞龙灯

元宵节为什么要舞龙灯

骨髓抑制的分级及护理

骨髓抑制的分级及护理

当归红枣红糖煮鸡蛋经期可以吃吗

当归红枣红糖煮鸡蛋经期可以吃吗

如何与父母建立更深层次的沟通：改变看家长的方式，找到真正的沟通方法

如何与父母建立更深层次的沟通：改变看家长的方式，找到真正的沟通方法

寒湿形成的原因

寒湿形成的原因

混合动力汽车技术详解：三种分类方式全解析

混合动力汽车技术详解：三种分类方式全解析

当BIOS失效时，如何定位并修复主板问题？

当BIOS失效时，如何定位并修复主板问题？

你是什么样的人，由他人对你的回应决定

你是什么样的人，由他人对你的回应决定

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号