问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

ACL 2024｜多模态大语言模型最新综述及学习指南

创作时间:

作者:

@小白创作中心

ACL 2024｜多模态大语言模型最新综述及学习指南

引用

CSDN

1.

https://m.blog.csdn.net/m0_59235245/article/details/142499284

多模态大语言模型（MM-LLMs）在过去一年中取得了显著进展，通过低成本的训练策略，将现成的大语言模型（LLMs）扩展为支持多模态输入或输出的模型。本文提供了对MM-LLMs的全面综述，涵盖了模型架构的设计、训练流程，以及最新的研究进展和未来的发展方向。研究表明，MM-LLMs不仅保留了LLMs的推理和决策能力，还能够在多种多模态任务中表现出色。

多模态大语言模型面临的挑战

MM-LLMs主要面临以下挑战：

模态间的对齐问题：如何有效地连接LLMs与其他模态的模型，实现多模态协同推理。
高计算成本：随着模型和数据集规模的扩大，传统多模态模型的训练成本显著增加。
多模态理解和生成：如何增强模型的多模态理解和生成能力，特别是在模态转换和人类意图对齐方面。

多模态大语言模型发展现状

如图1所示，自2022年以来，MM-LLMs迅速发展，出现了多种支持不同模态组合的模型，如图像-文本、视频-文本和音频-文本等。GPT-4和Gemini等模型的推出进一步推动了该领域的发展。

根据功能和设计，MM-LLMs可以分为多模态理解模型和多模态生成模型。前者侧重于对多模态输入的理解和推理，后者则扩展了支持特定模态输出的能力。此外，还可以根据模型是否通过工具使用或是否为端到端训练进行分类。

MM-LLM 的通用模型架构以及每个组件的实现选择如图2所示。

代表性模型：包括Flamingo、BLIP-2、LLaVA、MiniGPT-4、InstructBLIP等，这些模型在不同的多模态任务中展现了卓越的性能。

表1中给出了43个主流多模态大语言模型的总结。

多模态大语言模型的未来研究方向

扩展模态：未来MM-LLMs将扩展至更多模态，如网页、热图和图表，以提升模型的通用性和适应性。
提升生成能力：加强MM-LLMs的生成能力，探索基于检索的方法以补充生成过程，提升模型的整体性能。
轻量化部署：开发适合资源受限平台的轻量级模型，实现高效计算和推理。
持续学习：在不频繁重新训练的情况下，通过持续学习使模型灵活应对新数据和新任务。
解决幻觉问题：研究如何减少模型生成的错误描述，增强输出的准确性和可信度。
偏见与伦理考虑：确保模型应用的安全性和有效性，开发新基准评估模型的偏见，并设计更精细的对齐方法以减少偏见输出。

大模型AI学习计划

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

热门推荐

课堂互动教学设计增强师生之间的互动与交流

课堂互动教学设计增强师生之间的互动与交流

创口贴和创可贴是两种东西，真不是口音问题！用不对还会加重伤口感染风险→

创口贴和创可贴是两种东西，真不是口音问题！用不对还会加重伤口感染风险→

秸秆处理成燃料的方法

秸秆处理成燃料的方法

公司内国际贸易的策略与成功案例分析

公司内国际贸易的策略与成功案例分析

到2035年，中国人均谷物原粮食用消费量将降到152公斤

到2035年，中国人均谷物原粮食用消费量将降到152公斤

清明临近绿色低碳祭扫成了新选择

清明临近绿色低碳祭扫成了新选择

《易经》里的三种改命方法，越早知道越好

《易经》里的三种改命方法，越早知道越好

比特币瞄准10.5万美元，流动性提升，加密监管风向转变

比特币瞄准10.5万美元，流动性提升，加密监管风向转变

高效处理事务的系统化方法：目标明确、分类安排与灵活应对

高效处理事务的系统化方法：目标明确、分类安排与灵活应对

法人证年度报告的法律要求与合规策略

法人证年度报告的法律要求与合规策略

IP地址的分类：从IPv4到IPv6的技术演进

IP地址的分类：从IPv4到IPv6的技术演进

CDN如何实现静态加载？原理、优势与实践指南

CDN如何实现静态加载？原理、优势与实践指南

如何根据关键词生成引人入胜的标题

如何根据关键词生成引人入胜的标题

律师服务费的合理性与市场行情分析

律师服务费的合理性与市场行情分析

违章停车后如何进行有效申诉？申诉流程有哪些关键步骤？

违章停车后如何进行有效申诉？申诉流程有哪些关键步骤？

750ti驱动如何安装与更新？

750ti驱动如何安装与更新？

腾讯如水，阿里似火

腾讯如水，阿里似火

芝麻油生产线：从原料到成品的完整工艺流程

芝麻油生产线：从原料到成品的完整工艺流程

这几种有效方法预防头痛

这几种有效方法预防头痛

阿拉伯胶（阿拉伯树胶）为碳酸饮料重要组成部分我国需求依赖进口

阿拉伯胶（阿拉伯树胶）为碳酸饮料重要组成部分我国需求依赖进口

CAD软件在机械制图教学中的优势及应用指南

CAD软件在机械制图教学中的优势及应用指南

工程制图基础知识

工程制图基础知识

天坛医院术前就医流程详解，教你避开误区！

天坛医院术前就医流程详解，教你避开误区！

假熟人，真诈骗！转账务必要核实！

假熟人，真诈骗！转账务必要核实！

立案案件查询系统的法律实践与创新应用

立案案件查询系统的法律实践与创新应用

十二项便民利民措施让医保服务更便捷更高效

十二项便民利民措施让医保服务更便捷更高效

项目经理如何摆平质监站

项目经理如何摆平质监站

2025高考复习：小说人物的魅力密码：圆形人物与扁平人物

2025高考复习：小说人物的魅力密码：圆形人物与扁平人物

把扬州评话讲给世界听易德波获颁“红狮终身成就奖”

把扬州评话讲给世界听易德波获颁“红狮终身成就奖”

肺结节的检查方法有哪些

肺结节的检查方法有哪些

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号