问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

2024多模态AI大模型行业深度梳理

创作时间:
作者:
@小白创作中心

2024多模态AI大模型行业深度梳理

引用
搜狐
1.
https://www.sohu.com/a/761401865_121709768

多模态AI大模型正引领新一轮产业革命。继文生图能力快速嵌入各个大模型之后,文生视频成为大模型多模态应用的下一重要方向。近期多家厂商相继发布相关产品或更新,大幅提升文生视频效果,实现更高清晰度、更高流畅度、视频任意修改等功能。可以说,多模态是实现通用人工智能的必经之路,必将成为大模型发展的前沿方向。

多模态大模型框架概览

  • 数据:文本、视觉、声音、触觉、气味等。
  • 算法:通过多模态统一建模,增强模型的跨模态语义对齐能力,打通各模态之间的关系,执行标准化的任务。
  • 应用:办公、电商、娱乐、教育等领域。

数据:高质量多模态数据有限,合成数据发展或能改善

数据存量有限:根据Epochai,在当前大模型高速发展趋势下,高质量语言数据可能在2026年之前耗尽,而低质量语言/视觉数据存量也可能将在20302050/20302060年耗尽。高质量多模态数据集有限:由于不同类型的标注成本差异大,视觉等模态数据的收集成本比文本数据高,导致多模态数据集,尤其是高质量数据集通常比文本数据集少得多。

AI合成数据或有望改善数据枯竭问题。与实际数据具有相同的预测特性;合成数据获取速度更快,为垂直模型的训练更快定制数据集;适应多模态模型的数据模态组合,能够扩大所有数据模态存量的组合,有效增加数据存量。

算力:需求更大,催化产业新机遇

多模态大模型对算力的需求高于单模态。一般在同样信息量情况下,文字数据量<图片数据量<视频数据量,多模态大模型需处理的数据量更大,再加上训练工程上难点更多,对应算力需求更高。参考前深度学习时代向深度学习时代过渡,以及从“大炼模型”进入“炼大模型”切换之后,算力需求均有明显提升。根据机器之心,谷歌Gemini有万亿参数,训练动用的算力是GPT-4的五倍。未来随着算力需求的进一步提升,芯片制造、提供云服务以及模型微调的企业有望迎来更多发展机会。

多模态AI综述

AI模型:必将从单模态走向多模态,实现复杂场景下的智能决策

多模态或成为AI大模型主流

多模态模型是指将不同类型的数据(例如图像、文字、视频、语音等)结合起来进行分析处理的模型。其通过不同数据类型的相互关联和结合,可以大幅提高模型的准确性和鲁棒性,应用场景进一步拓展。其次,多模态更接近人类学习的模式,在物理世界中,人类认知一个事物并不是通过单一模态,例如认知一只宠物,可以从视觉(宠物形貌)、听觉(宠物叫声)、嗅觉(宠物体味)、触觉(宠物毛发、宠物体温等)等多模态全面立体认知,是未来人工智能的发展方向。

多模态向通用人工智能(AGI)迈前一步。多模态大模型同时处理文本、图片、音频以及视频等多类信息,与现实世界融合度高,有望成为人类智能助手,推动AI迈向AGI:多模态更符合人类接收、处理和表达信息的方式。人类能够感知多元信息,每一类信息均为一种模态,这些信息往往是相互关联的。多模态信息使得大模型更为智能。多模态与用户交互方式更便捷,得益于多模态输入的支持,用户可以以更灵活的方式与智能助手进行交互和交流。多模态提升任务解决能力。

目前,多模态大模型已成为大模型发展前沿方向。2022年及之前,大模型处于单模态预训练大模型阶段,主要探索文本模式的输入输出。2017年,Transformer模型提出,奠定了当前大模型的主流算法结构;2018年,基于Transformer架构训练的BERT模型问世,参数规模首次突破3亿;随后GPT系列模型推出,2022年底至今ChatGPT引爆全球大模型创新热潮。步入2023年,大模型发展从文本、图像等单模态任务逐渐发展为支持多模态的多任务,更为符合人类感知世界的方式。大模型公司的比拼重点转移为多模态信息整合和数据挖掘,精细化捕捉不同模态信息的关联。例如,2023年9月,OpenAI推出最新多模态大模型GPT-4V,增强了视觉提示功能,在处理任意交错的多模态方面表现突出。

多模态是实现通用人工智能的必经之路

按照处理的数据类型数量划分,AI模型可以划分为两类:单模态:只处理1种类型数据,如文本等;多模态:处理2种及以上数据,可类比人脑同时对文本、声音、图像等不同类型信息进行处理。

多模态是实现通用人工智能的必经之路。相比单模态,多模态大模型在输入输出端的优势明显:

  • 输入端:提升模型能力:高质量语言数据存量有限,且不同模态包含的信息具有互补性,多元的训练数据类型有助于提升通用大模型能力;提高用户体验:推理侧更低的使用门槛和更少的信息损耗。
  • 输出端:更实用。可直接生成综合结果,省去多个模型的使用和后期整合;更符合真实世界生产生活需要,从而实现更大商业价值。

多模态AI以融合为核心,基于5大技术环节实现复杂问题解决

多模态模型厚积薄发,性能实现飞跃

多模态模型历经多个发展阶段,模型复杂度和性能持续提升。多模态模型的发展经历了五个关键阶段,分别是行为、计算、交互、深度学习和大模型时代。这一发展历程始于最初对行为理论和科学研究的探索,如今正逐步转向多模态技术在产业领域的实际应用。在这一过程中,半导体技术和计算机科学的迅猛发展扮演了重要的推动角色。多模态模型逐渐从简单模拟人类行为模式转变为复杂的计算模型,随着深度学习技术的兴起,这些模型获得了更深层次的理解和学习能力,使得其在图像、语音、视频等多种形式数据处理上取得了突破性进展。

大模型开启新时代,多模态技术发展迅速。2020年大模型时代到来,多模态技术的发展得到进一步推进。大模型时代的核心在于构建能够处理海量数据的大规模模型,从而使得多模态模型在处理复杂任务时展现出了更高的性能和智能。最近,OpenAI发布的GPT-4V已经具备了强大的图片理解、逻辑推理以及情感感知能力,预计将在各产业得到广泛应用。

多模态研究方向

多模态模型五大方向——视觉理解、视觉生成、统一视觉、LLM支持、多模态Agent。近期,微软多位研究员联合撰写文章,对多模态模型进行了全面的研究和分类,并关注了模型从专业性向通用性转变的特点。在模型分类中,研究员们将模型研究方向分为两大类五个主题:目前已成熟、完善的研究主题,包括视觉理解、视觉生成;具备探索性、开放性的前沿研究领域,包括统一视觉模型、受LLM(大语言模型)支持的多模态大模型以及多模态agent。

方向一:视觉理解

在AI领域,视觉理解是指使计算机系统能够解释和理解视觉信息的能力。视觉理解的核心问题是通过预训练使得神经网络的主干架构backbone获得强大的图像理解能力。模型训练方法可根据监督信号的不同分为三类:标签监督、语言监督和纯视觉自监督。其中,纯视觉自监督的监督信号来源为图像本身,相关方法有对比学习、非对比学习和掩码图像建模。在这些方法之外,常用的预训练方法还有多模态融合、区域级和像素级图像理解等。

方向二:视觉生成

这是AI图像生成与理解的核心,不仅包括图像生成,还包括视频、3D点云图等多种内容的生成。视觉生成不仅可以应用于艺术、设计等内容创作领域,它还在合成训练数据方面发挥着巨大作用,从而促进多模态内容理解与生成的闭环发展。视觉生成的重点在于如何生成与人类意图一致的图像,常见的四类相关研究方向为:有空间可控生成、基于文本再编辑、遵循文本提示生成和生成概念定制(concept customization)。当前研究趋势和未来短期研究方向是创建通用的文生图模型,以更好地满足人类意图,并提升上述方向的可替代性。

方向三:统一视觉模型

构建统一视觉模型具有多重挑战。在计算机视觉领域,各任务的差异很大,这为建立统一的视觉模型带来了巨大挑战:输入类型不同,输入内容可包括静态图形、动态视频、纯视觉输入、模糊图像等;不同的任务需要不同的粒度,如图像级任务、区域级任务、像素级任务等,因此输出的空间信息和语义信息也要求不同的格式;在建模之外,数据也有挑战,比如不同类型的标签注释成本差异很大,收集成本比文本数据高,这导致视觉数据的规模通常比文本语料库小得多。

未来统一视觉模型是非常有价值的研究方向。CV领域对于开发通用、统一的视觉系统具有很高的兴趣,实现这一目标的关键研究方向包括:从闭集模型到开集模型,可以更好地将文本和视觉匹配;从特定任务到通用能力,减少新模型/垂直细分模型的开发成本;从静态模型到可提示模型。未来通用视觉模型应具备强大的上下文学习能力,因此LLM可以接受不同语言和上下文提示作为输入,并生成用户所需的输出,无需微调。

方向四:LLM支持的多模态大模型

该领域的代表作为OpenAI的多模态模型GPT-4V,模型具备较强大的能力:

  • 模型具有强大的通用性能力,能够处理不同输入模态的任意组合,包括图像、子图像、文本、场景文本和视觉指针。
  • 经过详细测试,研究人员发现GPT-4V支持LLM中的test-time技术,如指令跟随、思维链、上下文少样本学习等。
  • GPT-4V在多个实验领域表现接近人类水平的能力,包括开放世界视觉理解、视觉描述、多模态知识、常识、场景文本理解、文档推理、编码、时间推理、抽象推理、情感理解等。
  • LLM支持的多模态模型仍有部分领域需要改进和迭代,包括更多超越视觉和语言的模态(Multitask Instruct with Established Academic Datasets/Tasks)、多模态的上下文学习(MultimodalIn-ContextLearning、参数高效训练(Parameter-Efficient Training)以及Benchmark等内容。

方向五:多模态Agent

多模态Agent是将不同的多模态专家模型同LLM联系起来,进而解决复杂多模态理解问题的办法,也是目前最前沿的多模态研究方向。大语言模型(LLM)具有对各领域用户提示的通用性特点,以及利用少量提示快速适应新场景的学习能力。受到这种强大能力的启发,研究人员正在探索一种新的模型范式,该范式不再是针对解决有限预定义问题的独立模型,而是通过将多个工具或专家与LLM协同来解决复杂的开放性问题。与方向四不同,这样的系统可以在没有任何训练的情况下构建,只需使用少量提示训练LLM,使其对现有工具进行调用。整体而言,多模态agent在多模态理解方面能力较强,并可轻松扩展到潜在的数百万种工具中。

市场应用

AI+办公:以微软领衔的科技巨头纷纷布局

自ChatGPT掀起大模型浪潮以来,微软、谷歌、亚马逊、Meta等海外科技巨头在AI领域纷纷发力,大部分巨头从硬件基础设施到应用端进行了全产业链布局,并在不同的环节各有侧重。其中微软发布的Microsoft 365 Copilot以及Azure AI云服务产品更是进行了多轮迭代,在AI+办公垂直领域表现惊艳。当下AI+办公软件主要有两类,一类是如Microsoft 365 Copilot的工具套件,另一类是细分不同用途的单工具应用。

市场机遇

模型数据量显著增加,训练算力需求激增445倍

多模态大模型训练阶段在数据源、模型结构、计算操作方面更加复杂。多模态大模型需要处理多种来源的数据,如文本、图像和声音,其输入数据的复杂性增加。此外,多模态模型的结构自然更复杂,因为其经常包含为不同数据源优化的多个子模块,如处理文本的RNN部分和处理图像的CNN部分。为了在模型中有效地结合多种模态的信息,交互和融合层的引入可能涉及复杂的计算操作,如注意力机制,会进一步增加计算负担。多模态模型往往需要更大量的训练数据,进一步增加算力消耗。

随着模型复杂度的提升,算力需求在不断攀升。研究显示,2010年之前,训练算力的增长率符合摩尔定律,大约每20个月翻一番。随着深度学习和大模型的训练需求增加,训练算力的增长率大幅度提升,对训练算力的要求提高了10到100倍。OpenAI认为自2012年以来,大规模AI训练所需的算力呈指数级增长,每3.4个月翻一番。2012-2018期间已增长超过300,000倍。当前多模态大模型仍在不断迭代,训练阶段的算力将保持增长。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号