问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

万亿市场!开源AI大模型发展研究报告 2024

创作时间:
作者:
@小白创作中心

万亿市场!开源AI大模型发展研究报告 2024

引用
百度
1.
https://baijiahao.baidu.com/s?id=1814793642129823173

随着开源技术在各大新兴领域中逐渐占据技术高地,其在人工智能领域的应用场景也日益丰富。在2023年,Meta公司相继推出了Llama和Llama2这两款备受欢迎的开源大模型,它们为众多模型提供了坚实的基石。开源大模型不仅促进了技术的共享与交流,加速了人工智能的发展步伐,但同时也面临着数据隐私安全风险、许可协议缺乏共识、产业生态不够完善、商业模式不够清晰等问题。

开源人工智能大模型发展背景和发展现状

开源正成为推动人工智能大模型创新发展的关键引擎

在人工智能大模型领域,开源能够激发技术创新活力,推动数字时代科技创新。开源汇聚众智、促进多方协同,有效实现了优势互补,激发技术创新活力。

开源开放的创新模式相比于工业时代封闭专利的创新模式,更顺应数字时代技术迭代快、应用范围广的发展规律,解决单一主体创新成本过高问题,通过去中心化的异步协作激发各类主体的创新创造活力,以开放协作实现智慧累积,对创新效率和创新质量带来巨大提升。

Meta 在 Llama 基础上开源 Llama2并允许免费用于商业用途。Llama2 为初创企业和科研机构等主体提供了一个强大的免费选择,可以作为 OpenAI 和谷歌出售的专有模型的补充,有效激发了人工智能大模型共创浪潮。

开源人工智能大模型发展历程

大语言模型的开源推动了深度学习和人工智能的持续发展,也催生了一系列前沿探索和落地应用。2017 年,Google 发表论文“Attention is All You Need”,首次提出了Transformer 架构,该架构成为后续人工智能大模型构建的基础。

2018 年 11 月,Google 提出 SOTA NLP 预训练模型 BERT 并将其源代码开源,BERT 在 SQuAD v1.1 和 GLUE Benchmark上得到最高水平评分。

2020 年 2 月,Google 发布 T5 模型,通过 text-to-text 格式训练,可以学习通用语言表征,并通过微调适应特定任务。

2022 年 5 月,Meta AI 发布 OPT-175B 并开源了预训练模型及源代码,OPT-175B 禁止商用但允许学术单位及科研机构使用。

2022 年 6 月,BigScience 社区发布 BLOOM,具备 1760 亿个参数,支持 59 种语言,旨在为公众提供 GPT-3 的开源替代品。

2022 年 8 月,清华大学开源中英双语预训练模型 GLM-130B,使用通用语言模型算法进行预训练。

2023 年 2 月,Meta AI 开源 SOTA 基座大语言模型 LLaMA,训练数据全部来源于公开数据集,参数范围 7B-65B。

2023 年 6 月,百川智能发布开源可商用大规模预训练语言模型 Baichuan-7B,支持中英双语,上下文窗口长度 4096。

2023 年 10 月,智谱AI 开源 ChatGLM3 系列模型,包括 ChatGLM3-6B(32k)、多模态 CogVLM-17B、以及智能体 AgentLM。

2023 年 12 月,阿里云在通义千问发布会上开源 Qwen-72B、Qwen-1.8B 和Qwen-AudioQwen 3 个大模型。

随着开源人工智能大模型不断发展,由 BLOOM、LLaMA 等主流开源大模型逐渐衍生出其他开源人工智能大模型。

LLaMA

2023 年 2 月,Meta AI 开源 SOTA 基座大语言模型,同年 7 月,Meta AI 再次发布 LLaMA 2,训练数据相较于 LLaMA 1 提升了 40%,上下文长度翻倍。

同时, LLaMA 2 还允许商用,由此衍生了众多开源大模型。

2023 年 3 月,斯坦福大学微调 LLaMA-7B 推出 Alpaca-7B,Alpaca仅供学术研究使用,禁止商用。

2023 年 3 月,哈工大 - 科大讯飞联合实验室发布了基于中文LLaMA 模型和指令精调的 Alpaca 大模型 Chinese-LLaMA-Alpaca,进一步促进大模型在中文 NLP 社区的开放研究。

2023 年 3 月,LMSYS Org 发布基于 LLaMA 的开源大模型 Vicuna-13B, 它是一个用 ShareGPT 收集的用户对话训练的开源聊天机器人。

2023 年 6 月,清华大学联合面壁智能等企业推出基于 LLaMA-13B 的大模型 UltraLM-13B。

2023 年 8 月,度小满研究团队开源了基于 LLaMA2-70B 进行中文增强的一系列金融大模型 XuanYuan-70B。

BLOOM

2022 年 6 月,BigScience 社 区 发 布 BLOOM。

2023 年 5 月, 度 小 满 基 于 BLOOM-176B 开源千亿级中文金融大模型轩辕 (XuanYuan)。

2023 年 5 月,链家科技基于 BLOOM 和LLaMA 开源了中文对话大模型 BELLE。

2023 年 6 月,虎博科技基于 GPT 和 BLOOM 两个开源模型,发布自研多模态大模型 TigerBot。

大数据系统计算技术国家工程实验室团队正在研发基于 BLOOM 中文增量训练的中文基础模型 Linly-Chinese-BLOOM,包含 7B 和 175B 模型量级,可用于商业场景。

全球开源人工智能大模型发展关键问题

开源人工智能大模型开源成熟度

人工智能大模型的部署应用需要经历数据准备、模型设计、模型训练、模型优化等多个环节,落地后仍需要根据实际需求以及应用反馈进行调整与维护。

其中,模型框架、模型代码、模型参数、训练数据四个方面是衡量其开源成熟度的重要评定等级。

全球开源人工智能大模型商业模式基本形态

开源人工智能大模型的商业模式基本分为两类:

  • 类 open-core 商业软件模式

open-core 商业软件模式是指核心代码开源,但是部分功能代码是闭源,最终形成了闭源的代码软件进行售卖。在开源人工智能大模型企业中,企业开源较低参数规模的大模型,并提供较大参数规模的付费版本。企业根据自身场景和业务需求,为客户定制专属大模型,并针对部署的定制化版本提供更全面的支持、咨询、培训和托管服务。

  • 专业服务模式

专业服务模式由传统商业软件的以“产品”为卖点转向以“服务”为卖点,是开源商业公司采用的一种全新的商业模式。由于开源人工智能大模型一种技术密集型产品,需要对大模型进行持续维护、优化、迭代升级才能发挥软件的最大价值。专业服务模式下的开源商业公司针对免费的开源项目提供收费服务,如技术文档、二次开发支持、用户培训等技术服务实现盈利。

开源人工智能大模型治理

开源人工智能巨型模型重视数据私密性与安全保障。由于训练数据的非法泄露可能暴露重要信息,因此保护数据隐私成为治理的关键任务之一。在开发运用过程中,我们必须确保数据的收集、存储和处理符合所有相关法规。此外,数据的安全质量同样重要,这包括数据的精准度、全面性和代表性等方面。同时,我们也要关注数据偏差和确保数据集的均衡性,以维护数据安全质量。

为了防止模型在特定群体或情境中出现不公正偏见,我们需确保数据的高质量性。优质数据为模型提供了坚实的基石,使其在实际应用中能够发挥更大的价值。在模型管理过程中,我们应高度重视开源协议的利用以及模型所涉及的伦理道德问题。通过明确的开源协议,我们可以规范开源项目的使用、修改和分发方式,为企业和用户提供法律保障。开源许可证的推行,不仅保障了开源大模型的自由使用和共享,还促进了创新和协作,为模型作者和用户提供了法律上的保护。

当前,这些措施正在被积极推进和实施。部分开源AI大模型采取了广泛应用的许可协议,如Apache许可证,但也有一些模型选择独家的许可方式。AI大模型的持续发展与使用,除了技术层面外,还需着重考虑伦理道德问题。这包括确保模型公正、透明及可理解性,避免出现歧视性结果,并全面评估和管理模型可能带来的社会影响。同时,必须关注模型在特定领域的合规性以及是否符合道德标准的使用,从而确保技术能够发挥其正面推动作用。

我国开源人工智能大模型发展洞察

开源人工智能大模型开源程度统计

在入选本次案例集的大模型中,模型框架开源的企业占比为 100%,模型代码开源的企业占比为 100%,模型参数开源的企业占比达到 100%。在本次调研的所有开源大模型中,用户均可以实现本地部署并针对实际使用情况进行微调。另有 22% 的大模型对其训练数据进行开源,方便用户对模型进行微调和二次开发。同时,部分大模型对外公布其训练细节,方便用户研究大模型训练过程以及进行模型继续训练。

开源人工智能大模型商业落地情况

目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过30%。

在金融领域中,部分开源大模型已经应用于智能客服、智能运营、智能办公等场景,通过智能客服与用户进行多轮对话,提出具体的、可行的解决方案,同时通过开源人工智能大模型生成广告和营销内容,提升营销效率,运用开源人工智能大模型了解国内外的宏观政策、行业信息、产品信息,自动生成文章、报告,提供专业建议和方案辅助交流。

在法律领域中,应用开源大模型提供全流程智能辅助办案应用,对法律案件进行拆解、提取关键事件,构建智能审查、量刑预测、文书生成、自动编目、笔录生成等业务能力,通过智能技术辅助办案人员的常规工作,实现案件分析速度的提升。

在企业服务中,开源人工智能大模型实现智能化业务运营。通过数据分析和预测能力,洞察企业运营、识别潜在的业务风险和机会并提供智能化的解决方案,从而提高经营决策水平和业务运营效率,赋能企业构建高度自动化与智能化的企业知识库,并进行企业相关文档的摘要、总结、溯源。

在制造业领域,开源人工智能大模型已应用于产线运营效率环节,如产品设计研发、质量控制检测、供应链管理、安全生产等。开源人工智能大模型基础配套设施建设情况伴随开源人工智能大模型的发展,数据平台、大模型开发工具、大模型训练部署平台与向量数据库等基础配套设施的开源生态不断完善。

开源数据平台,使用门槛较低,相比传统数据服务,具有显著的成本优势。开源训练平台用户能够最大限度地提高人工智能部署的效率,同时大幅降低成本。

开源向量数据库,由于其开源开放特性,在性能、扩展能力和功能方面具有优势,开源向量数据库具有较快的数据查询速度和更高的压缩比率,同时具有更强大的扩展能力。

大模型开源开发工具,降低了个人用户和中小企业的开发难度,目前国内部分大模型开源开发工具用户已超万人。

大模型开源训练部署平台,能够灵活部署,从数据管理、模型开发、训练管理、模型管理全链路功能开放透明,方便用户学习。

开源人工智能人工智能大模型优势与不足

优势

在本次调研的开源人工智能大模型中,部分模型在开源模型测评榜单中位居前列,部分开源模型能力已领先 LLaMA2,在全球形成中国大模型开源生态圈。同时开源大模型语言能力出众,在逻辑推理、幻觉感知等方面有高的精度,配套生态丰富,可以支持行业模型应用。开源人工智能大模型有效降低用户使用门槛,方便用户训练、微调并使人工智能大模型。

不足

通过调研,目前国内开源人工智能大模型数量较闭源人工智能大模型仍有差距,模型在多语言能力,支持的序列长度,推理速度,显存占用等方面仍有进步空间。同时开源人工智能大模型应用创新落地能力仍有提升空间。目前国内外基于大模型的应用多停留在基础阶段,应不断提升开源大模型能力,为用户带来便捷、可靠、高效、个性化的产品。

开源人工智能大模型安全风险与合规情况

在本次调研的开源人工智能大模型中,通过强化数据安全与保障模型安全以提升模型合规能力。通过数据安全与模型安全,已初步构建开源人工智能大模型安全保障防线。

在数据安全方面,部分企业构建数据安全标注团队,标注并审核安全与合规相关的微调数据,优化预训练数据质量,使用规则加模型的方法过滤大量不良信息。同时企业建立内容安全策略,通过从应用到数据、框架、基础设施以及整个的合规体系的建设,以及关注数据投喂带来的价值偏见、隐私泄露、数据污染、训练数据固有偏见导致模型产生偏见内容等问题。

在模型安全方面,企业建立安全一系列策略,如训练基于安全和合规的奖励模型,通过RLHF 对齐大模型的价值观,约束至符合主流安全规定,采用机器审核与人工审核结合的模式对用户输入的问题以及模型生成的答案进行审核,注重算法安全,针对涉底线的相关问题搭建了分类检测模型。

开源人工智能大模型未来发展展望

模型能力提升。坚持模型规模和数据规模的提升,不断提升基础模型的智能水平, 打造结合大模型的 AI 系统,让 AI 具备听说看等基础能力,持续探索大模型具身智能,支持智能感知认知决策,实现和真实世界的交互。

加快行业应用落地。以大模型推动 AI 行业升级, 革新内容生产模式、全自然交互完成任务,优化模型逻辑,贴合真实场景需求,就多个细分领域结合专业数据训练细分领域模型,以便更好的应用于细分场景。

加强开源配套设施建设。通过加强开源数据平台、大模型开发工具、大模型训练部署平台与向量数据库等基础配套设施建设,降低人工智能大模型使用门槛,实现专家级虚拟助手,颠覆传统开发方式、成为工作加速器,持续繁荣开源人工智能大模型生态。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号