开源大模型的4个Level
开源大模型的4个Level
随着开源大模型的兴起,不同组织对“开源”的理解出现了多样性。这是因为开源大模型不仅涉及传统的代码开源和服务开源,还新涉模型的参数、权重和训练数据等。目前,对开源模型的理解大致有四个Level,开放程度依次增加:OpenAI等为代表的封闭式“开源”,Meta等代表的自定义开源,DeepSeek等为代表的传统开源,以及OSI为代表的理想开源。
开源≠免费。
开源≠没有版权。
开源≠随意商用。
开源≠完全透明。
开源是有定义的。
OSI(Open Source Initiative)是开源软件领域的权威组织,其发布的开源定义(Open Source Definition, OSD),规定了开源软件的10项核心原则,包括自由分发、源代码可用性、允许修改、非歧视性等,以确保了开源软件的开放性、透明性和可访问性,是判断一个软件是否真正开源的重要标准。
自1998年以来,因为开源的巨大成功,一些企业纷纷冠以“开源”的名义,实则不满足或部分满足了 OSD 的基本定义。比如,前几年,OSI 就认为云计算领域的 SSPL 和 Elastic License 等新许可证不符合开源定义,因为它们引入了针对特定用户群体(如云服务提供商)的限制,违背了开源的非歧视性、自由分发和技术中立等核心原则。而主张采用新许可证的云计算相关企业则认为,传统开源定义是在“软件即产品”的背景下制定的,现在已经是 “软件即服务”了,因此有必要修订多年前对开源的基本定义,以约束云服务商在使用开源代码方面的“恶意”行为。
随着开源大模型的兴起,不同组织对“开源”理解的也出现了多样性。这是因为开源大模型不仅涉及传统的代码开源和服务开源,还新涉模型的参数、权重和训练数据等。
对开源模型的理解,目前大致有四个 Level,开放程度依次增加:
OpenAI 等为代表封闭式“开源”
核心理念:
早期 OpenAI 以开源和非营利为目标,但逐渐转向封闭模式。
通过 API 提供服务,不公开模型权重和训练细节。
特点:
封闭性:模型权重和训练数据不公开,仅提供黑箱化的 API。
商业化:通过订阅服务和 API 收费实现盈利。
安全性:闭源模式有助于控制模型滥用风险。
争议:
违背了开源的核心精神,被批评为技术垄断。
Meta 等代表的自定义开源
核心理念:
开源模型(如 LLaMA),但采用自定义许可证(如 LLaMA 社区许可协议)。
强调研究和非商业用途,限制商业使用。
特点:
有限开放:公开模型权重,但限制商业使用和分发。
研究导向:主要面向学术机构和非营利组织。
访问控制:用户需申请访问权限,Meta 保留批准权。
争议:
自定义许可证限制了模型的广泛使用,不符合完全开源的定义。
DeepSeek 等为代表的传统开源
核心理念:
采用传统开源许可证(如 Apache 2.0),完全开放模型权重和代码。
强调自由使用、修改和分发,包括商业用途。
特点:
完全开放:模型权重、代码和部分训练数据公开。
商业友好:允许商业使用,无歧视性限制。
社区驱动:鼓励社区协作和创新。
优势:
符合传统开源定义,推动技术普及和创新。
OSI 为代表的理想开源
核心理念:
OSI 正在制定 OSAID 1.0(Open Source AI Definition),旨在为开源 AI 系统提供明确标准。
强调透明度、可访问性和可修改性。
特点:
模型权重公开:要求公开模型权重,允许用户自由使用。
训练数据透明:尽可能公开训练数据的来源和组成。
代码和工具开源:训练和推理代码必须开源。
无歧视性:不得限制特定用户群体或用途。
目标:
确保开源 AI 系统符合开源精神,推动技术民主化。