AI大模型的能力边界
AI大模型的能力边界
AI大模型的能力边界正在逐渐清晰化。一方面,这可能意味着超级科技革命的进程会放缓,资本投入的强度会开始平坦化;另一方面,产业界的担忧会减轻,资本的关注点也会转移到实际应用中。从"砸钱造大模型"转变为"围绕大模型设计具体产品",下游产业应用的生态将逐步发展壮大。
两年前,只有一个领先的LLM,那就是OpenAI的ChatGPT模型,近期国产大模型工程优化之后展现出异常快速的追赶态势。现在大约有六个模型的能力接近这个水平,并且都在某种程度上趋于相同的能力上限,大模型的迭代貌似遇到瓶颈,通往AGI之路仍然任重道远。
AI能力边界的清晰化对于商业化呈现两面性。一方面,大模型如果在未达到AGI水平的时候就遇到发展瓶颈意味着超级科技革命的进程会放缓,资本投入的强度会开始平坦化。另一方面,如果大模型的能力边界逐渐明确,产业界的担忧会减轻,资本的关注点也会转移到实际应用中。换句话说,从“砸钱造大模型”转变为“围绕大模型设计具体产品”,下游产业应用的生态将逐步发展壮大。例如,在智能客服、教育培训或医疗咨询等领域,资本会更加愿意投入资源,推动技术落地。
AI产业发展从基础模型迭代逐步切换到应用发展驱动。不同训练时间和规模的大模型能力差距在缩小,24年7月份以来关于预训练AI模型已经耗尽世界上易获取有效数据的讨论就开始,大模型训练转向多模态数据和合成数据。Scaling Law的制约瓶颈可能从算力变为数据,模型应用侧的效果优化工程开启。模型及服务(MaaS)商业形态形成,海外以三家云厂商为核心各自形成三套闭环生态,国内互联网AI产品快速崛起,产业应用市场推广加速。
AI能力边界的理解:推理还是模仿?
语言是人类沟通的核心工具,也是信息交换中最基础且精准的方式。随着大模型技术的发展,AI对语义的理解能力已经达到了质的飞跃。实际使用ChatGPT的体验表明,模型对表面文字和上下文之间的联系处理得相当不错。问题通常只出现在对特定背景知识或复杂场景的理解不足上。在内容生成方面,通过文字对图像、视频及语音的生成进行精确控制成为一大功能亮点。与此前通过软件或程序进行图像和视频生成的方式相比,语言控制不仅大幅降低了生产成本,也降低了使用门槛。通用AI已经可以扮演人和机器沟通的翻译官,自动化执行的场景例如IT开发,工业控制和无人驾驶叠加对话机器人之后可以实现完全的自动化。
Scaling Law的制约瓶颈
Scaling Law是人工智能研究中一个重要的理论,描述了深度学习模型的性能随着模型规模、数据量和计算量的增长而改善的规律。简单来说,它揭示了通过增加模型参数数量、训练数据量和计算资源,可以持续提高模型的性能,但这种提升存在一定的边际效应。近期对Sacling Law是否失效的讨论开始变多。
大模型训练转向多模态数据和合成数据,能否通向AGI尚没有定论。Transformer架构仍然是目前的主流,业界还没有共识认为需要替换这个架构,架构的优化和发展还有很大的空间。多模态数据和合成数据是当前早期探索的方向,但最终结果仍是开放的研究问题。同时随着新数据形态的引入,模型的开发周期在变长。
Scaling Law的制约瓶颈可能从算力变为数据。AI实验室SSI和OpenAI的前首席科学家Ilya Sutskever近期表示,预训练阶段的扩展效果开始趋于平缓。预训练是指使用大量未标记数据来理解语言模式和结构的AI模型训练阶段。24年7月份以来关于预训练可用数据的讨论就开始,大语言模型消耗大量有效数据,而AI模型已经耗尽了世界上所有容易获取的数据。研究人员正在探索“推理时计算(test-time compute)”技术,这种技术在所谓的"推理"阶段(即模型使用阶段)增强现有AI模型。例如,Open AI O1模型不是立即选择单一答案,而是实时生成和评估多个可能性,最终生成机器认为概率最高的结果。
人工强化学习是否能消除大模型的幻觉?
近年来,实验室研究发现,即便通过人工干预,也很难完全消除大模型在实际应用中的不可靠性问题。尤其是在处理复杂场景时,大模型的表现常常令人费解:它们会以一种「自信却错误」的方式输出结果。这种自信掩盖了答案的真实准确性,导致了一种被称为“幻觉”的现象——模型输出的内容虽然表面看似合理,但实际上与事实大相径庭,甚至离谱至极。
例如,当大模型被要求完成一段医学报告的翻译任务时,它可能会凭借训练数据中已有的模式进行匹配,但对于一些细节上的专业术语却经常出错。通过人工干预调整,虽然可以一定程度上纠正这些错误,但这种纠偏过程需要消耗大量时间和人力,最终只能在效率和准确性之间找到一个权衡点。即使在较简单的任务中,例如回答“2+2等于几”这样的问题,也并不存在一个“既能保证错误率极低,又能减少人工干预”的完美解决方案。
基于Transformer架构的大模型,实际上更像是一个基于训练数据进行“模仿”的机器。苹果公司的一项研究进一步证明了这一点:当仅仅改变问题中的某些细节,例如将问题中的名字从“张三”改成“李四”时,模型的回答准确率可能会有高达10%的波动。试想一下,在小学数学测试中,如果一个学生仅仅因为考题中的名字变了,就导致分数下降了10%,这无疑是难以接受的。这种现象表明,大模型并不是像人类那样通过符号和逻辑进行推导,而是依赖于对训练数据模式的匹配。推理和模仿的定义是对Transfromer能否通向AGI的根源性的质疑,这更像是一个哲学层面上的讨论,但当前对于应用开发者如何设计产品产生直接影响。
苹果公司为进一步测试模型的推理能力,研究团队设计了 GSM_NoOp 实验,在原有问题中添加一个似乎相关但实际无关的子句 (hence "no-op")。结果显示,所有模型的表现都显著下降,包括性能较好的 o1 模型在内。这种现象进一步说明,模型并没有真正理解数学概念,而是通过模式匹配来得出答案。研究还发现,当前的大语言模型对问题中的专有名称(如人名、食物、物品)的变化仍然很敏感,当数字发生变化时,大语言模型就会更加敏感。例如,仅仅改变问题中的名字,就可能导致模型的准确率变化高达 10%。如果将这种情况类比到小学数学测试中,仅仅因为改变了人名而导致分数下降 10% ,是非常不可思议的。
AI应用落地的两个前提:人机交互和垂直知识库
虽然本轮创新的核心是生成式AI,但目前从AI生成内容的质量上看,生成的结果还是不如搜索的结果。首先非常依赖于预训练的数据库和搜索知识库,其次生成的内容不论是文本,图片还是视频在正确性和创新性方面都离商业化的要求相差甚远,最后,要想普通人都能用,还需要一个“不用问问题的傻瓜式”的点击界面。
人机交互方式的重新定义
基于对话框的AI应用门槛极高,阻碍了应用的推广和用户的感知。ChatGPT用户活跃度遇到瓶颈,实际使用门槛高是核心问题,大部分人在空白对话框面前很难问出有效问题,问题本身就是自身知识结构的专业性体现。专业的人通过分解问题可以有效使用大模型的能力,大模型对于普通用户来说基本上就是个玩具。基于Transform模型的AI技术重点在于数据集范围内的模仿和推理,大模型本身更多按照概率运算的方式生成人类潜在行为的预测,提示语和背景知识的描述对生成结果的影响巨大。用户对AGI底层技术质变感受不明显核心还是受制于应用场景提示语工程不够完善,无法将专业知识库赋能给机器人的原因。
多模态技术的落地将是本轮AI应用的核心。多模态技术是指完全模仿人对文字,图像和语音信息等多媒体的处理过程,不需要通过算法将不同模态之间的信息转换来完成多媒体的信息的分析。多模态技术可以辅助机器通过视觉和听觉完全模拟人本身接触周围环境的感知,并通过屏幕显示的方式增强交互体验。多模态技术在多媒体信息的处理中效率更高,在实际生产力场景中发挥更加实用的价值,比如机器人,视频生成,教育培训和医疗诊断等。
微软和苹果首次从系统层面嵌入AI模型,将重塑人机交互方式。AI大模型赋能语音、视觉等人机交互行为,而不再是独立的APP内功能,系统层面改变交互方式将为众多应用提供创新方向。未来随着端侧模型不断积累、学习用户使用数据,系统打通后台应用后,AI将化身个人助理。我们认为,系统厂商的介入标志着手机、PC甚至家居IOT真正进入AI时代。
AI商业化推进的进展
在人工智能的应用领域,B端(企业端)软件市场和C端(消费者端)市场正在展现出不同的特点。尤其在用户主动参与度较高的场景,如教育和游戏领域,AI产品的推进速度明显更快。这是因为这些场景的用户更愿意积极参与互动,而AI技术能显著提升他们的体验。
B端市场的转变:从替代到增强
B端软件市场正在经历一场从“替代”到“增强”的逻辑转变。早期的AI应用主要关注如何通过自动化技术替代人类劳动,而现在则更注重增强现有的工作流程和用户体验。尤其是在代码生成领域,AI的渗透速度最快,已经成为许多企业提高生产力的关键工具。例如:
代码生成工具:GitHub推出的Copilot,能够根据开发者输入的片段快速补全代码,甚至生成整个函数。这种工具不仅提高了开发效率,还减少了代码错误,使开发者可以将更多精力放在核心设计上。
企业知识库搜索与建议:一些企业软件公司通过云端集成企业数据,为员工提供智能化的知识库搜索。例如,当员工在内部系统中查找某个项目的历史数据时,AI可以根据关键字推荐相关文档、分析结果,甚至直接生成一份总结报告。
AI正在重塑企业应用,其主要作用体现在以下三个方面:
改善交互体验:例如,智能客服系统让员工或客户的沟通更加流畅。
自动化业务流程:如在财务系统中,AI自动完成发票审核、报销记录核对等重复性任务。
决策建议分析:AI可以为管理层提供关键数据的实时分析,辅助他们做出更明智的决策。
C端市场:教育和游戏的AI落地
相比B端,C端市场展现出更为多样化的需求特征,同时用户的使用流程往往带有较大的随机性。但在教育和游戏领域,由于知识库相对标准化,加上用户主动参与度较高,AI的应用取得了快速进展。例如:
教育领域AI学习助手在个性化教学中表现尤为突出。例如,学而思的利用AI为学生提供个性化学习计划,帮助他们在复习中针对薄弱环节提出专门的练习题。而在虚拟课堂中,AI还可以实时分析学生的学习进度和兴趣点,调整教学内容和节奏。
游戏领域在游戏设计中,AI已经被广泛用于增强玩家的互动体验。例如,开放世界游戏《麦琪的护院》通过AI技术让游戏中的NPC(非玩家角色)表现得更加智能。例如,NPC会根据玩家的行为动态调整对话内容和反应,让玩家感觉每个角色都有自己的“生命”。
AI的核心功能:效率与体验的提升
无论是B端还是C端,AI产品的核心功能都集中在两个方面:
提升服务效率:在企业环境中,这意味着更快速地完成任务,例如自动生成报告、优化生产流程;而在教育中,这意味着更高效地传递知识。
增强用户互动体验:无论是企业软件的智能化界面,还是游戏中NPC的智能对话,AI技术都让人与机器的互动变得更加自然和流畅。
AI正在加速融入教育、游戏和企业软件等用户主动参与度高的领域。从B端的软件到C端的应用,AI已经不仅仅是一个“替代工具”,更成为增强用户体验和工作效率的关键引擎。无论是代码生成、智能客服,还是个性化教育和游戏互动,这些场景都展示了AI在实际应用中的强大潜力和发展前景。