问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

文本、多模态与意识:谁来决定AGI?

创作时间:
作者:
@小白创作中心

文本、多模态与意识:谁来决定AGI?

引用
澎湃
1.
https://m.thepaper.cn/newsDetail_forward_27854191?commTag=true

AGI是什么?今天再看这个问题,依然满眼混沌,无从拆解。在近期举办的2024智源大会上,多位AI领域专家围绕端侧智能、多模态模型、AGI的定义以及价格战等话题展开讨论,分享了各自的观点和见解。

1. 未来,端上智能是非常重要的

在讨论中,专家们普遍认为,尽管目前关于AGI的定义和实现路径存在诸多争议,但端侧智能的重要性已经逐渐显现。快手视觉生成与互动中心负责人万鹏飞表示,苹果在端侧模型上的努力令人印象深刻,其推出的3B模型可以在iPhone 15上运行,这表明在很多应用场景中,不需要非常大的模型,小模型通过更多数据训练也能展现出很好的性能,同时还能解决成本问题并提供更好的隐私保护功能。

智源学者、昆仑万维2050全球研究院院长颜水成则指出,原生多模态大模型在实际应用中会受到网络带宽和速度覆盖的影响,体验并不理想。因此,未来必然需要在特定场景下使用端上的智能,这将成为未来的重要趋势。此外,他还提到,小米、华为等公司也会同样重视端上智能的发展。

百川技术联合创始人谢剑则从产品定义和用户心智的角度分析了苹果的做法,认为其核心思想是"智能只为你",既强调个性化服务,又注重用户隐私保护。从技术层面来看,如果Siri这样的入口能够实现与人类更自然的交互,将是一个重要的发展方向。

2. 多模态和语言,谁是实现AGI的主轴?

在多模态和语言哪个是实现AGI的主轴这一问题上,专家们展开了深入讨论。百川技术联合创始人谢剑认为,语言是智能的中轴心,但并不意味着这是唯一路径。他将多模态模型分为生成(text to any)和理解(any to text)两个部分,并指出,虽然语言模型在提升智能学习效率方面具有优势,但多模态数据的引入可以提高智能的上限。

零一万物联合创始人黄文灏则提出了"模应一体"的概念,强调模型和应用应该同步发展。他认为,多模态数据可以在同一个压缩空间中进行表示,这有助于提升智能的上限。同时,他也指出,生成和理解两个过程的结合仍是一个开放性问题,需要在实验条件下不断探索。

3. 意识是AGI的关键吗?

关于意识是否是AGI的关键这一问题,专家们也展开了热烈讨论。颜水成引用了心理学中的全局工作空间理论(Global workspace theory),认为要想实现AGI,首先必须具备某种形式的意识。他指出,AGI一定是多模态的,需要能够访问和整合不同模态的信息。

黄文灏则从硅谷的角度提供了另一个视角,他认为当AI能够替代人类白领80%-90%的工作时,AGI就实现了。这是一个完全量化的指标,硅谷预计6年后会实现AGI,而他的公司也按照这个标准进行规划。

谢剑则认为,目前讨论AGI时很少涉及意识问题。他指出,让AI拥有自我意识和让AI完成任务是两个不同的概念,当前的AGI研究更多关注的是后者。

4. 中美的AGI故事,注定有不同版本

在讨论中美在AGI发展上的差异时,专家们普遍认为,由于市场环境和商业模式的不同,两国的AGI发展路径可能会有所不同。颜水成提到,中国市场的竞争可能会导致类似安防市场的情况,价格战可能会对整个行业产生负面影响。万鹏飞则认为,商业模式的可持续性比价格更重要,只要ROI(投资回报率)是正的,商业模式就是健康的。

谢剑分析了云厂商的价格战,指出这实际上是技术优化的结果,而不是真正的降价。他强调,对于创业公司来说,C端超级应用的突破是未来最大的商业模式机会。

黄文灏则从技术角度分析了价格战,指出MoE(混合专家模型)等新技术可以将成本降低到1%,而目前的价格战主要集中在低端模型上,意义不大。

5. "快手什么时候开源可灵,让我们白嫖?"

在圆桌讨论后的观众提问环节,多位观众就快手的AI产品、内容安全、多模态模型的开源等问题进行了提问。万鹏飞回应了关于快手AI视频生成是否会破坏短视频生态的担忧,表示AI内容的生成仍然需要遵循社区规范,不会对生态造成负面影响。

对于开源问题,万鹏飞表示暂时不考虑全面开源,但会逐步开放一些功能。同时,他也强调了内容社区治理的重要性,认为这需要不断创新和适应AI发展的新挑战。

专家们还讨论了计算卡(GPU)在AI发展中的作用。黄文灏指出,作为创业公司,虽然在绝对算力上难以与大厂竞争,但可以通过提升算法效率来弥补这一差距。他认为,相对算力的突破可能带来指数级的效果提升。

在谈到to C和to B业务方向时,专家们普遍认为,虽然去年各家公司的发展路径并不完全统一,但随着技术的进步,今年在C端应用方面已经看到了更多的机会。颜水成指出,to B业务由于其快速的POC(Proof of Concept)变现能力,可能会比to C业务更快落地。

这场圆桌讨论展现了AI领域专家们对AGI未来的不同看法和期待,同时也反映了当前AI技术发展中的诸多挑战和机遇。尽管AGI的定义和实现路径仍存在争议,但专家们普遍认为,多模态、端侧智能和语言处理等技术将在实现AGI的过程中发挥重要作用。

(封面图及文中配图来源:2024北京智源大会)

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号