资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

实时多模态 AI 的 N 种新可能丨实时互动和大模型专场@RTE2024回顾

创作时间:

作者:

@小白创作中心

实时多模态 AI 的 N 种新可能丨实时互动和大模型专场@RTE2024回顾

引用

来源

https://xueqiu.com/2668688061/314348292

在RTE2024大会上，来自产业界和学术界的多位专家深入探讨了实时互动和大模型技术的最新进展及其潜在应用。从生成式语音技术到双全工对话模式，从新一代语音大模型到多模态模型解决方案，专家们分享了各自领域的研究成果和独到见解。

俞佳：生成式语音与用户粘性的密切关系

西湖心辰联合创始人俞佳带来了一场关于生成式语音技术及其用户粘性的分享。他着重探讨了语音技术在实际应用中的价值，尤其是在AI心理咨询和AI陪伴等领域。

俞佳强调了语音技术对用户体验的深刻影响。"心理咨询的本质在于连接，"他解释说，"用户能否与AI系统或AI咨询师建立起如同与真人咨询师般的连接至关重要。"语音，乃至多模态的视觉能力，都在构建这种连接中扮演着关键角色。当用户感受到系统真正理解自己时，即使提供的建议并非完美无缺，也能带来实质性的帮助。

传统的语音处理流程通常是将语音转换为文本，处理后再转换回语音。然而，这种方法不可避免地会丢失诸如语速、语气、情绪等重要的信息。为了解决这一难题，俞佳及其团队开发了端到端的语音大模型Lingo。该模型采用三阶段训练方法，包括模态对齐、适应性训练和多模态微调。尤为值得一提的是，Lingo支持语音和文本的同时输入输出，为后续的处理和应用提供了更多可能性。

"AI心理咨询从纯文本交互切换到语音交互后，即使内容完全相同，用户的好感度和咨询后的评分也显著提升。"

乔齐：基于大语言模型的双全工对话模式探索

声网AI算法工程师乔齐分享了基于大语言模型的双全工对话方面的探索。他指出，现有的AI语音助手，以ASR、LLM、TTS三段式框架为主，在实际交互中仍存在不足。

双全工对话模式是解决这一问题的关键。"双全工"允许用户在对话过程中随时打断，并要求AI助手能够理解、响应这种打断，并在合适的时机进行回复，最终实现更自然流畅的交互体验。

他进一步解释了让大语言模型进行双全工对话的核心在于理解"说"和"听"两种对话状态，以及它们之间四种可能的转移路径：说->说（忽略干扰，继续发言），说->听（响应打断，开始聆听），听->说（回复用户），听->听（继续聆听）。

为实现双全工对话，乔齐介绍了两种方案。第一种是利用现有的闭源商业大模型，并结合提示词工程进行调优。第二种方案是微调小规模大语言模型并部署在端侧设备，以解决闭源模型成本高和数据安全问题。

"全双工对话需要两个关键能力：一是对用户的打断请求做出及时响应；二是在合适的时机主动打断用户。"

张博闻：新一代语音大模型Abab-speech-01的突破性应用

MiniMax声音团队算法工程师张博闻分享了新一代语音生成大模型Abab-speech-01的落地成果。该模型利用数百万小时涵盖多语言、方言、情绪和场景的标注音频数据进行预训练和微调，显著提升了语音合成的自然度和情感表达能力。相较于传统模型，Abab-speech-01更擅长理解文本语义和情感，能够更自然地表达如笑声等细节，并根据文本情感调整语音，使其更生动传神。此外，它只需5-6秒音频即可实现高质量音色复刻，大幅提升效率并降低成本。

在C端应用方面，MiniMax推出了AI虚拟社交产品"星野"和生产力工具"海螺AI"。"星野"利用Abab-speech-01的音色复刻能力，支持用户创建数百万种独特音色，并可通过文本描述生成音色。"海螺AI"则内置30种官方精品音色及音色复刻功能，确保安全合规的前提下，允许用户使用自身或亲人的声音进行语音合成。两款产品均集成低延时语音通话功能，端到端延时控制在400毫秒以内。

在产业应用方面，Abab-speech-01已成功应用于有声读物、数字人带货和智能硬件等领域。

"大模型能真正理解文本在讲什么，'哈哈哈'是笑，而不是'哈'字，后面的文本也会根据这段文本的内容表现出比较高兴的情感。"

焦文奎：商汤科技多模态模型解决方案与创新应用

商汤科技数字文娱解决方案负责人焦文奎介绍了商汤科技"日日新"大模型的流式多模态能力及其应用探索。依托强大的算力基础设施（12000P，年底将达20000P）和约10TB的数据（20%为高质量标注数据）,"日日新"大模型已迭代至5.5版本，重点关注大装置、大模型和应用的三位一体发展。

流式多模态模型支持音频、视频、文本输入，并以音频或文本输出，响应延迟为560毫秒。面向用户的SDK"日日新5O"已发布，未来将推出企业级版本。现场演示的拟人对话和图像描述等demo，展示了在品牌/地标识别、人像/场景理解等方面的能力，并计划将文生图能力融入多模态模型。

应用场景探索方面，包括：

品牌/地标识别：例如博物馆展品讲解
人像/场景理解：例如电商直播中的穿着打扮指导
数字人：与声网合作，探索陪聊、带货等场景，并解决弱网环境下的低延时需求，未来将实现音进音出，并逐步加入视觉模块。
AI面试官：结合慢推理模型，用于校招和社招初面。
音视频美颜美体美型。

"我们希望在大装置、大模型和应用的三位一体架构下，能够推进整体算力基础设施的发展。"

翟忠武：基于面壁小钢炮训练的对话模型实践

面壁智能算法VP翟忠武分享了他们在端侧对话模型领域的突破性进展。面对大模型高昂的推理成本，面壁智能致力于将大模型部署到手机、单片机等低功耗设备，并取得了显著成果。

翟忠武重点介绍了"面壁小钢炮"项目，这项创新尝试旨在提升模型的知识密度。团队通过一套精密的"风洞系统"进行大量实验，优化模型架构和关键参数，最终实现了一个仅有1.2B参数但性能优于7B和13B模型的小型化模型。

在实际应用中，面壁智能的端侧对话模型展现出令人惊艳的性能。该模型无需GPU支持，可在手机端流畅运行，平均每位用户可持续对话80分钟，进行300轮对话。翟忠武现场演示了模型极快的响应速度，甚至超越用户输入速度。

这一高效的端侧模型背后，凝聚了多项核心技术：

快慢系统融合：模型整合了"慢思考"（分析用户画像、记忆和聊天记录）和"快思考"（快速生成回复）两个系统，显著提升了模型的整体能力和响应效率。
多模态架构设计：模型支持文字和语音的同步输入输出，并采用流式处理和Beam Search解码，以适应多样化的交互场景。
创新的训练方法：团队采用独特的训练方法，同时训练模型的"接龙"和"对话"能力，并在后期引入高质量数据进行强化学习。
模型稀疏化技术：借鉴人脑神经元连接的稀疏性，通过稀疏化技术大幅提升模型效率，降低计算资源消耗。

"大模型会随着时间的发展智能密度会越来越高。我们总结成是'面壁定律'，简单来说大模型知识密度每8个月会提高一倍。"

圆桌讨论：实时多模态AI的N种可能

主题是"实时多模态AI的N种可能"的圆桌讨论由声网大语言模型实验室的李忻玮主持，参与讨论的嘉宾有面壁智能算法VP翟忠武、TEN Framework联合发起人Plutoless以及西湖心辰联合创始人俞佳。

会议伊始，主持人李忻玮用一个轻松的快问快答环节与Plutoless互动，确认他"暂时通过了图灵测试"，也为"实时性"这一关键词埋下伏笔。

围绕Anthropic新推出的Claude 3.5模型的"Computer Use"功能，讨论正式展开。该功能允许Claude通过API接入用户电脑，模拟鼠标键盘操作。

翟忠武认为这并非新技术，并指出其实现流畅稳定操作的关键在于端侧模型，以规避云端模型的网络延时问题。他更看好function call的应用，认为直接调用API比通过视觉识别UI更高效。

Plutoless也表示类似功能在Framework已有尝试，并指出语音控制的实现难点在于与应用API的打通，即"最后一公里"问题。他进一步介绍了Framework在实时视频方面的布局，表示已支持类似ChatGPT的截图提问功能，并计划在开源项目中包含屏幕共享功能，以实现更自然的交互。

俞佳则从产品角度对"Computer Use"功能表达了兴奋之情。他认为，尽管技术上并无突破，但该功能赋予了大模型操作图形界面的能力，拓展了AI的应用空间，如同人形机器人拥有了"手"一样意义重大。

关于端侧模型的潜力，翟忠武认为未来的交互将以语音为主，并强调端侧模型作为基础设施的重要性，能够让开发者无需重复训练大模型。他认为目前端侧模型的瓶颈在于实时性和算力。

Plutoless指出，人工智能处理信息的方式与人类截然不同。以远程会议为例，当网络连接不稳定时，人类更注重音视频的流畅度而非完整性。即使画面模糊或声音断续，我们仍然可以凭借自身的理解能力抓住会议的主旨。但如果出现严重的音频延迟，沟通就会受到阻碍。相反，人工智能并不需要像人类那样理解信息的语义。比如，将10秒的信息压缩到1秒，对人类来说是无法理解的，而人工智能却可以轻松处理。

TEN Framework的初衷正是解决这些复杂问题，让开发者专注于业务逻辑和自身优势领域。TEN Framework致力于将这些复杂能力原生集成到框架中，并通过插件提供给开发者，降低开发门槛和心智负担。

关于AI带来的道德风险，俞佳坦言，随着人与AI情感连接的加深，AI回复的风险性挑战也日益增大，西湖心辰已在产品中加入了针对用户极端情绪的预警机制。

最后，圆桌讨论转向了多模态生成范式。翟忠武认为，用统一的token ID处理不同模态数据是可行的，并指出目前的关键在于如何将图像和声音转化为token ID。Plutoless则认为，多模态交互更加自然，但也带来了延时问题。他指出目前多模态模型的精确度和可控性仍有不足，主要受限于训练数据的缺乏。俞佳也承认，多模态模型效果的不足限制了某些产品需求的实现，但他对未来发展仍然乐观。