AI虚拟数字人专题报告:2024中国虚拟数字人影响力指数报告
AI虚拟数字人专题报告:2024中国虚拟数字人影响力指数报告
随着人工智能技术的飞速发展,AIGC(Artificial Intelligence Generated Content)已成为促动数字创新的关键驱动力。AIGC技术不仅具备多模态内容自动生成的能力,涵盖了从文本、图像、音频乃至视频等多种媒介形式的创造性生产,并且正逐步与数字人概念深度融合,昭示着一个全新的虚拟数字互动时代——媒体融合面向纵深发展时代的到来。
在虚拟现实空间内,数字人将作为用户代理身份介入社交、娱乐、教育及商务等诸多领域的活动中,超越静态表征阶段,进化为具备智能交互特性和高度个性化的动态实体。这种融合性变革不仅重塑了人类与数字环境的交互模式,更在内容创造和用户体验方面开辟了前所未有的可能性。
2023年,文旅、AIGC、直播成为头部虚拟数字人IP的新叙事关键词。“数字人+文旅”是2023年开启并持续的行业趋势,天妤、苏小妹等虚拟偶像,谷小雨、央视网小C等虚拟主播,刘三姐、艾雯雯等数字员工纷纷出现在全国各地的文旅舞台,代言、直播、旅游导览,让更多用户开始接触数字人IP;AIGC技术助力数字人IP内容的生产,头部的虚拟偶像、虚拟主播等产出量明显增加,数字员工许多开始出现在机构网站、小程序、客户端上,成为可以跟用户互动的AI助手;直播也是2023年度头部数字人IP的集中动作,虚拟偶像们为品牌直播,虚拟主播与数字员工通过“直播”在新闻、现场采访、数字宣传等领域频繁出现。
数字人、数智人与 AI Agent
数字人的“智能化”是业界长期以来最重要的命题之一,AI Agent无疑成为2023年数字人行业最激动人心的发展方向。
比尔·盖茨,2023年认为AI Agent“将彻底改变计算机使用方式,并颠覆软件行业。”它将成为“下一个平台”;OpenAI创始人兼CEO Sam Altman在其首届开发者大会上预测,未来各行各业,每一个人都可以拥有一个AI Agent;智谱AI CEO张鹏表示,AI Agent是重要的新风向,其应用非常有空间和前景。可以看到,生成式AI技术的快速发展,让数字人行业的智能想象力越过“数智人”,链接到了AI Agent。
“数字人”到“数智人”,强调的是数字人从展现到交互、服务的能力提升。数智人的概念中整合了语音交互、自然语言理解、计算机视觉等AI能力,可以智能地处理和分析各种数据,可以提供更智能化的服务,进行更加自然和人性化的交互,如智能语音助手、智能客服等。
作为数字人进化方向的 AI Agent
OpenAI的定义是:以大语言模型为大脑驱动,具有自主理解感知、规划、记忆和使用工具的能力,能自动化执行完成复杂任务的系统。根据全国科学技术名词审定委员会公布的《计算机科学技术名词(第三版)》的内容,agent的官方译名为“智能体”,其定义是:在一定的环境中体现出自治性、反应性、社会性、预动性、思辨性(慎思性)、认知性等一种或多种智能特征的软件或硬件实体。AI Agent打开了数字人应用更广阔的想象空间,以身份型数字人(即真人“数字分身”)及服务型数字人为例:
身份型数字人对应着现实生活中的个体,随着大模型技术的发展,个体让“数字分身”学习自己、表达自己、代表自己成为可能。
借助AI技术,将真人个体的生活、学习、工作侧写信息“无限上传”,作为元宇宙身份载体的数字人不仅可以记录、保存、理解、记忆信息,还可以表达、行动,就形成了具备个体身份特征的AI Agent。可以说由碳基生命信息催生的“硅基生命”,不仅可以完成生物特征的复刻,也可以完成个体文化模因的传递,具备了“数字生命”的可能。
基于大模型的服务型数字人
让每个人拥有专属的、智能的数字助理成为可能,也让人机融合、人机协同进入新的范式。参考VION WILLIAMS在《AI智能体与人类的未来协作方式、合作组织与生产空间》中的观点,人与AI协同分为Embedding(嵌入)、Copilot(副驾驶)、Agent(智能体)三种模式,服务型数字人的能力半径从人类命令的执行者,到人类学习生活工作的助理,再到可独立思考、自主执行的超级“伙伴”。当服务型数字人进入AI Agent阶段,数字人行业的to C服务市场便完全打开。
3D数字虚拟人智能交互流程
由于系统的每个组成部分——语音识别、大语言模型对答、文本转语音(TTS)、口型动画生成以及三维引擎渲染——均顺序依赖于前一步骤的完成,这一线性处理流程在实时交互中引入了不可忽视的延迟感。该延迟主要源于数据在各处理环节中的逐步传递,每个环节的处理时间累积,导致用户感受到交互响应的滞后。尽管每个步骤对实现系统的综合功能至关重要,但其固有的序列依赖性限制了处理速度,进而影响了用户体验的流畅度和实时性。
3D数字虚拟人智能交互流程优化
在面对智能数字虚拟人实时对话系统中因线性处理流程导致的潜在延迟问题时,一个常见且有效的解决方案是采取文本分割及并行处理的策略。具体操作为,当系统接收并处理完大语言模型生成的完整回答文本后,将该文本切分若干独立的句子。随即,系统仅将第一句文本送入文本转语音(TTS)模块进行语音转换,并基于得到的语音快速生成相应的口型动画。此时,三维引擎便开始播放虚拟人的口型动画,与此同时,系统继续对剩余的文本句子执行语音转换和口型动画生成工作。
通过这种方式,即使后续语音和动画的生成仍在进行中,用户已经能够看到并听到虚拟人物的初始反馈,从而实现了在视觉和听觉上的即时交互体验。该并行处理策略有效减少了用户感知的延迟时间,提高了系统的交互流畅性。通过在背后持续生成语音和动画的同时,向用户展示即时的交互内容,这一方案不仅提升了用户体验,也充分利用了系统资源,优化了处理流程。