数字人全拆解：如何构建一个基于大模型的实时对话3D数字人？

创作时间:

作者:

@小白创作中心

数字人全拆解：如何构建一个基于大模型的实时对话3D数字人？

引用

CSDN

https://blog.csdn.net/2401_84204413/article/details/139749268

数字人，即数字世界的“人”，通常指借助AI技术驱动的虚拟世界人物，具备与真实人类相似甚至接近的外形、感知、交互与行为能力。随着大模型能力的涌现，一个完整的数字人系统已成为融合多种AI能力、形象设计、建模、高性能渲染引擎等多种计算机技术的综合体。本文将带你认识一个完整的交互式数字人系统的结构、原理与相关工具，并通过开源项目Fay演示基于LLM的实时对话3D数字人的构建过程。

数字人工作原理

一个完整的交互式数字人系统整体架构如下：

即使对于非专业技术人员，这个系统原理也并不难理解：

语音输入与识别：这是数字人能“听”的基础。借助自动语音识别（ASR）技术，将语音输入转化为自然语言文本。通常可以借助在线云服务或本地ASR模型实现。
AI交互处理：这是交互型数字人的“大脑”功能。借助大语言模型（LLM），理解自然语言输入并推理生成响应内容。
语音合成：这是数字人能“说”的基础。借助语音合成（TTS）AI模型，将文本转化为音频流。为了让数字人更像“人”，会涉及合成音色选择，甚至采用真人语音训练合成模型。
数字人驱动：用合成的音频流等数据驱动前端数字人，使其边“说”边“动”，包括声音、动作、表情。根据数字人类型，可能需要借助不同引擎或AI模型：
高细节3D数字人使用Unreal虚幻引擎驱动
简单2D数字人使用SadTalker等模型
基于真人视频训练的数字人使用RAD-NeRF等框架

显然，一个完整的交互式数字人系统需要有效地集成不同的模型、引擎与工具，才能最终呈现完美效果。

3D数字人建模与开发

3D高保真高解析度数字人是最复杂但应用场景最广泛的类型。其创建过程包括形象设计、建模、动画制作和行为逻辑定义。这里以Unreal Engine系列工具为例：

头部模型：使用三维建模工具创建并导出
形象建模：通过MetaHuman Creator进行数字人本体建模设计，可导入自定义头部模型或选择内置形象，调整面容、表情、姿态等细节

动画与行为逻辑设计：在Unreal引擎中导入MetaHuman数字人模型，进行动画和交互行为逻辑设计。可通过iPhone捕捉真人面部表情用于数字人

借助iPhone实现面部表情捕捉并用于数字人：

可视化设计数字人交互行为逻辑：

数字人打包运行：完成上述工作后，将整个数字人工程打包成可执行应用程序，即可看到运行中的3D数字人

下载Fay开源项目中的UE5数字人工程进行测试：

安装Unreal引擎环境：访问https://www.unrealengine.com/官网，下载EpicGames Launcher安装包并注册账号，安装Unreal引擎版本5.0.3
在Unreal商城中安装以下插件：Json Blueprint、Blueprint WebSockets、MetaHuman SDK、MetaHuman Plugin、Runtime Audio Importer
选择下载Fay开源项目中的UE5数字人工程（github搜索fay-ue5）
运行数字人：下载完成后解压，双击fay_ue5.uproject文件使用UE环境打开项目，点击运行按钮即可看到运行中的数字人

构建数字人控制器

数字人控制器作为大脑中枢，通过各种AI技术实现与真实人类的交互。其主要模块包括：

语音识别模块：通过ASR模型与接口将语音流转换为文本内容。可选择云端ASR API（如讯飞、阿里云等）或本地ASR模型（如百度PaddleSpeech等）
AI交互处理模块：核心模块，借助LLM的强大自然语言理解与生成能力。可选择云端LLM（如文心一言、OpenAI等）或本地LLM（如ChatGLM等）。企业客户可通过RAG（检索增强生成）补充私有知识
语音合成模块：将AI响应文本转化为语音。可选择云端TTS服务（如百度、阿里等）或本地TTS服务（如微软edge-tts库）。还可通过Cemotion等库实现文字情绪分析
数字人通信：通过WebSocket通道将音频/情绪等数据传递给前端数字人

使用Fay开源项目控制器代码进行测试：