前所未有的体验！普通移动设备就能渲染全息影像啦！上海科大和赜深科技提出V³

创作时间:

作者:

@小白创作中心

前所未有的体验！普通移动设备就能渲染全息影像啦！上海科大和赜深科技提出V³

引用

CSDN

https://blog.csdn.net/AIGCer/article/details/143030131

上海科技大学和赜深科技联合提出了一种革命性的全息影像渲染技术V³，该技术通过流式传输高质量的Gaussian Splatting，实现了在普通移动设备上实时渲染全息影像。V³将动态3D高斯点序列建模为紧凑的二维高斯视频，利用硬件视频编解码器实现高效的流式传输和解码，同时提出了一种高效的训练策略，以保持时间连续性。这一突破性技术使得高质量的全息影像能够在各种设备上随时随地进行流式传输和观看，为全息影像的普及应用开辟了新的可能性。

技术亮点

创新的2D高斯视频表示：将动态3D高斯点序列建模为紧凑的二维高斯视频，自然支持硬件视频编解码器，实现高效的流式传输和解码。
高效的训练策略：采用运动-外观解耦、残差熵损失和时间损失的两阶段训练策略，保持时间连续性的同时优化存储效率。
多平台支持：开发了支持实时播放和流媒体的全息影像播放器，可在桌面、笔记本和移动设备上运行。
前所未有的用户体验：实现高质量渲染和流媒体播放，存储需求紧凑，支持平滑滚动和即时分享。

技术原理

V³表示方法

V³将多视角人类表演视频序列建模为紧凑的二维高斯视频，将动态3DGS场景的属性表示为一系列二维视频。每个高斯点在时间t处的属性包括旋转、缩放、位置、不透明度、颜色和球谐函数。通过基于着色器的渲染，实现在便携设备上的高效渲染。

V³重建过程

V³采用分组训练方案，将视频序列分割为帧组，关键帧采用静态3DGS重建并修剪点云，其他帧通过运动估计和微调获得。引入残差熵损失和时间损失，增强时间连续性，优化存储效率。

V³播放器

V³播放器支持桌面、笔记本和移动设备，采用多线程处理视频获取、解码和渲染。移动设备版本使用Metal计算着色器实现高效渲染，支持自由视角调整、时间轴拖动等交互功能。

实验结果与比较

V³在多个数据集上进行了评估，与VideoRF、3DGStream等方法相比，在渲染质量、训练时间和存储容量方面均展现出优势。特别是在流媒体实时播放场景下，V³实现了最逼真的人类渲染效果，纹理细节更为清晰。

多平台运行时分析

V³播放器在不同平台上进行了性能测试，包括配备Intel I9-10920X处理器和NVIDIA GeForce RTX 3090 GPU的Ubuntu PC，以及搭载Apple M2和A15 Bionic处理器的iPad和iPhone。测试结果显示，V³能够在各种设备上实现流畅的全息影像渲染，支持实时流式传输和高质量渲染。