问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

数字电影沉浸式音频渲染技术和评价方法研究

创作时间:
作者:
@小白创作中心

数字电影沉浸式音频渲染技术和评价方法研究

引用
网易
1.
https://www.163.com/dy/article/JH1BUSIK0517D0O2.html

数字电影沉浸式音频技术是近年来电影技术领域的重要创新,它通过"对象+元数据"的架构,实现了声音元素在三维空间的精准定位和移动,为观众提供了身临其境的听觉体验。本文对数字电影沉浸式音频技术进行了概述,针对数字电影沉浸式音频技术特点,提出一种国产数字电影沉浸式音频技术架构,并针对沉浸式音频渲染技术的特点,制定了一种数字电影沉浸式音频渲染技术主观评价方法,以期能给沉浸式音频处理系统生产和研发企业提供一种有效的评价手段,为观众提供较为一致的沉浸声观影体验,从而推动行业技术创新。

沉浸式音频处理技术

基于声道的沉浸式音频处理技术

基于声道的沉浸式音频技术是在传统7.1环绕声基础上增加顶部声道,以此补充空间中的声音信息。沉浸式音频效果在混录端会渲染成基于通道的文件格式,在还原端则无需特殊的解码和渲染设备,但由于还音系统扬声器布局需与混录环节扬声器布局保持一致,造成互操作性差和多版本发行的压力。该项技术的实现流程如图1所示。


图1 基于声道的沉浸式音频制作和还音流程

基于对象的沉浸式音频处理技术

基于对象的沉浸式音频的核心组成部分为元数据(Metadata),主要通过三维坐标系来描述物体在空间内的特征。对象音频的渲染通过获取影厅的三维空间坐标信息并驱动扬声器系统,为观众营造出与坐标信息一致的虚拟声场位置。基于对象的沉浸式音频采用"元数据+对象"架构,从而实现对象声音在任意空间内的定位和还原,其元数据位置信息采用笛卡尔坐标系,主流渲染算法是幅度矢量合成(VBAP),扬声器布局较为灵活,互操作性强。由于该项技术会产生大量数据和计算量,除声道音频外,还有声源元数据,如声源位置、大小、速度、形状等属性,因此需要搭配特殊渲染工具,且对渲染算法的精度和音频处理器的处理性能都有较高要求。该技术的实现流程如图2所示。


图2 基于对象的沉浸式音频制作和还音流程

基于场景的沉浸式音频处理技术

基于场景的沉浸式音频是将所有内容渲染到同一全景声虚拟球体上,可被映射至任意的扬声器布局中。其技术特点是声源贴在提前渲染好的全景声虚拟球体上,元数据空间位置格式采用极坐标形式,运用高阶立体音频(Higher Order Ambisonic, HOA)〔以下简称"高阶(HOA)"〕渲染算法,扬声器布局灵活,设备互操作性强,可将基于声道和基于对象的内容转化为高阶(HOA)内容。和基于对象的沉浸式音频技术一样,该项技术会产生大量数据和计算量,除声道音频外,还有声源元数据,造成对渲染算法的精度和音频处理器的处理性能都有较高要求。该技术的实现流程如图3所示。


图3 基于场景的沉浸式音频制作和还音流程

下一代数字电影沉浸式音频处理技术

将一部完整的沉浸声影片呈现给观众至少需经过制作、发行和放映三个环节。首先将所提供的声音素材混录制作成沉浸式音频素材;之后将其编码为符合相关码流规范的沉浸式音频母版文件,依据SMPTE ST 429-18:2019《数字电影打包-沉浸式音频轨道文件》进行封装,形成沉浸式音频发行版;最后使用沉浸式音频播放服务器播放沉浸式音频文件,沉浸式音频处理器接收来自沉浸式音频播放服务器传输的码流信息进行解码,将沉浸式音频文件渲染到相应通道,经过均衡和延时调节,通过扬声器系统将沉浸式音频还原到影厅。

因此沉浸式音频技术应具备制作端操作便捷、沉浸式音频版本相对统一、还音端兼容性强、扬声器布局较为灵活、系统间互操作性强等技术特点。基于对象、元数据和声床的沉浸式音频技术可提供便捷高效的制作方式,幅度矢量合成(VBAP)、高阶(HOA)渲染还音方式不再受限于扬声器系统的布局,为数字电影沉浸式音频技术的发展提供了有力技术支持。随着音频处理芯片性能的提升,基于对象、元数据和声床等制作便捷高效且还音布局灵活的音频处理技术,将是未来我国数字电影沉浸式音频技术发展的主要方向。该项技术的实现流程如图4所示。


图4 下一代数字电影沉浸式音频制作和还音流程

下一代数字电影沉浸式音频处理技术架构

数字电影沉浸式音频由元数据、声床和对象音频组成。其中,元数据为对象音频提供空间还原的位置、增益等信息,通过渲染工具进行沉浸式音频的空间还原;声床是声音的基础通道,伴随整个制作过程,不需要元数据的支持;对象音频是根据元数据特性进行还音的音频数据。

数字电影沉浸式音频对象元数据

数字电影沉浸式音频对象元数据用于规定声音对象在三维空间中的响度、位置、大小、距离、运动等信息。数字电影沉浸式音频对象元数据使用笛卡尔坐标系表示音频对象的位置,该坐标系使用三个正交轴(x, y, z)来定位空间中相对于原点的一个点。其中,x轴代表影厅横向/左右位置,y轴代表影厅纵向/前后位置,z轴代表影厅高度/上下位置,如图5所示。


图5 笛卡尔坐标系

采用高阶(HOA)渲染算法时,因其采用极坐标系形式(图6),在进行数字电影沉浸式音频内容渲染时,需要将极坐标系转化为笛卡尔坐标系,转化公式如式(1)—(3)所示:


图6 极坐标系

元数据空间位置映射

数字电影音频对象位置相对于影厅参考点的笛卡尔坐标值需进行归一化处理,(x, y, z)坐标值范围为(0,0,0)至(1,1,1)。相对于影厅回放环境位置,原点位置对应影厅的左前角,x=0对应影厅左墙位置,x=1对应影厅右墙位置,y=0对应影厅前墙位置,y=1对应影厅后墙位置,z=0对应主声道和环绕声道扬声器系统声中心所在位置,z=1对应影厅天花板位置。音频对象位置映射到影厅回放环境的位置关系实例:(0,0,0)代表影厅的左前角,高度为左声道扬声器系统声中心位置;(1,0,0)代表影厅的右前角,高度为右声道扬声器系统中心位置;(0.5,0.5,1)代表影厅天花板中心位置。

数字电影沉浸式音频文件在Audio Vivid系统中进行还音时,需要将Audio Vivid对象位置元数据转换为影院对象元数据,转换公式如式(4)—(6)所示:

其中,xvivid代表Audio Vivid坐标系下的对象x坐标,xth代表影院音频对象的x坐标,yvivid代表Audio Vivid坐标系下的对象y坐标,yth代表影院音频对象的y坐标,zvivid代表Audio Vivid坐标系下的对象z坐标,zth 代表影院音频对象的z坐标。

数字电影沉浸式音频声床

数字电影沉浸式音频声床是数字电影沉浸式音频的基础单元,是伴随数字电影整个还音过程的声场组。数字电影沉浸式音频声床组一般分7.1DS和9.1OH基础声床,其中7.1DS基础声床顺序为L、R、C、LFE、Lss、Rss、Lrs、Rrs,9.1OH基础声床顺序为L、R、C、LFE、Lss、Rss、Lrs、Rrs、Lts、Rts。

数字电影沉浸式音频对象

数字电影沉浸式音频对象是用元数据来指导声音对象发声响度、位置、大小、距离、运动等属性的音频轨道,其分为静态对象和动态对象,其中静态对象指数字电影对象声音场景中元数据空间位置信息不随时间变化而变化的声音元素;动态对象指数字电影对象声音场景中元数据空间位置信息随时间变化而变化的声音元素。

数字电影沉浸式音频还音

数字电影沉浸式音频还音首先对沉浸式音频文件进行解码,生成元数据、声床和对象音频文件,沉浸式音频渲染系统接收到相关信息后,首先根据声床的通道信息将其映射到相应还音通道以实现声床音频文件的还音,之后根据元数据空间位置等信息将对象音频渲染到对应影厅的空间区域中,实现对象音频在影厅内的精准发声。数字电影沉浸式音频声场控制渲染算法是沉浸式音频还音的核心技术,其决定沉浸式音频对象空间还原效果的好坏,直接影响观众的观影体验。

目前主流的沉浸式音频声场控制渲染算法有幅度矢量合成(VBAP)和高阶(HOA)渲染算法。幅度矢量合成(VBAP)是基于三维空间中的正弦法则,其利用空间中3个相邻扬声器形成三维声音矢量,不会影响低频的双耳时间差(ITD)或高频的频谱线索,从而实现三维空间中的虚拟声像定位。由于算法简单,幅度矢量合成(VBAP)是目前最常用的沉浸式音频处理技术。高阶(HOA)则利用球谐函数将所有的内容渲染到一个全景声虚拟球体上,记录声场并驱动扬声器,具有严格的扬声器排布要求,能在扬声器中心位置高质量重建原始声场,在渲染移动对象时,可营造出更流畅、更平滑的虚拟声像听感。

数字电影沉浸式音频渲染效果评价方法

由于数字电影沉浸式音频采用"对象+元数据"架构,需通过渲染算法将静态和动态对象还原到影厅,目前各生产厂家均采用自有的渲染算法,缺少有效的评价手段,导致还音效果参差不齐,严重影响沉浸式音频内容的视听体验。沉浸式音频渲染采用虚拟声像概念,靠驱动邻近的扬声器系统旨在营造出既定空间位置的效果。由于虚拟声像技术营造一种主观感受,目前无法用客观指标进行评价,本章节针对数字电影沉浸式音频渲染技术的特点,提出了一种能够评价声床、静态对象和动态对象还音效果的主观评价方法。

声床评价

数字电影沉浸式音频声床通过固定基础还音通道还原至影厅,伴随数字电影还音的整个过程,声床评价应重点考察声音原始素材经过编码、解码带来的音质损伤程度。

声床评价采用带隐藏参考和隐藏锚点的"单/双盲多刺激"方法,A代表参考源,隐藏参考、隐藏中等锚点、隐藏低等锚点和被测对象需随机分配给B、C、D、E,听音员分别评价B、C、D、E相对于A的音质损伤程度。声床评价隐藏参考为音频源,中等锚点为参考源经过截止频率为7 kHz的低通滤波处理,低等锚点为参考源经过截止频率为3.5 kHz的低通滤波处理。

静态对象评价

数字电影沉浸式音频静态对象的声场还原利用元数据空间位置、增益等信息,通过空间声场渲染算法将静态对象内容渲染到元数据指定的影厅空间位置,该元数据空间位置信息不随时间变化而变化。因此,在对静态对象进行评价时,应重点考察静态对象位置、增益、尺寸的还原与元数据描述信息的一致性,评价指标如表1所示。

表1 静态对象评价指标

静态对象评价时需要为评价人员提供被测对象的参考源,因目前暂无公认的可作为标准参考的渲染系统,本文提出一种以参考源描述信息作为参考源的方法,该方法采用的静态对象评价素材由参考源描述和被测对象组成,A代表静态对象参考源描述,B代表被测对象,评价人员评价B相对于A的重合程度。参考源空间位置信息使用元数据空间位置映射归一化三维坐标系表示,评价点的静态位置选择应覆盖影厅主要区域,静态评价对象参考信息描述如表2所示。

表2 静态评价对象参考源描述

动态对象评价

数字电影沉浸式音频动态对象的声场还原是利用元数据空间位置、增益等信息,通过空间声场渲染算法将动态对象内容渲染到元数据指定的影厅空间处,该元数据空间位置信息随时间变化而变化。因此,在对动态对象进行评价时,应重点考察动态对象空间运动、运动过程中的物体大小和远近变化特性与元数据描述信息的一致性,评价指标的遴选如表3所示。

表3 动态对象评价指标

表4 动态评价对象参考源描述

数字电影沉浸式音频渲染效果评价尺度

评价人员对相关指标进行评价时采用百分制,综合评价得分值为项目评价得分值的算术平均值,单项和综合评价等级分为"优"、"良"、"中"、"差"、"劣"五级,评分值与评价等级对应关系如表5所示。

表5 评分值与评价等级对应表

声床评价尺度

声床评价主要考察音频文件经过编码、解码后的音质损伤程度,评价标度如表6所示。

表6 声床音质评价标度

静态对象评价尺度

评价静态对象时应综合考虑被评价对象位置、增益、尺寸变化与参考源描述信息的一致性,静态对象位置、增益、尺寸变化与参考源描述信息的重合度,静态对象位置、增益、大小重合度评价标度如表7所示。

表7 静态对象位置、增益、大小重合度评价标度

动态对象评价尺度

动态对象评价应综合考虑被评价对象位置的变化、位置变化时增益和距离的变化与参考源描述信息的重合度,评价尺度如表8所示。

表8 动态对象位置变化、增益和距离变化重合度评价标度

总结

SMPTE 2098系列沉浸式音频元数据和编解码规范的发布,为实现沉浸式音频技术制版相对统一和系统间互操作提供了较好的技术借鉴。这种基于"元数据+声床+对象"的沉浸式音频制作和渲染理念,颠覆了传统的数字电影声音制作和还音方式,其以便捷高效的制作和灵活的还音布局受到关注,将是未来我国数字电影沉浸式音频技术发展的主要方向。

基于对象的沉浸式音频技术在我国处于发展初期,各生产厂家使用的沉浸式音频渲染算法各异,导致还音效果差异较大,面对上述问题,本文提出了一种能够反映沉浸式音频渲染效果的主观评价方法,规定了声床、静态对象和动态对象的评价指标、参考源和评级尺度。该方法可用于沉浸式音频研发企业提供产品研发、调试和评价,为推动我国数字电影沉浸式音频技术的发展,确保每个影厅的还音效果较为一致,规范沉浸式音频技术市场提供技术保障。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号